WO2021166728A1 - 情報処理方法、探索システムおよび探索方法 - Google Patents

情報処理方法、探索システムおよび探索方法 Download PDF

Info

Publication number
WO2021166728A1
WO2021166728A1 PCT/JP2021/004695 JP2021004695W WO2021166728A1 WO 2021166728 A1 WO2021166728 A1 WO 2021166728A1 JP 2021004695 W JP2021004695 W JP 2021004695W WO 2021166728 A1 WO2021166728 A1 WO 2021166728A1
Authority
WO
WIPO (PCT)
Prior art keywords
physical characteristic
relational expression
database
search
physical
Prior art date
Application number
PCT/JP2021/004695
Other languages
English (en)
French (fr)
Inventor
吉武道子
Original Assignee
国立研究開発法人物質・材料研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人物質・材料研究機構 filed Critical 国立研究開発法人物質・材料研究機構
Priority to EP21756526.6A priority Critical patent/EP4109298A4/en
Priority to US17/799,670 priority patent/US20230082534A1/en
Priority to JP2022501819A priority patent/JP7352315B2/ja
Publication of WO2021166728A1 publication Critical patent/WO2021166728A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Definitions

  • the present invention relates to a search system and a search method using a database, and an information processing method for managing the database, and a search system and a search that take into account a quantitative relationship, particularly when searching for a relationship between a plurality of physical property parameters. It can be suitably used for creating a method and a database used for it.
  • Patent Document 1 discloses a search system capable of objectively searching for information on constituent substances of a new material having desired properties.
  • the search system disclosed in the same document includes a database having a plurality of physical characteristic parameter information for each of a plurality of (many) substances.
  • the database may have physical property parameters for which actual data is not given depending on the substance.
  • a two-dimensional or three-dimensional or higher space is created with the physical property parameter to be searched as one axis and a part of the other physical property parameters as the other axis, and each substance in the above database is mapped.
  • the physical property parameters for which there is no actual data are supplemented by virtual data predicted by using multivariate analysis, calculation based on a predetermined logical formula, or first-principles calculation.
  • a search map obtained by mapping real data and virtual data it is said that a substance having desired characteristics is specified based on a predetermined rule.
  • Patent Document 2 describes a search system capable of searching for an unknown combination of physical characteristic parameters having a significant relationship based on an already known relationship among arbitrary combinations of a plurality of physical characteristic parameters. And the search method are disclosed.
  • This search system includes a database, a graph generation unit, and a graph search unit, and is configured as follows.
  • the database stores multiple pairs of physical characteristic parameters that are related to each other. Such a database will be called a physical characteristic relationship database.
  • the graph generation unit generates a graph in which a plurality of physical characteristic parameters stored in the physical characteristic relationship database are nodes, and nodes corresponding to the physical characteristic parameter pairs stored as having a relationship are edges.
  • the graph search unit searches the graph generated by the graph generation unit based on the given search conditions, and outputs the search result.
  • Patent Document 3 discloses a search system and a search method capable of performing a search in consideration of priority.
  • a route search is performed for the generated graph using the same physical characteristic relationship database as in Patent Document 2.
  • various weights are applied to the relationship between the physical property parameters, and the relationship is given as an attribute of the corresponding edge. Using that attribute, the priority of the route extracted as a result of the search is obtained, and the results are output in descending order of priority.
  • Patent Document 4 a function relating two physical characteristics parameters is associated with an edge connecting nodes corresponding to the two physical characteristics parameters, a composite function is obtained along a path, and the starting point is increased or decreased according to the increase or decrease in the physical characteristics.
  • a search system that displays how the physical properties of the end point change is disclosed.
  • the relationship function of the physical property parameters on the cause side and the effect side is described in contentMathML, stored in the same physical property relationship database as in Patent Document 2, and referred to.
  • a technique is described in which a synthetic function is obtained and the direction and degree of increase / decrease of the physical characteristic parameter up to the result side when the cause side physical characteristic parameter changes are displayed separately.
  • the direction and degree of increase / decrease are classified into, for example, linear increase or decrease, gradual increase or decrease than linear, power increase or decrease, and exponential increase or decrease.
  • Patent Document 1 the inventor of the present application does not use a method such as Patent Document 1 from the viewpoint of computer performance because the number of physical characteristic parameters becomes enormous when trying to take a cross-sectional view of many technical fields. I found the problem of becoming practical. Therefore, by mapping the relationship between the physical property parameters to the graph as described above, it is possible to extract an unknown but significant relationship from any combination regardless of the presence or absence of the relationship. We found that, and proposed a search system and a search method described in Patent Documents 2 and 3 as a solution to the problem.
  • the extraction result can be output in various forms depending on the combination of the physical property parameters of the cause side and the result side having a relationship. For example, a plurality of paths from the cause side physical characteristic parameter to the result side physical property parameter, a set of result side physical property parameters within a predetermined range from the cause side physical property parameter, and conversely, within a predetermined range to the result side physical property parameter. It is a set of physical characteristics parameters on the cause side. For example, when a user who searches for a material aims to identify a material having a desired property, all the physical property parameters on the path from the causal side physical property parameter to the result side physical property parameter satisfy a predetermined specification. The aim is to identify the material.
  • the search route is prioritized based on the measurable property value, the amount of data of the physical property value in the physical characteristic relationship database, the value of the physical property value, and the like. Therefore, it is extremely effective for the user to identify the desired or optimum physical characteristic control route. However, it could not be said that it was sufficient due to lack of information such as increase / decrease and degree of physical property parameters included in the route.
  • the search system shown in Patent Documents 2 and 3 focuses only on the presence or absence of the relationship (causal relationship) between physical properties, and defines and handles the relationship between a plurality of physical property parameters by mathematical formulas and functions. I could't.
  • the search system shown in Patent Document 4 can handle the quantitative relationship between physical properties. For that purpose, it is ideal that all the physical characteristic parameter pairs stored in the physical characteristic relationship database are comprehensively stored. However, it takes a huge amount of man-hours to manually maintain it. Furthermore, the fact that only people with specialized knowledge can perform such work is a bottleneck for maintenance work. There are a huge number of descriptions in textbooks that relate the relationships between physical properties using mathematical formulas and functions, but in order to extract such findings beyond the field of the textbook, experts who are familiar with all fields are required. This is because it is required.
  • the present inventor has invented a technique for extracting the relationship between physical property parameters written in the input textbook document by reading the textbook document, performing natural language processing, and performing deep learning.
  • the applications were filed as Japanese Patent Application No. 2018-194117 and Japanese Patent Application No. 2019-125841.
  • pairs of physical characteristic parameters having a causal relationship that should be stored in the physical characteristic relationship database can be extracted without human intervention, and the man-hours required for database maintenance can be significantly reduced. ..
  • the quantitative relationship between physical properties still requires man-hours by experts.
  • the relationship between physical characteristic parameters is often described by a relational expression, and is more rigorous, as it is described by a sentence (natural language) in a textbook document.
  • the number of physical characteristic parameters defined by one relational expression is not limited to two, and there are many cases where three or more physical characteristic parameters are involved. Therefore, the work of storing the relational function relating the two physical characteristic parameters in the physical characteristic relational database requires the work of an expert.
  • An object of the present invention is to provide a method of extracting a relational expression relating two physical characteristic parameters from a textbook document by a computer and storing it in a physical characteristic relation database regardless of whether or not the physical characteristic parameter pair is related. Is. In addition, it is to provide a search system that takes into account the quantitative relationship between physical properties by using the physical property relationship database in which the relational expression between the physical property parameters having a causal relationship is input.
  • it is an information processing method for inputting a relational expression expressing the relationship between two physical characteristic parameters constituting the physical characteristic parameter pair into the physical characteristic relationship database that stores the physical characteristic parameter pairs having a mutual relationship as follows. It is composed of.
  • Extract the mathematical expression information that represents the relational expression from the read input data and extract the multiple variables that make up the relational expression and the relational expression that defines the relationship from the mathematical expression information.
  • the description that defines each of the plurality of variables is extracted from the input data, and each variable is associated with the physical property parameter by referring to the physical characteristic relationship database.
  • the relational expression extracted above is input to the physical characteristic relational database by associating it with the physical characteristic parameter pair corresponding to two of the plurality of variables constituting the relational expression.
  • FIG. 1 is a flowchart showing a configuration example of the information processing method according to the first embodiment.
  • FIG. 2 is an explanatory diagram showing a configuration example of the physical characteristic relationship database of the present invention.
  • FIG. 3 is an explanatory diagram showing an example of input data including a relational expression of physical properties.
  • FIG. 4 is an explanatory diagram showing an image of a relational expression portion extracted from the input data shown in FIG.
  • FIG. 5 is an explanatory diagram showing an example in which the relational expression extracted from the image information shown in FIG. 4 is represented by presentation MathML. The same applies to mathematical information contained in electronically published subjects.
  • FIG. 6 is an explanatory diagram showing an example in which the relational expression expressed in presentationMathML is converted into contentMathML and expressed as shown in FIG. FIG.
  • FIG. 7 is an explanatory diagram showing text data converted into XHTML by optical character recognition from the input data in pdf format exemplified in FIG.
  • FIG. 8 is a flowchart showing an example of a method of narrowing down the data to be certified as a mathematical formula from the extracted text data in the presentation MathML format.
  • FIG. 9 is a flowchart showing a modified example of the information processing method according to the first embodiment.
  • FIG. 10 is a flowchart showing another modification of the information processing method according to the first embodiment.
  • FIG. 11 is a flowchart showing still another modification of the information processing method according to the first embodiment.
  • FIG. 12 is a block diagram showing a configuration example of the search system according to the second embodiment.
  • FIG. 13 is a flowchart showing a configuration example of the search method according to the second embodiment.
  • FIG. 14 is a block diagram showing an example of a hardware system used in the information processing method and the search method of the present invention and in which the search system 10 can be implemented.
  • FIG. 15 is a block diagram showing a configuration example of the search system according to the third embodiment.
  • FIG. 16 is an explanatory diagram showing the relationship between the physical characteristic relationship database 1 and the influencing factor database 5.
  • FIG. 17 is an explanatory diagram for displaying the dependency information of the influencing factor by the search system according to the third embodiment.
  • FIG. 18 is an explanatory diagram showing an example of extracting a relational expression from a textbook in the field of electrochemical and inputting it into a physical characteristic relational database.
  • FIG. 19 is an explanatory diagram showing an example in which relational expressions are extracted from textbooks in the field of thermochemistry and input to a physical characteristic relational database.
  • FIG. 20 is an explanatory diagram showing an example of a physical characteristic relationship database in which the extracted relational expression is input.
  • FIG. 21 is an explanatory diagram showing an example of a route search performed on the physical characteristic relationship graph generated from the physical characteristic relationship database shown in FIG. 20.
  • FIG. 22 is an explanatory diagram showing an example in which a relational expression is extracted from a textbook in the field of semiconductor physics and input to a physical characteristic relational database.
  • FIG. 23 is an explanatory diagram showing an example in which relational expressions are extracted from textbooks in the field of optical physical properties and input to the physical characteristic relation database.
  • FIG. 24 is an explanatory diagram showing an example of a physical characteristic relationship database in which the extracted relational expression is input.
  • FIG. 25 is an explanatory diagram showing an example of a route search performed on the physical characteristic relationship graph generated from the physical characteristic relationship database shown in FIG. 24.
  • a typical embodiment of the present invention is an information processing method using a computer provided with a storage device, and is configured as follows.
  • the information processing method is a method of inputting a relational expression representing the relationship between two physical characteristic parameters constituting the physical characteristic parameter pair into the physical characteristic relationship database (1) that stores the physical characteristic parameter pairs having a mutual relationship. Yes, including each of the following steps (Fig. 1).
  • This provides a method of extracting a relational expression relating two physical property parameters from a textbook document by a computer and storing it in a physical characteristic relation database. Furthermore, by using this, it is possible to provide a search system that takes into account the quantitative relationship between physical properties by using the physical characteristic relationship database in which the relational expression between the physical property parameters having a causal relationship is input.
  • the physical property parameter pair is composed of a causal side physical property parameter and a result side physical property parameter, and in the sixth step, the relational expression is converted into a variable calculated by the relational expression.
  • the corresponding physical property parameter is associated with the physical property parameter pair whose result side physical property parameter is the result side physical property parameter, and is input to the physical characteristic relationship database.
  • the information processing method of the item [2] further includes a seventh step (S7) of deriving a modified relational expression for calculating a variable other than the variable calculated by the relational expression from the relational expression, and the sixth step is ,
  • the modified relational expression is input to the physical characteristic relational database in association with a physical characteristic parameter pair in which the physical characteristic parameter corresponding to the variable calculated by the modified relational expression is used as the result side physical characteristic parameter (FIG. 9). More specifically, in the seventh step (S7), when the variable calculated by the relational expression is the left side, among the variables included in the right side, the variable representing the physical property parameter is obtained (the left side and the variable).
  • the modified relational expression is associated with an appropriate physical characteristic parameter pair whose result side is the physical property parameter corresponding to the variable on the left side among the physical characteristic parameter pairs stored in the physical characteristic relation database, and the physical characteristic relation is described. Entered in the database.
  • the information processing method according to any one of the items [1] to [3] further includes an eighth step (S8) of extracting a condition for establishing the relational expression from the input data, and the sixth step. Enters the condition into the physical property relationship database in association with a physical property parameter pair including the physical property parameter corresponding to the variable calculated by the relational expression (FIG. 10).
  • the sixth step is applied to the physical characteristic parameter pair when another condition is already associated with the physical characteristic parameter pair associated with the condition in the physical characteristic relationship database. Copy the corresponding record and enter the conditions.
  • the record is configured to include one physical characteristic parameter pair, one corresponding relational expression, and one corresponding condition
  • the physical characteristic relation database is composed of a plurality of records.
  • the relational expression extracted from the input data of one textbook or the like may be different from the relational expression extracted from the input data of another textbook or the like. Such a discrepancy is considered to occur, for example, when the environment (condition) in which the relational expression presupposed by each textbook is established is different.
  • the information processing method of the present invention by collating the relational expression already stored in the physical characteristic relational database with the relational expression to be newly extracted and input, it is entrusted to the user to deal with the case of inconsistency. It is possible to take measures to improve the reliability of the physical characteristic relationship database and the search system that uses it.
  • a typical embodiment of the present invention is a search system (10) including a physical characteristic relationship database (1), a graph generation unit (2), and a graph search unit (4), and is configured as follows.
  • NS. (Fig. 12)
  • the physical characteristic relationship database stores a pair of physical characteristic parameters that are related to each other and a relational expression that calculates the value of the other physical characteristic parameter using the value of one physical characteristic parameter of the physical characteristic parameter pair in association with each other.
  • the graph generation unit is configured to be capable of generating a graph (3) in which a plurality of physical property parameters included in the physical characteristic parameter pair are nodes and the nodes corresponding to the physical characteristic parameter pair are edges. Is configured to search the route of the graph based on the given search conditions, and to output the route as the search result together with the relational expression corresponding to the edge included in the route.
  • the search system further includes a relational expression extraction unit (20) that extracts a relational expression between physical property parameters having a causal relationship from input data of a textbook or the like and inputs it to the physical characteristic relational database.
  • the relational expression extraction unit (20) includes, for example, a relational expression recognition unit (21), a variable definition recognition unit (22), and a relational expression output unit (23).
  • the relational expression recognition unit (21) recognizes and extracts mathematical expression information representing the relational expression included in the input data
  • the variable definition recognition unit (22) extracts a description that defines a variable from sentences included in the same input data. ⁇ recognize.
  • the relational expression output unit (23) associates the physical characteristic parameters stored in the physical characteristic relational database (1) with the variables based on the recognized variable definition, and uses the extracted relational expression as the relational expression. , Enter in the physical characteristic relationship database.
  • the relational expression recognition unit (21), the variable definition recognition unit (22), and the relational expression output unit (23) are configured to perform operations corresponding to the first to sixth steps described in item [1]. , [2] to [7] can be further included in the search system to perform the operation corresponding to each step.
  • the physical characteristic relationship database stores the conditions for which the relational expression is established in association with the relational expression, and in the graph, the condition is attributed to the edge corresponding to the relational expression. Granted as.
  • the physical characteristic relationship database is configured to be able to store a plurality of relational expressions with different conditions that hold for the same physical characteristic parameter pair
  • the graph generator is a graph generator. A plurality of edges corresponding to the plurality of relational expressions having different conditions to be satisfied are generated in the graph between the nodes corresponding to the physical characteristic parameter pair.
  • the graph search unit uses a relational expression corresponding to the plurality of edges for a path including the plurality of edges included in the search result. It is configured so that it can be combined and output.
  • the search system (10) according to any one of the items [8] to [11] further includes an influence factor database (5), an influence determination unit (6), and a search result output unit (7). Be prepared.
  • the influential factor database stores at least one physical characteristic parameter among the plurality of physical characteristic parameters, one or more influential factors on which the physical characteristic parameter has a dependency, and a relational expression representing the dependency. do.
  • the relational expression output unit further associates the influential factors stored in the influential factor database with the variables based on the recognized variable definition, and uses the extracted relational expression as the relational expression, and uses the extracted relational expression as the influential factor. Fill in the database.
  • the influence determination unit determines whether or not the physical characteristic parameters corresponding to the nodes included in the search result are dependent on at least one influence factor, and the search result is determined.
  • the output unit is configured to be able to output the combination of the physical characteristic parameter and the influential factor determined by the influence determination unit to have a dependency and the relational expression thereof together with the search result.
  • a typical embodiment of the present invention is a search method that uses a computer having a storage device and refers to a physical property relationship database stored in the storage device, and is a relational expression / variable definition extraction step (S20).
  • the physical property relationship database input step (S21), the graph generation step (S22), and the graph search step (S23) are included, and are configured as follows (FIG. 13).
  • the physical characteristic parameter pair having a mutual relationship and the relational expression for calculating the value of the other physical characteristic parameter using the value of one physical characteristic parameter of the physical characteristic parameter pair are associated with each other. It is configured by storing in the storage device.
  • the relational expression and the variable definition contributing to the relational expression are extracted from the input data of a textbook or the like, and in the physical property relationship database input step, the extracted variable is used as the variable definition. Based on this, the physical property parameters stored in the physical property relationship database (1) are associated with each other, and the extracted relational expression is input to the physical property relationship database.
  • the graph generation step generates a graph in which a plurality of physical characteristic parameters included in the physical characteristic parameter pair are nodes and the nodes corresponding to the physical characteristic parameter pair are edges, and the graph search step is given search conditions.
  • the route search of the graph is performed based on (S24), and the route which is the search result is output together with the relational expression corresponding to the edge included in the route (S25).
  • the relational expression / variable definition extraction step (S20) and the physical characteristic relational database input step (S21) are configured to perform operations corresponding to the first to sixth steps described in item [1], and [2] ]
  • To the configuration that performs the operation corresponding to each step described in [7] can be further added or included in the search system.
  • the physical characteristic relationship database stores the conditions for which the relational expression is established in association with the relational expression, and in the graph, the condition is attributed to the edge corresponding to the relational expression. Granted as.
  • the physical characteristic relationship database is configured to be able to store a plurality of relational expressions with different conditions that hold for the same physical characteristic parameter pair, and the graph generation step is performed. A plurality of edges corresponding to the plurality of relational expressions having different conditions to be satisfied are generated in the graph between the nodes corresponding to the physical characteristic parameter pair.
  • the graph search step obtains a relational expression corresponding to the plurality of edges for a path including the plurality of edges included in the search result. Combine and output.
  • the influence factor database (5) stored in the storage device or another storage device (112, 122 in FIG. 14) is referred to. It further includes an impact determination step and a search result output step.
  • At least one physical characteristic parameter among the plurality of physical characteristic parameters, one or more influential factors to which the physical characteristic parameter has a dependency, and a relational expression expressing the dependency are associated with each other.
  • the influencer and the variable stored in the influencer database are associated with each other and the extracted relationship is obtained.
  • the formula is input to the influence factor database as the relational formula.
  • the influence determination step determines whether or not the physical characteristic parameter corresponding to the node included in the search result is dependent on at least one influence factor, and the search result output step is described together with the search result.
  • the combination of the physical characteristic parameter and the influencing factor determined to have the dependency in the influence determination step and the relational expression thereof are output.
  • FIG. 1 is a flowchart showing a configuration example of the information processing method according to the first embodiment.
  • the first embodiment is an information processing method using a computer provided with a storage device, and is configured as follows.
  • the information processing method of the present embodiment provides a relational expression expressing the relationship between the physical characteristic parameter pairs stored as having a causal relationship with respect to the physical characteristic relationship database 1 that stores the physical characteristic parameter pairs having a mutual relationship. It is a method of inputting and includes each of the following steps.
  • the physical characteristic relationship database 1 is composed of a plurality of records including one set of each set of physical characteristic parameter pairs having a relationship with each other (the same applies to other embodiments).
  • the input data is preferably a document such as a textbook whose contents have been scrutinized and recognized as accurate.
  • the input data includes sentences as text data, information for displaying figures and mathematical formulas.
  • the input data here includes, for example, documents printed on paper such as books, documents electronically published in various formats such as pdf (Portable Document Format) and ePUB (Electronic PUBlication), and documents accessible from the Internet on the Web. A description is included.
  • "information for displaying a mathematical formula" is information indicating the external structure of the content to be displayed, and is an image such as a bitmap, a tif (tagged image file format), or a jpeg (joint photographic expert group).
  • the present invention is not limited to this.
  • the document is a printed matter such as a book
  • the text recognized as a character is used as text data
  • the remaining part is used as image information as input data.
  • the input data is often composed of text data and image information.
  • the input data is an electronically published book, etc., it is described in a format compliant with XHTML such as ePUB, and if the input data is a description on the web that can be accessed from the Internet, HTML or XHTML.
  • it is written in a language such as, and in each case, it contains text data representing sentences and information for displaying figures and tables.
  • the input data is a description on the Web, the whole is described in a language such as HTML or XHTML, and the relational expression is often described in presentation MathML.
  • the relational expression is often described in presentation MathML.
  • the mathematical expression information is an image
  • a commercially available recognition software such as InftyReader can be used to extract the relational expression from the image information.
  • InftyReader can output a file in XHTML format including text information representing sentences and description such as presentation MathML representing mathematical formulas etc. from the input pdf file by the character recognition function. If the input data is a description on the web or a book in ePUB format and the relational expression is described in presentationMathML, the data at this stage will be in the same format.
  • the extracted relational expression is converted into a form representing a quantitative relation.
  • the above-mentioned presentation MathML is not a format that expresses a quantitative relationship although it expresses a display format, so it is preferable to convert it into a content MathML that expresses a quantitative relationship. Such conversion can also be performed by existing software tools.
  • a code representing a physical property parameter or the like is used in the relational expression.
  • the variables used in the extracted relational expression are also extracted.
  • the text data extracted from the input data is traced back from the vicinity of the relational expression extracted in the third step to search for the place where each variable used in the extracted relational expression is defined. ..
  • Variable definitions are usually described immediately before or after the relational expression, at the beginning of the chapter / section, at the beginning of the literature, etc., so the variable definition is searched by tracing back from the vicinity of the relational expression. Can be found and extracted.
  • the format of the physical characteristic relationship database 1 is arbitrary.
  • the physical characteristic relationship graph 3 described in detail later can be treated as a network type (graph type) database as a unit.
  • the extracted relational expression is associated with the corresponding node as its attribute.
  • This provides a method of extracting a relational expression relating two physical property parameters from a textbook document by a computer and storing it in a physical characteristic relation database. Furthermore, by using this, it is possible to provide a search system that takes into account the quantitative relationship between physical properties by using the physical characteristic relationship database in which the relational expression between the physical property parameters having a causal relationship is input.
  • the information processing method of this embodiment is a hardware system equipped with a storage device and a computer as described in "Hardware / Software Implementation Form" described later (a computer or a computer system in which a plurality of computers are connected by a network). Above, the function is built as software.
  • FIG. 2 is an explanatory diagram showing a configuration example of the physical characteristic relationship database 1 of the present invention.
  • the example before the relational expression is input by the first to sixth steps is shown in the upper part, the example after the relational expression is input in the middle part, and the example after the transformation relational expression is input in the lower part.
  • the physical characteristic relationship database contains the cause-side and effect-side physical property parameters that form a pair of physical property parameters that have a causal relationship with each other, the relational expression that expresses the relationship between the two physical property parameters, and the conditions under which the relational expression is established. It is configured so that it can be stored for each record.
  • Each row of the physical characteristic relationship database shown in the tabular form in FIG. 2 is one record.
  • the physical characteristic relationship database 1 needs to store a plurality of pairs of physical property parameters having a causal relationship with each other, but the relational expression and the condition do not necessarily have to be stored.
  • the pair of physical property parameters that have a causal relationship with each other is not only a relationship based on scientific grounds, that is, a relationship based on a theoretically explained relationship, but a theoretical explanation has not yet been given.
  • the existence of a causal relationship is stored in each record of the physical characteristic relationship database 1 shown in the upper part of FIG. 2, but the relational expression and the condition are not stored.
  • the figure shows three records showing that there is a causal relationship between the three physical property parameters of the diffusion coefficient D, the frequency factor D0, and the activation energy Q.
  • the diffusion coefficient D is obtained from the values of the frequency factor D0 and the activation energy Q, but the opposite relationship, for example, the direction in which the activation energy Q is calculated from the diffusion coefficient D is common. If it cannot be said, unlike the third line in the upper part of FIG. 2, a record in which the mass diffusivity D is the cause side and the activation energy Q is the result side physical property parameter may not be included.
  • the relationship in which the activation energy Q is calculated from the diffusion coefficient D is useful in many cases, so it is better to include a record in which the diffusion coefficient D is the cause side and the activation energy Q is the result side physical property parameter. Suitable. Furthermore, as will be described later in "Derivation of the relational expression for calculating the cause side physical property parameter", in the second line, the relational expression for calculating the activation energy Q on the cause side is derived by mathematical transformation, and the third line. It is even more preferable to enter it in the relational expression field of the eye. It should be understood that the terms “cause side” and “result side” do not necessarily represent the cause and effect in the physical mechanism, but represent the right side and the left side of the mathematical formula.
  • FIG. 3 is an explanatory diagram showing an example of input data including a relational expression of physical properties.
  • the actual input data includes many relational expressions and sentences, but only a part including one relational expression is shown.
  • the text part is also shown as image data, but it is better to enter text data if possible.
  • OCR optical character recognition
  • the mathematical formula information representing the relational expression is extracted from the input input data.
  • the relational expression is included in the image information, so the area of the relational expression is extracted.
  • FIG. 4 is an explanatory diagram showing an image of a relational expression portion extracted from the input data shown in FIG.
  • FIG. 5 is an explanatory diagram showing an example in which the relational expression extracted from the image information shown in FIG. 4 is represented by presentationMathML.
  • the input data is a description on the web, a book in ePUB format, etc., and the relational expression is presentationMathML. The same applies when it is described in.
  • FIG. 6 is an explanatory diagram showing an example in which the relational expression is converted into contentMathML and expressed.
  • presentation MathML is a description language for displaying mathematical expressions, and describes the display position, font, italic, bold, etc., superscript, subscript, etc., but the calculation content is not described.
  • content MathML is a description language for indicating the operation content, and can include symbols such as equal sign, inequality sign, and parentheses, operations such as addition, subtraction, multiplication, division, and exponentiation, and functions such as exp and ln.
  • the variables D, D0, Q, R and T are extracted from the presentation MathML shown in FIG. 5 or the content MathML shown in FIG.
  • the description defining each of the variables D, D0, Q, R and T extracted in the third step (S3) is extracted from the input data. More specifically, what kind of physical characteristic parameter each variable indicates is extracted from a sentence whose meaning is understood by subjecting the text data included in the input data to natural language processing. From the input data illustrated in FIG. 3, there is a description that defines that the variable D is the mass diffusivity, the variable D0 is the frequency factor, the variable Q is the activation energy, the variable R is the gas constant, and the variable T is the absolute temperature. Be extracted. From the sentence “The diffusion coefficient D is related to...” immediately before Equation 5-4, it can be seen that the variable D is a variable representing the diffusion coefficient.
  • the physical characteristic relationship database 1 is referred to, and each of the variables used in the extracted relational expression and the physical characteristic relationship database 1 are displayed. Corresponds to the stored physical property parameters. Since the diffusion coefficient, the frequency factor, and the activation energy are stored as the physical property parameters on the cause side or the effect side in the physical characteristic relationship database 1 illustrated in FIG. 2, the extracted variables D, variable D0, and variables Each is associated with Q.
  • the gas constant represented by the variable R is a physical constant, and like the absolute temperature T, it is not stored as a physical characteristic parameter in the physical characteristic relationship database 1.
  • the same variables used in the textbook, which is the input data, are used for exemplification, but in the fifth step (S5), the physical characteristics parameters are not actually associated with each other based on the differences between the variables. Correspondence is made based on the specific name. The notational deviation of the physical characteristic parameter name will be absorbed at this stage. Therefore, a thesaurus of physical characteristic parameter names is provided, and the notation blur can be absorbed by referring to the dictionary.
  • FIG. 7 is an explanatory diagram showing text data converted from the pdf format input data illustrated in FIG. 3 into XHTML by optical character recognition.
  • the mathematical formula is described in presentation MathML in the part surrounded by “ ⁇ math...” and “ ⁇ / math>”.
  • the text data of XHTML includes not only mathematical formulas but also notations of variables alone, described in presentation MathML.
  • XHTML text data may include notations that indicate the relationship with constants and notations that indicate the magnitude relationship, even if they are mathematical formulas.
  • relational expression extraction step S2 in Fig. 1 etc.
  • FIG. 8 is a flowchart showing an example of a method of narrowing down the data to be certified as a mathematical formula from the extracted text data in the presentation MathML format.
  • Input the XHTML text data (S201).
  • Formula candidates (pMathML) are extracted from the input XHTML text data (S202). Since mathematical expressions are expressed in presentation MathML format in XHTML, the character string enclosed by " ⁇ math” and " ⁇ / math>” is extracted as a mathematical expression candidate.
  • it is determined whether or not the formula candidate includes a symbol that defines the relationship (S203). In presentationMathML, the symbol is surrounded by " ⁇ mi>" and " ⁇ / mi>", so it is judged by whether or not the symbol defines the relationship.
  • the symbols that define relationships include the equal signs " ⁇ " and " ⁇ ” that represent approximately equality, and the symbol “ ⁇ ” that indicates proportionality. You may. Since there is a mathematical formula showing a constant value even if it includes an equal sign or the like, the left side and the right side are separated from the formula candidates (S204), and it is determined whether or not the character representing the variable is included in the right side (S205).
  • the formula candidate character string (pMathML) the character string on the left side of the " ⁇ mi> symbol ⁇ / mi>" including the symbol determined in S203 is the left side (Lmem), and the character string on the right side is (Rmem).
  • the character string representing the variable is usually composed of one or more character strings starting with an alphabetic character or a Greek character. If you define a string that represents a variable and the string is surrounded by ⁇ mi> "and" ⁇ / mi> ", the left side (Lmem) may contain the variable. High. As a result, the formula candidate is recognized as a formula (S206). Each of the above steps is repeated until the end of the text data of XHTML is reached (S207).
  • each may be treated as a separate physical characteristic parameter, or may be collectively treated as a single physical characteristic parameter.
  • the relationship between a plurality of different physical property parameters defined for substantially the same physical property is set as one record, and the relationship is defined as a relational expression. ..
  • the physical characteristic relationship database 1 is associated with the physical characteristic parameter pair corresponding to two of the plurality of variables used in the extracted relational expression, and the relational expression is set. input. Since the extracted relational expression is an expression having the diffusion coefficient D as the left side, the relational expression is input to the record in which the diffusion coefficient D is the causative side physical property parameter.
  • the relational expression column of FIG. 2 for convenience of understanding, it is drawn so that it is input in a state of a mathematical expression that is easy for humans to read, but in reality, it is drawn by a computer like the content MathML shown in FIG. Stored in a readable format.
  • a relational expression relating two physical property parameters is extracted from a textbook document by a computer and stored in a physical characteristic relation database.
  • the information processing method of the present invention can further include a step of deriving a modified relational expression for calculating a variable other than the variable (variable on the left side) calculated by the relational expression extracted from the input data of a textbook or the like.
  • FIG. 9 is a flowchart showing a modified example of the information processing method according to the first embodiment.
  • a modified relational expression that calculates variables other than the variables calculated by the relational expression from the relational expression extracted in the second step (S2) and converted into a format that describes the quantitative relationship in the third step (S3).
  • the seventh step (S7) for deriving the above is added. Since the relational expression is converted into a form for describing the quantitative relationship in the third step (S3), it can be transformed into a form for calculating each variable by mathematical expression transformation. The transformed expression is called a transformation relational expression.
  • the sixth step (S6) not only the relational expression extracted from the input data but also the deformation relational expression derived in the seventh step (S7) is a physical characteristic parameter corresponding to the variable calculated by the deformation relational expression. Is associated with the physical characteristic parameter pair having the result side physical characteristic parameter, and the modified relational expression is input in the relational expression field of the corresponding record of the physical characteristic relational database 1.
  • the transformation relational expression for calculating each variable is derived by purely mathematical expression transformation, when there is no physical property parameter corresponding to the variable appearing on the left side, and on the left side.
  • the physical property relationship database 1 does not have a record in which the physical property parameter corresponding to the variable that appears is the result side physical property parameter.
  • a step may be added in which it is left to the user to determine whether or not the causal relationship actually exists and whether or not the relationship should be stored in the physical characteristic relationship database 1.
  • the deformation relational expression deformed so that the activation energy Q can be derived is input in the relational expression column of the record on the third line.
  • the deformation relational expression for deriving the frequency factor D0, the gas constant R, and the absolute temperature T is not input to the physical characteristic relational database 1 because there is no corresponding record. Since the gas constant R and the absolute temperature T are not physical property parameters, it is natural that there is no record in which the deformation relational expression for deriving them should be input.
  • the frequency factor D0 is a physical characteristic parameter, it may be configured so that it can be examined whether or not it is appropriate that there is no record for inputting the deformation relational expression for deriving it.
  • the step of entrusting the user to decide whether or not to add the corresponding record. Can be added.
  • deficiencies in the physical characteristic relationship database 1 can be detected, and reliability can be improved.
  • the 7th step (S7) may be added after the 6th step (S6). It is detected that a record that defines a causal relationship in the opposite direction exists in the physical characteristic relationship database 1, and a modified relational expression that derives the result side physical characteristic parameter at that time is obtained, and the relational expression column of the record is obtained. Enter in. As a result, the computer load for deriving the deformation relational expression can be minimized.
  • the illustrated physical characteristic relationship database 1 is an example of storing the physical characteristic parameter pairs having a causal relationship separately on the cause side and the effect side, but it is also possible to carry out in a form of storing without distinguishing them.
  • the transformation relational expression may be derived as necessary at the search stage.
  • the relational expression that defines the relationship between the physical characteristic parameters may be accompanied by a condition that holds. Even if a general expression that holds under all conditions can be defined, some terms may be negligibly small depending on the conditions, so a relational expression that omits such terms is often used. .. Even in textbooks, relational expressions are often described in a format that holds under such certain conditions. In such a case, different relational expressions are defined under different conditions even for the same physical characteristic parameter pair.
  • a conditional relational expression can be appropriately handled by adding a step of extracting the condition for which the relational expression is satisfied from the input data and inputting the condition into the physical characteristic relational database. ..
  • FIG. 10 is a flowchart showing another modified example of the information processing method according to the first embodiment.
  • the eighth step (S8) of extracting the condition for establishing the relational expression from the input data is added.
  • the third step (S3) the relational expression and the variables included in the relational expression are extracted, and in the fourth step (S4), the description in which the variable is defined is searched and extracted.
  • the conditions under which a relational expression holds are sometimes defined as the possible range of the variables used in the relational expression, and are often described in the part close to the description of the variable definition, so searches in parallel. It is efficient to do.
  • the conditions for satisfying the relational expression extracted in the third step (S3) are extracted from the input data, and in the sixth step (S6) in the latter stage, the variables calculated by the relational expression are used.
  • the conditions extracted in the eighth step (S8) are input to the condition column (see FIG. 2) of the physical characteristic relationship database 1 in association with the physical property parameter pair including the corresponding physical characteristic parameters.
  • the mathematical expression candidate (pMathML) contains one or more inequalities in parallel with the step (S203) of determining whether or not the mathematical expression candidate (pMathML) includes an equal sign or the like, it is extracted as an expression representing a condition. If there are two or more inequalities, the range is specified, so there is a possibility that the relational expression holds.
  • the character string representing the variable is not included in either the right side or the left side, that is, it is a constant. In this case, it is extracted as an expression representing the condition.
  • the formula candidate is certified as a formula (S205, S206) because the character is included on the right side, it may be a formula representing a condition. For example, when “the temperature T is close to the melting point Tm" is a condition for establishing the relational expression, it may be expressed as "T to Tm".
  • the same mathematical formula candidate is a relational expression candidate and is also treated as a formula candidate representing the establishment condition. Since the condition for establishing the relational expression is not always expressed by a mathematical expression, natural language processing is also used together. For example, “in the case of a transition metal”, “in the case of an insulator", and the like.
  • the sixth step (S6) when the newly extracted condition is to be input to the physical characteristic relationship database 1, another condition may already be associated with the associated physical characteristic parameter pair. This is because even the same physical characteristic parameter pair may have a relationship defined by another relational expression under different conditions.
  • the record corresponding to the physical characteristic parameter pair is copied, one record for the same physical characteristic parameter pair is added, and the relational expression extracted in the third step (S3) and the eighth step (S8). ) Is entered in the relational expression column and condition column of the record to which the condition extracted in) is added.
  • the physical characteristic relationship database 1 includes a plurality of records for the same physical characteristic parameter pair, and different relational expressions and establishment conditions are stored for each.
  • the newly extracted relational expression when the newly extracted relational expression is to be input to the physical characteristic relational database 1 in the sixth step (S6), another relation is associated with the same physical characteristic parameter pair.
  • the expression may further include a step of matching the newly extracted relational expression with another already stored relational expression.
  • the relational expressions do not match, the user can be notified and a response can be requested.
  • the above-mentioned "processing of different conditions" can be performed without notifying the user.
  • the information processing method of the present invention adds a step of determining whether each of the plurality of variables used in the relational expression extracted together with the relational expression in the third step (S3) is an independent variable or a dependent variable. Can be done.
  • FIG. 11 is a flowchart showing still another modified example of the information processing method according to the first embodiment.
  • the information processing method consists of a fifth step (S5) of associating a variable with a physical property parameter, a ninth step (S9) of determining whether each variable is an independent variable or a dependent variable, and a case where the variable is a dependent variable.
  • the tenth step (S10) for generating the dependent variable relational expression for calculating the dependent variable and the eleventh step (S11) for displaying the calculated dependent variable relational expression are further included.
  • the ninth step (S9) by referring to the physical characteristic relationship database 1 or the physical characteristic relationship graph 3 (described later) generated from the database 1, it is possible to make a judgment based on the causal relationship of the physical property parameters corresponding to each variable. ..
  • z and x and z and y have a causal relationship, respectively, and z and x and z and y are connected to the physical characteristic relationship graph 3 generated from the physical characteristic relationship database 1.
  • the physical characteristic parameters and the corresponding nodes should be distinguished, but here, the nodes corresponding to the physical characteristic parameters x, y, and z are also described as x, y, and z.
  • a dependent variable relational expression for calculating the variable is generated in the 10th step (S10) and calculated in the 11th step (S11). Display the dependent variable relational expression.
  • the calculated dependent variable relational expression may be input to the physical characteristic relational database 1.
  • y is a dependent variable that also depends on x
  • a record having the causal side physical property parameter x and the result side physical property parameter y is stored in the physical characteristic relationship database 1, so that record.
  • the above dependent variable relational expression may be entered in the relational expression field of. Note that this step is not shown in FIG.
  • An output step of the dependent variable relational expression may be added in place of the eleventh step (S11) or in addition to the eleventh step (S11).
  • FIG. 12 is a block diagram showing a configuration example of the search system according to the second embodiment.
  • the second embodiment is a search system 10 including a physical characteristic relationship database 1, a graph generation unit 2, and a graph search unit 4, and is configured as follows.
  • the physical characteristic relationship database 1 stores the physical characteristic parameter pair having a mutual relationship and the relational expression for calculating the value of the other physical characteristic parameter using the value of one physical characteristic parameter of the physical characteristic parameter pair in association with each other.
  • the method is not limited to this.
  • the physical characteristic relationship database 1 that can be used in the search system 10 according to the second embodiment is obtained. can do.
  • the graph generation unit 2 generates a physical characteristic relationship graph 3 in which a plurality of physical property parameters included in the physical characteristic parameter pair stored in the physical characteristic relationship database 1 are nodes and the nodes corresponding to the physical characteristic parameter pairs are edges. do.
  • the graph search unit 4 searches the route of the physical characteristic relationship graph 3 based on the given search conditions, and outputs the route that is the search result as the search result together with the relational expression corresponding to the edge included in the route.
  • the search system 10 further includes a relational expression extraction unit 20 that extracts a relational expression between physical property parameters having a causal relationship from input data of a textbook or the like and inputs it to the physical characteristic relationship database 1.
  • the relational expression extraction unit 20 inputs the relational expression into the physical characteristic relational database 1 by the information processing method according to the first embodiment.
  • the relational expression extraction unit 20 includes, for example, a relational expression recognition unit 21, a variable definition recognition unit 22, and a relational expression output unit 23.
  • the relational expression recognition unit 21 recognizes and extracts mathematical expression information representing the relational expression included in the input data. That is, the relational expression recognition unit 21 has a configuration capable of executing the processes corresponding to the second and third steps (S2, S3) of the first embodiment.
  • the variable definition recognition unit 22 extracts and recognizes a description that defines a variable from sentences included in the same input data. That is, the variable definition recognition unit 22 has a configuration capable of executing the process corresponding to the fourth step (S4) of the first embodiment. Based on the recognized variable definition, the relational expression output unit 23 associates the physical characteristic parameters stored in the physical characteristic relational database 1 with the variables, and uses the extracted relational expression as the relational expression column of the physical characteristic relational database 1. Enter in. That is, the relational expression output unit 23 has a configuration capable of executing the processes corresponding to the fifth and sixth steps (S5 and S6) of the first embodiment.
  • the search system 10 when the search system 10 outputs the search result satisfying the given search condition, the search system 10 can output the route included in the search result in consideration of the quantitative relationship between the physical characteristics. Become. That is, by using the physical characteristic relationship database in which the relational expression between the physical property parameters having a causal relationship is input, it is possible to provide a search system that takes into account the quantitative relationship between the physical properties. Further, the search system 10 is provided with a configuration in which the relational expression is extracted from a textbook or the like and input to the physical characteristic relational database 1, and the management of the physical characteristic relational database 1 is facilitated.
  • the relational expression recognition unit 21, the variable definition recognition unit 22, and the relational expression output unit 23 are configured to perform operations corresponding to the first to sixth steps (S1 to S6) described in the first embodiment.
  • the search system 10 may further include a configuration that performs an operation corresponding to each of the other steps described in the first embodiment.
  • the physical characteristic relationship database 1 can be provided with an area for storing the conditions for establishing the relational expression in association with the relational expression.
  • the relational expressions and conditions stored in the physical characteristic relationship database 1 are positioned as the attributes of the edges corresponding to the associated physical characteristic parameter pairs. This makes it possible to appropriately handle relationships that are conditionally established.
  • the relational expression extraction unit 20 may extract relational expressions having different establishment conditions for the same physical characteristic parameter pair, in the search system 10, the physical characteristic relationship database 1 holds the conditions for the same physical characteristic parameter pair. It is desirable that it is configured so that multiple relational expressions with different characteristics can be stored.
  • the physical characteristic relationship database 1 is configured to store a plurality of records for the same physical characteristic parameter pair, and each record can store a relational expression and a condition for establishing the relational expression.
  • the graph generation unit 2 creates a plurality of edges each having a relational expression and its formation condition as an attribute between the nodes corresponding to the same physical characteristic parameter pair to which the plurality of relational expressions are associated.
  • the physical characteristic relationship graph 3 is generated. This makes it possible to appropriately handle relationships that are established under various conditions.
  • the search system 10 when the search system 10 outputs the search result satisfying the given search condition, the search system 10 can output the route included in the search result in consideration of the quantitative relationship between the physical characteristics.
  • the graph search unit 4 can synthesize and output a relational expression corresponding to each edge for a path including a plurality of edges included in the search result.
  • the operation of the search system 10 at this time will be briefly described.
  • search system 10 can function as software on a hardware system equipped with a storage device and a computer
  • the present invention can be positioned as a search method using a hardware system equipped with a storage device and a computer. can.
  • FIG. 13 is a flowchart showing a configuration example of the search method according to the second embodiment.
  • the search method according to the second embodiment is a search method using a computer having a storage device, and includes a graph generation step (S22) and a graph search step (S23), and is configured as follows.
  • the graph generation step (S22) is a physical characteristic relationship graph in which a plurality of physical characteristic parameters included in the physical characteristic parameter pair stored in the physical characteristic relationship database 1 are nodes, and the nodes corresponding to the physical characteristic parameter pair are edges. 3 (not shown in FIG. 13) is generated.
  • the graph search step (S23) searches the route of the physical characteristic relationship graph 3 based on the given search condition (S24), and outputs the search result route together with the relational expression corresponding to the edge included in the route (S23). S25).
  • this search method includes a relational expression / variable definition extraction step (S20) and a physical characteristic relational database input step (S21).
  • relational expression / variable definition extraction step (S20) the relational expression and the variable definition contributing to the relational expression are extracted from the input data of the textbook or the like.
  • physical characteristic relationship database input step (S21) the extracted variables are associated with the physical characteristic parameters stored in the physical characteristic relationship database 1, and the extracted relational expressions are input to the physical characteristic relationship database 1.
  • the physical characteristic relationship database 1 can be provided with an area for storing the conditions for which the relational expression is established in association with the relational expression, and in the physical characteristic relationship graph 3, the relational expression and the condition are stored. Is positioned as an edge attribute corresponding to the associated physical characteristic parameter pair.
  • the physical characteristic relationship database 1 can store a plurality of relational expressions with different conditions that hold for the same physical characteristic parameter pair, and the graph generation step (S22) corresponds to this. ) Generates a physical characteristic relationship graph 3 between nodes corresponding to the same physical characteristic parameter pair to which a plurality of relational expressions are associated, each having a relational expression and a plurality of edges having its formation conditions as attributes. This makes it possible to appropriately handle relationships that are established under various conditions.
  • the route included in the search result is output in consideration of the quantitative relationship between the physical properties. be able to.
  • the graph search step (S23) can synthesize and output a relational expression corresponding to each edge included in the path for the path including the plurality of edges included in the search result. As a result, it is possible to appropriately and easily handle the quantitative relationship along the route with respect to the relationship between the physical property parameters defined via the plurality of physical property parameters.
  • relational expression / variable definition extraction step (S20) and the physical characteristic relationship database input step (S21) are the same as the first to sixth steps described in the first embodiment, and the search method according to the second embodiment. Can further include each step corresponding to each of the other steps described in Embodiment 1.
  • the search system of the second embodiment searches for a route for the physical characteristic relationship graph 3 generated from the physical characteristic relationship database 1, and a relational expression or a composite function corresponding to the route as the search result and the edge included in the route. Output with.
  • the contribution of influencing factors is expressed in relational expressions and synthetic functions, but is not considered in the search itself.
  • the present inventor has invented a search system capable of reflecting the contribution of influencing factors in the search, and filed an application as Japanese Patent Application No. 2018-194118.
  • the search system includes a physical characteristic relationship database, a graph generation unit, and a graph search unit, as well as an influence factor database, an influence judgment unit, and a search result output unit, and corresponds to each node included in the route extracted as a result of the route search.
  • the presence or absence of dependence on the influencing factor is determined for the physical characteristic parameter to be used, and the combination of the physical characteristic parameter determined to be dependent and the influencing factor is output together with the dependency information.
  • the contribution of the influence factor can be reflected in the search.
  • FIG. 15 is a block diagram showing a configuration example of the search system 10 according to the third embodiment.
  • the search system 10 according to the third embodiment has an influence factor database 5 and an influence determination unit in addition to the physical characteristic relationship database 1, the graph generation unit 2 and the graph search unit 4 shown in the search system (FIG. 12) of the second embodiment. 6 and a search result output unit 7 are provided. Since the configuration and operation of the physical characteristic relationship database 1, the graph generation unit 2, and the graph search unit 4 are the same as those in the second embodiment, the description thereof will be omitted.
  • the influential factor database 5 stores each of the plurality of physical property parameters constituting the physical characteristic relationship graph 3 in association with the influencing factors to which the physical characteristic parameters have a dependency and the relational expression expressing the dependency.
  • the influence determination unit 6 determines whether or not the physical characteristic parameters corresponding to the nodes included in the search result are dependent on at least one influence factor.
  • the search result output unit 7 outputs the combination of the physical characteristic parameter and the influential factor determined by the influence determination unit 6 to have a dependency, and the relational expression thereof, together with the search result.
  • the search system 10 includes a relational expression extraction unit 20 that extracts a relational expression between physical property parameters having a causal relationship from input data of a textbook or the like and inputs it to the physical characteristic relationship database 1.
  • the relational expression extraction unit 20 inputs the relational expression into the physical characteristic relational database 1 by the information processing method according to the first embodiment. Since the basic operation of the relational expression extraction unit 20 is the same as the description quoting FIGS. 2 to 6, detailed description will be omitted.
  • the relational expression extraction unit 20 also extracts the relational expression and the like from the input data of the textbook and the like for the influential factor database 5.
  • FIG. 16 is an explanatory diagram showing the relationship between the physical characteristic relationship database 1 and the influencing factor database 5.
  • the upper part is one of the examples of the physical characteristic relation database 1 shown in FIG. 2, and the column of "relationship formula" is input based on the diffusion equation (FIG. 4) extracted from the textbook shown in FIG.
  • the relational expressions entered in the records on the first and second lines are the extracted diffusion equations converted to contentmathML, and the relational expressions entered in the records on the third line are the same relational expressions. It is transformed into a format for obtaining the variable Q.
  • the influential factor database 5 can be in a format in which the column of "causal side physical property parameter" which is the first column of the physical property relationship database 1 is replaced with "causal side influential factor".
  • the presence or absence of the relationship between the physical property parameter and the influencing factor is stored in the first column and the second column, and the relational expression expressing the relationship is stored in the third column.
  • the column of the relational expression in the third column is blank, that is, there is no data.
  • the physical characteristic relationship graph 3 has a plurality of physical characteristic parameters included in the physical characteristic parameter pair stored in the physical characteristic relationship database 1 as nodes, and the nodes corresponding to the physical characteristic parameter pairs as edges. , The graph.
  • the graph search unit 4 searches the route of the physical characteristic relationship graph 3 based on the given search conditions, and outputs the route that is the search result as the search result together with the relational expression corresponding to the edge included in the route.
  • the node corresponding to the influential factor stored in the influential factor database 5 is added to the physical characteristic relationship graph 3, and the node is connected to the node corresponding to the physical characteristic parameter depending on the influential factor. Is added.
  • the graph search unit 4 searches the route of the physical characteristic relationship graph 3 based on the given search conditions. However, the route from the node corresponding to a certain physical characteristic parameter to the node corresponding to another physical characteristic parameter via the node corresponding to the influential factor may be excluded from the target of the route search. It is valuable for the user to know whether or not a certain physical characteristic parameter is dependent on an influential factor, but the need to comprehensively extract all the physical characteristic parameters that are dependent on the influential factor is common. This is because it is unthinkable.
  • the influence factor database 5 will be explained in more detail.
  • the influential factor database 5 is configured separately for each influential factor of the subordinate concept, such as the environment description database 11, the morphological description database 12, and the size description database 13.
  • the environment description database 11 includes at least one of temperature, pressure, electric field, and magnetic field as an influential factor, and contains dependency information indicating the dependency relationship of the physical characteristic parameters that depend on the influential factor among a plurality of physical characteristic parameters. Store in association with each other.
  • the influencing factor held in the environment description database 11 is a factor representing the environment in which the substance is placed, and may affect the physical properties or physical property parameters of the substance.
  • the morphological description database 12 includes at least one of spherical, columnar, linear, cluster, surface area / volume ratio, orientation direction, and dispersion as an influencing factor, and is a physical property that depends on the influencing factor among a plurality of physical property parameters. Dependency information indicating the dependency of the parameter is stored in association with each other.
  • the influencing factor held in the morphological description database 12 is an influencing factor representing the shape and state of a substance. Since the shape and state of the substance may affect the physical properties or physical property parameters of the substance, this can be positioned as one of the influencing factors.
  • the size description database 13 includes at least one of length, diameter, nano, micro, and bulk as an influential factor, and shows the dependency relationship of the physical characteristic parameters that depend on the influential factor among the plurality of physical characteristic parameters. It is stored in association with the dependency information. While the influencing factor held in the morphological description database 12 represents the shape and state of a substance, the size description database 13 holds an influencing factor representing the size of the shape and state. While the illustrated "length” and “diameter” are influential factors that can give absolute values, “nano”, “micro”, and “bulk” do not represent pinpoint absolute values, but represent a range of values to some extent. It is an influential factor.
  • the former is such an influential factor because it may be included as a variable in a mathematical formula that defines physical property parameters and exhibits a quantitative relationship, for example.
  • the latter is an influential factor indicating the size of a substance in such a case, because, for example, a property that was not expressed in the bulk state may be expressed for the first time when it becomes a nano-sized fine structure. ..
  • the embodiment of holding in the same size description database 13 is illustrated, but since they are conceptually slightly different, they are divided into two databases. It may be configured to hold.
  • the influential factor database is divided into subordinate databases of different concepts, and it is possible to improve the convenience of the user when the dependence of the influential factor of the physical property parameter is used for displaying or narrowing down the search result.
  • FIG. 17 is an explanatory diagram for displaying the dependency information of the influencing factor by the search system according to the third embodiment.
  • the influence factor database 5 includes a database of subordinate concepts divided into an environment description database 11, a morphology description database 12, and a size description database 13. It is not always necessary to classify. In addition, categories other than the three categories illustrated and influencing factors that are not classified into the categories may be included in the influencing factor database 5.
  • the search result 31 output from the graph search unit 4 is displayed as a subgraph.
  • the physical characteristic parameters correspond to the nodes, and the two nodes corresponding to the related physical characteristic parameter pairs are connected by the edge. Even when the search result 31 is a plurality of routes, since the start point and the end point are usually common, the result is displayed as a subgraph.
  • Various modes can be taken to display the dependency information of the influencing factor together with the search result.
  • the search result output unit 7 adds and displays the influence factor determined by the influence judgment unit 6 as a new node, and corresponds to the added new node and the physical property parameter depending on the influence factor. Add a new edge between the node and display it.
  • the new edge added is an indication that there is a dependency.
  • nodes b, d, and T are added, a dependency display area 32 is provided, and an edge indicating the dependency is added.
  • the border of the influential factor database 5, the environment description database 11, the morphology description database 12, and the size description database 13 do not necessarily have to be displayed, but by displaying them, the user's visibility can be improved.
  • a node T has been added to show that the physical property parameters corresponding to the nodes A, B, and F depend on the temperature T, and edges (broken lines) between the nodes TA, TB, and CF, respectively. Is displayed. Further, when the physical property parameters corresponding to the nodes A and N depend on the diameter d as the size when the shape is spherical, it is between the nodes b and d and between the nodes b-A, between b-N and d-A. Each edge (one-dot chain line) between d and d is added and displayed.
  • the contribution of influential factors to the physical properties is visualized, and the convenience of the user is further improved.
  • the physical property parameters correspond to the node N. It can be seen that the physical property parameters may fluctuate depending on the diameter d. If such fluctuations are not desirable, it can be seen that other routes, ACFB and AKEB, should be considered.
  • the search result output unit 7 can be configured so that one or a plurality of influence factors among the influence factors determined by the influence determination unit 6 to have a dependency relationship can be specified from the outside. This is effective when the edges are congested and visibility is reduced when there are many influential factors that have a dependency relationship. In addition, the visibility can be improved because the dependency of the influential factor that the user is interested in can be displayed. On the other hand, without using the function to specify the influential factor of interest to the user, the dependency information from all the factors affecting each of the physical characteristic parameters corresponding to all the nodes constituting the subgraph which is the search result is output. By doing so, it is possible to provide the user with an opportunity to notice. For example, there is a case where a physical characteristic parameter in the middle of a route to be selected has a strong dependence on an unexpected influencing factor and is actually not an appropriate route.
  • the search result output unit 7 corresponds to the corresponding node and / or edge with respect to the physical characteristic parameter determined by the influence determination unit 6 to have a dependency relationship of one or a plurality of influence factors. It is more preferable to configure the system so that the dependency information to be displayed can be displayed.
  • Dependency information includes the presence or absence of a dependency and a relational expression representing the dependency. For example, when the physical characteristic parameters corresponding to the node A are controlled and the physical characteristic parameters corresponding to the node B are to be optimized, the control based on the paths ANB corresponds to the node N. It can be seen that the physical characteristic parameters may fluctuate depending on the diameter d.
  • the influence factor database 5 is used to obtain a relational expression expressing how the physical characteristic parameters corresponding to the node N depend on the diameter d. Can be associated with and displayed at the edge between nodes Nd by referring to. For example, when the edge between nodes N and d is clicked, the function expression pops up.
  • the information of the search result may be output as data instead of or in combination with such a graphical user interface.
  • relational expression including from the polarity of the correlation (positive correlation or negative correlation) to the type of relation, for example, it increases / decreases more slowly than linear, increases / decreases linearly, and powers. It can be divided into increase / decrease and exponential increase / decrease by (square, cube, ). It is also possible to display it as dependency information on the node on the side that has a dependency on such an influential factor.
  • the inverse function may be derived and output according to the display or output of the corresponding relational expression on the edge representing the relationship between the physical characteristic parameter and the influencing factor.
  • Influencing factors such as environment, morphology, and size do not change depending on the physical property values, but in the reaction process, etc., the temperature of the system in which the process occurred, the material substance, the reaction product, etc. It can be used to determine the morphology and size of materials involved in the process, such as intermediate products.
  • the information processing method of the first embodiment and the search system and the search method of the second embodiment are functionally constructed as software on a hardware system including a storage device and a computer.
  • FIG. 14 is a block diagram showing an example of a hardware system used in the information processing method and the search method of the present invention and in which the search system 10 can be implemented.
  • the server 100 and the workstations 110 and 120 on the user side are connected to a network 200 such as the Internet.
  • the server 100 includes a computer 101, a storage device 102, a network interface 103, an input unit 104, and a display unit 105.
  • the workstations 110 and 120 on the user side also have computers 111 and 121, storage devices 112 and 122, network interfaces 113 and 123, input units 114 and 124, and display units 115 and 125, respectively. On the other hand, it can also be implemented in a manner in which it is not connected to the network 200.
  • the network interface 103 may be omitted from the server 100, and all the functions of the information processing method, the search system 10, and the search method of the present invention may be implemented in the computer 101, the storage device 102, the input unit 104, and the display unit 105.
  • the physical characteristic relationship database 1 is stored in the storage device 102.
  • Each step constituting the information processing method of the first embodiment is implemented as software running on the computer 101.
  • the graph generation unit 2 of the search system 10 and the graph generation step (S22) of the search method are also implemented as software operating on the computer 101, and the generated physical characteristic relationship graph 3 is held in the storage device 102.
  • the graph search unit 4 of the search system 10 may be mounted on the calculator 101 on the server 100 side or on the calculators 111 and 121 on the workstations 110 and 120 on the user side.
  • the search condition When mounted on the computer 101 on the server 100 side, the search condition is input from the input unit 104 on the server 100 side, and the search result is displayed on the display unit 105 or output to the storage device 102. Can be done.
  • the search condition is input from the input units 114 and 124 of the workstations 110 and 120 on the user side, sent to the server 100 via the network 200, and the search result is sent to the server 100 via the network 200 on the user side. It may be configured to be returned to workstations 110, 120, displayed on its display units 115, 125, or stored in storage devices 112, 122.
  • the graph search unit 4 may be implemented as software on the computers 111 and 121 of the workstations 110 and 120 on the user side instead of the server 100 or in addition to the server 100.
  • the physical characteristic relationship graph 3 is supplied from the server 100 in response to a request from the workstations 110 and 120 on the user side.
  • the physical characteristic relationship graph 3 may be configured to be downloaded in advance and stored in the storage devices 112 and 122 of the workstations 110 and 120 prior to the route search.
  • the route search process by the graph search unit 4 is speeded up.
  • the graph generation unit 2 may also be implemented as software on the calculators 111 and 121 of the workstations 110 and 120 on the user side. Similarly, in this case as well, when a large number of users execute the graph search process at the same time, it is possible to prevent the processing load from being concentrated on the server 100.
  • FIGS. 20 and 21 are extracted. It is explanatory drawing which shows the example of the route search performed with respect to the physical characteristic relation database 1 in which the said relational expression was input, and the physical characteristic relation graph 3 generated from the physical characteristic relation database 1.
  • variable candidates are listed, and the variable candidates are searched for before and after the area where the relational expression is described, especially the text data described before the area, and the meaning of the hit sentence is interpreted.
  • the text defines the meaning of a variable
  • the variable and the parameter name are associated and output.
  • those that do not hit in a sentence or those that have a large number of hits but do not have a sentence that is interpreted as defining the meaning of a variable are judged not to be variables.
  • This operation is the operation described as the fourth step S4 (FIG. 1 and the like) in the first embodiment.
  • the variables “E °”, “ ⁇ G °”, “n” and “F” are “standard redox potential”, “change in standard Gibbs energy”, “valence” and “Faraday constant”, respectively. Is extracted as. As described above, for the variable candidate "E °", the sentence that defines the meaning is specified, and if it is specified as a variable, the candidates "E” and "°” with fewer characters are variable candidates. It may be configured to be excluded from.
  • the physical characteristic relationship database 1 is searched for each of the extracted variables.
  • the variables on the left side of the relational expression should be searched on the result side, and one or more variables included on the right side should be searched for the cause side physical characteristic parameters. Records hit on both the cause side and the result side are identified as a pair of physical characteristic parameters corresponding to the extracted relational expression.
  • the hit variable is specified as a physical characteristic parameter name.
  • the extracted relational expression expressed in a mathematically meaningful description language such as contentmathML is input to the relational expression field of the record that stores the corresponding physical characteristic parameter pair.
  • a mathematically meaningful description language such as contentmathML
  • the physical property relationship database 1 For each extracted variable, the physical property relationship database 1 is searched, and the physical property parameters of the cause side and the effect side are recorded as "reaction standard enthalpy change, ⁇ H °" and “reaction standard Gibbs energy change, ⁇ G °". (2nd record of FIG. 20) and a record of "standard entropy change of reaction, ⁇ S °” and “standard Gibbs energy change of reaction, ⁇ G °" (3rd record of FIG. 20) are hit. At this point, the fourth record of FIG. 20 does not exist.
  • FIG. 21 shows a part of the physical characteristic relationship graph 3 generated from the physical characteristic relationship database 1 shown in FIG. 20. It corresponds to the boundary between region A, which represents the relationship between physical properties in the field of electrochemistry, and region B, which represents the relationship between physical properties in the field of thermodynamics. Region A includes a node “E °” corresponding to "standard oxidation-reduction potential” and a node “ ⁇ G °” corresponding to "change in standard Gibbs energy", and region B includes "standard Gibbs energy of reaction”.
  • Example 2> 22 and 23 are explanatory diagrams showing an example of extracting relational expressions from textbooks in the fields of semiconductor physics and optical physical properties and inputting them into the physical characteristic relation database, respectively, and FIGS. 24 and 25 are extracted. It is explanatory drawing which shows the example of the route search performed on the physical characteristic relation database in which the relational expression was input, and the graph generated from the physical characteristic relation database.
  • mathematical information representing the relational expression for calculating the variable ⁇ and the definition of the variable used in the relational expression are extracted from the textbook in the field of semiconductor physics.
  • the mathematical expression information representing the relational expression is image data as shown in the figure, it is converted into the presentation math ML format by recognizing the arrangement of characters included in the image data.
  • the textbook is an electronic publication such as ePub
  • mathematical information for displaying the relational expression is often included in the format of presentation math ML, so it is sufficient to extract the description of the relevant part.
  • the definitions of the variables used in the extracted relational expression are specified by a method such as applying natural language processing to the sentences before and after the relational expression in the textbook. In the example of FIG.
  • the variables “ ⁇ ”, “m *”, “m0”, “e”, “ ⁇ e”, “ ⁇ h”, “Eg”, “” included in the character string extracted as the relational expression "KB” and “T” are "electrical conductivity", “effective mass”, “electron mass”, “elementary charge”, “electron mobility”, “hole mobility”, and “bandgap”, respectively. , "Boltzmann constant” and "temperature” are specified.
  • the relational expression is converted to the content mathML format using the specified variable. As shown in the first record of FIG. 24, the relational expression converted into the content mathML format is a record in which "bandgap Eg" and “electrical conductivity ⁇ " are paired with physical property parameters on the cause side and the effect side. It is entered in the relational expression field of. Although not shown, the same relational expression is input to a record in which the other physical characteristic parameters included in the relational expression and the electrical conductivity ⁇ are set as the physical characteristic parameter pair.
  • mathematical information representing the relational expression for calculating the variable ⁇ and the definition of the variable used in the relational expression are extracted from the textbook in the field of optical physical properties.
  • the mathematical formula information representing the relational expression is image data, it is converted into the presentation math ML format by the same processing, and when the textbook is an electronic publication such as ePub, the relevant part.
  • the description of is extracted as mathematical information.
  • the variables " ⁇ dir", "E” and “Egap" are specified as variables from the character strings included in the extracted mathematical information, and the definition of each variable is "light absorption coefficient (light absorption spectrum)" from the text of the textbook. , "Energy level” and "bandgap".
  • the relational expression converted from the presentation math ML to the content math ML format using the specified variables has the "band gap Egap" and "light absorption coefficient ⁇ dir" as shown in the second record of FIG. It is entered in the relational expression field of the record that is the physical property parameter pair of the cause side and the result side.
  • FIG. 25 shows a part of the physical characteristic relationship graph 3 generated from the physical characteristic relationship database 1 shown in FIG. 24. It corresponds to the boundary portion between the region C showing the relationship between the physical properties in the semiconductor physics field and the region D showing the relationship between the physical properties in the optical physical properties field.
  • the region C includes the node “ ⁇ ” corresponding to the "electrical conductivity” and the node “Eg” corresponding to the "band gap", and the region D includes the nodes “Eg” and “Eg” corresponding to the "band gap”.
  • the node “ ⁇ dir” corresponding to the "light absorption coefficient” is included.
  • the relational expression in which the physical property parameters of the cause side and the effect side are exchanged is obtained. This can be done by purely mathematical mathematical transformation.
  • a relational expression for calculating the "bandgap" from the "electrical conductivity” is derived, and by synthesizing it with the relational expression for the second record, " It is possible to obtain a quantitative relationship that indicates how the "light absorption coefficient” changes when the "electrical conductivity” is changed.
  • the relational expression for calculating the "bandgap" from the "light absorption coefficient” is derived and combined with the relational expression for the first record. Therefore, the quantitative relationship of "electrical conductivity" with respect to "light absorption coefficient” can be obtained, and candidates for materials that can be used to obtain a substance having a desired electric conductivity are selected as "light absorption coefficient". It is possible to use it by narrowing down based on the value. In reality, it is more convenient for users to use the quantitative relationship that shows how the "electrical conductivity" changes when the latter "light absorption coefficient" is changed. Therefore, in this embodiment, the user can request and output the quantitative relationship in the desired direction.
  • the present invention relates to a search system and a search method using a database, and an information processing method for managing the database, and a search system and a search that take into account a quantitative relationship, particularly when searching for a relationship between a plurality of physical property parameters. It can be suitably used for creating a method and a database used for it.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

2つの物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法を提供し、もって、物性間の数量的関係性を加味した探索を可能とする。本発明の情報処理方法は、互いに関係性を有する物性パラメータ対を記憶する物性関係性データベースに対して、物性パラメータ対の関係を表す関係式を入力する方法である。読み込んだ入力データから関係式を表す数式情報を抽出し、その数式情報から関係式を構成する複数の変数とその関係を規定する関係式とを抽出する。また、抽出した変数それぞれを定義する記述を入力データから抽出し、物性関係性データベースを参照して、各変数と物性パラメータとを対応付ける。物性関係性データベースに対して、関係式を構成する複数の変数のうちの2個に対応する物性パラメータ対に対応づけて、抽出した関係式を入力する。

Description

情報処理方法、探索システムおよび探索方法
 本発明は、データベースを使った探索システム及び探索方法、並びにそのデータベースを管理する情報処理方法に関し、特に複数の物性パラメータ間の関係性を探索する場合に数量的関係性を加味する探索システム、探索方法およびそのために使用するデータベースの作成に好適に利用できるものである。
 材料研究における予測や設計の目標は、目的の特性を持つ材料を特定することである。このために旧来から多用されてきた手法は、条件-特性チャートから目的の特性を持つ材料の特定を目指すものである。これは複数の条件のうち特定の1つの条件のみを変化させたときの特性の変化を観測してチャートを作成し、そのチャートを補間または外挿することによって、目的の特性を実現する条件を求め、それに合致する材料を特定する方法である。ここでいう「チャート」とは、折れ線グラフ等を表す「グラフ」と同義であるが、後述する、ノードとエッジから成る「グラフ」と区別する目的で別の語を用いる。
 このとき、複数の条件のうち特定の1つの条件のみを変化させたときの特性の変化は、自ら実験を行って入手することが多い。多数の文献を調査しても上記特定の条件以外の条件がすべて同じであるデータを大量に入手することは困難だからである。
 特許文献1には、所望の特性を持つ新規材料の構成物質情報を、客観的に探索することが可能な探索システムが開示されている。同文献に開示される探索システムは、複数(多数)の物質についてそれぞれ複数の物性パラメータ情報を有するデータベースを備える。このとき、データベースには、物質によっては実データが与えられていない物性パラメータがあってもよい。探索対象の物性パラメータを1つの軸、他の物性パラメータの一部をその他の軸として、2次元または3次元以上の空間を作成し、上記データベース内の各物質をマッピングする。このとき、実データのない物性パラメータについては、多変量解析、所定の論理式に基づく計算、または、第一原理計算などを使って予測した仮想データによって補う。実データと仮想データをマッピングして得られた探索マップにおいて、予め規定したルールに基づいて所望の特性を持つ物質を特定するとされる。
 特許文献2には、複数の物性パラメータの任意の組合せのうち、既に知られている関係性に基づいて、有意な関係性を有する、物性パラメータの未知の組合せを探索することができる、探索システム及び探索方法が開示されている。この探索システムは、データベースとグラフ生成部とグラフ探索部とを備え、以下のように構成される。データベースは、互いに関係性を有する物性パラメータの複数の対を記憶する。このようなデータベースを物性関係性データベースと呼ぶこととする。グラフ生成部は、物性関係性データベースに記憶された複数の物性パラメータをノードとし、関係性を有すると記憶された物性パラメータ対に対応するノード間をエッジとする、グラフを生成する。グラフ探索部は、与えられる探索条件に基づいてグラフ生成部によって生成されたグラフを探索し、探索結果を出力する。
 特許文献3には、優先度を考慮した探索を行うことができる探索システム及び探索方法が開示されている。同文献の探索システム及び探索方法では、上記特許文献2と同様の物性関係性データベースを用い、生成されたグラフを対象とする経路探索を行う。特許文献3の探索システム及び探索方法では、物性パラメータ間の関係性について種々の重み付けを行ない、対応するエッジの属性として与える。その属性を用いて、探索の結果抽出される経路の優先度を求め、優先度の高い順に結果を出力する。
 特許文献4には、2つの物性パラメータを関係づける関数を、当該2つの物性パラメータに対応するノードを繋ぐエッジに対応づけ、経路に沿って合成関数を求め、始点となる物性の増減に応じて終点の物性がどう変化するかを表示する探索システムが開示されている。同文献に記載されている探索システムでは、原因側と結果側の物性パラメータの関係性関数をcontent MathMLで記述して、上記特許文献2と同様の物性関係性データベースに記憶させ、これを参照して合成関数を求め、原因側物性パラメータが変化したときの結果側に至るまでの物性パラメータの増減の方向と程度を区分表示する技術が記載されている。ここで増減の方向と程度は、例えば、線形で増加または減少、線形よりも緩やかに増加または減少、べき乗で増加または減少、指数的に増加または減少に区分される。
特開2007-18444号公報 国際公開WO2017/221444 国際公開WO2018/159237 特開2020-021303号公報
 特許文献1及び2について本発明者が検討した結果、以下のような新たな課題があることがわかった。
 特許文献1に記載される技術では、仮想データを予測するために、複数の物性パラメータ相互の関係性を利用するが、その関係性は既に知られている関係性に限られることとなる。
 これに対し本願の発明者は、多くの技術分野を横断的に俯瞰しようとする場合には、物性パラメータの数が膨大になるために特許文献1のような手法は、計算機性能の観点で非実用的となるという課題を見出した。そこで、物性パラメータ間の関係性を上述のようなグラフにマッピングすることによって、関係性の有無に依らない任意の組合せの中から、未知の、しかし有意な関係性を抽出することが可能であることを見出し、その解決方法として特許文献2及び3に記載される探索システム及び探索方法を提案した。
 特許文献2及び3に示される探索システム及び探索方法によれば、相互に関係性の低い分野を含むあらゆる分野を横断的に探索することができ、もって有意な関係性を有する物性パラメータの未知の組合せを抽出することができる。抽出結果は、関係性を有する原因側と結果側の物性パラメータの組み合わせによる種々の形態で出力され得る。例えば、原因側物性パラメータから結果側物性パラメータに至る複数の経路、原因側物性パラメータから所定の範囲内にある結果側物性パラメータの集合、逆に、結果側物性パラメータに至る所定の範囲内にある原因側物性パラメータの集合などである。探索を行うユーザーは、例えば目的の特性を持つ材料の特定を目指すときには、原因側物性パラメータから結果側物性パラメータに至る経路上にあるすべての物性パラメータが、所定の仕様を満足するような物質・材料の特定を目指すこととなる。
 特許文献3に示される探索システム及び探索方法によれば、物性値の測定可能性、物性関係性データベース内の物性値のデータ量、物性値の値などに基づいて探索経路に優先度が付けられるため、ユーザーが所望のまたは最適の物性制御経路を特定するのに極めて有効となる。しかしながら、経路に含まれる物性パラメータの増減やその程度などの情報が欠けていて十分とは言えなかった。
 このように特許文献2及び3に示される探索システムでは、物性間の関係性(因果関係)の有無に着目するに留まり、複数の物性パラメータ間の関係性を数式や関数によって定義して取り扱うことができなかった。特許文献4に示される探索システムでは、物性間の数量的関係性を取り扱うことは可能となった。そのためには、物性関係性データベースに記憶されているすべての物性パラメータ対について網羅的に記憶されるのが理想的である。しかしながら、これを人手によって整備するのは膨大な工数を要する。さらにこのような作業を行うことができるのは、専門的な知識を備えた人に限られる点も、整備作業の隘路となっている。教科書等には物性の関係性を数式や関数によって関係づけた記述が膨大に存在するが、そのような知見を当該教科書の分野を超えて抽出するためには、あらゆる分野に精通した専門家が求められるからである。
 そこで本発明者は、教科書的な文書を読み込んで自然言語処理を施し、深層学習を行うことによって、入力された教科書的文書に書かれている、物性パラメータ間の関係性を抽出する技術を発明し、特願2018-194117及び特願2019-125841として出願した。
 これにより、物性関係性データベースに記憶されるべき、因果関係をもつ物性パラメータの対を人手によらずに抽出することができることとなり、データベースの整備に要する人的工数を大幅に削減することができる。しかしながら、物性間の数量的関係性については、なおも専門家による人的工数が必要である。物性パラメータの関係性は、教科書的な文書には文章(自然言語)で記載されるのと同様に、関係式で記載される場合も多く、またより厳密である。さらに1つの関係式で規定される物性パラメータの数は、2個には限られず、3個以上の物性パラメータが関与する場合が少なくない。このため2つの物性パラメータを関係づける関係性関数を物性関係性データベースに記憶させる作業には、専門家による作業が求められることとなるからである。
 本発明の目的は、物性パラメータ対の関係性の有無に限らず2つの物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法を提供することである。また、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用して、物性間の数量的関係性を加味した探索システムを提供することである。
 一実施の形態によれば、下記の通りである。
 すなわち、互いに関係性を有する物性パラメータ対を記憶する物性関係性データベースに対して、物性パラメータ対を構成する2つの物性パラメータの関係を表す関係式を入力する情報処理方法であって、以下のように構成される。
 読み込んだ入力データから関係式を表す数式情報を抽出し、その数式情報から関係式を構成する複数の変数とその関係を規定する関係式とを抽出する。また、入力データから前記複数の変数のそれぞれを定義する記述を抽出し、物性関係性データベースを参照して、各変数と物性パラメータとを対応付ける。物性関係性データベースに対して、関係式を構成する複数の変数のうちの2個に対応する物性パラメータ対に対応づけて、上で抽出した関係式を入力する。
 前記一実施の形態によって得られる効果を簡単に説明すれば下記のとおりである。
 すなわち、2つの物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法を提供することができる。また、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用して、物性間の数量的関係性を加味した探索システムを提供することができる。
図1は、実施形態1に係る情報処理方法の構成例を示すフローチャートである。 図2は、本発明の物性関係性データベースの構成例を示す説明図である。 図3は、物性の関係式を含む入力データの一例を示す説明図である。 図4は、図3に示した入力データから抽出した関係式部分の画像を示す説明図である。 図5は、図4に示した画像情報から抽出した関係式をpresentation MathMLで表した例を示す説明図である。電子出版された教科等に含まれる数式情報も同様である。 図6は、図5に示したようにpresentation MathMLで表記された関係式をcontent MathMLに変換して表記した例を示す説明図である。 図7は、図3に例示するpdf形式の入力データから光学的文字認識によってXHTMLに変換されたテキストデータを示す説明図である。 図8は、抽出されたpresentation MathML形式のテキストデータから数式と認定すべきデータを絞り込む方法の一例を示すフローチャートである。 図9は、実施形態1に係る情報処理方法の一変形例を示すフローチャートである。 図10は、実施形態1に係る情報処理方法の別の変形例を示すフローチャートである。 図11は、実施形態1に係る情報処理方法のさらに別の変形例を示すフローチャートである。 図12は、実施形態2に係る探索システムの構成例を示すブロック図である。 図13は、実施形態2に係る探索方法の構成例を示すフローチャートである。 図14は、本発明の情報処理方法及び探索方法に使用され、探索システム10が実装されることが可能なハードウェアシステムの一例を示すブロック図である。 図15は、実施形態3に係る探索システムの構成例を示すブロック図である。 図16は、物性関係性データベース1と影響因子データベース5の関係を示す説明図である。 図17は、実施形態3に係る探索システムによる影響因子の依存性情報の表示についての説明図である。 図18は、電気化学分野の教科書から、関係式を抽出して物性関係性データベースに入力する例を示す説明図である。 図19は、熱化学分野の教科書から、それぞれ関係式を抽出して物性関係性データベースに入力する例を示す説明図である。 図20は、抽出された関係式が入力された物性関係性データベースの例を示す説明図である。 図21は、図20に示した物性関係性データベースから生成された物性関係性グラフに対して行った経路探索の例を示す説明図である。 図22は、半導体物理分野の教科書から、関係式を抽出して物性関係性データベースに入力する例を示す説明図である。 図23は、光学物性分野の教科書から、それぞれ関係式を抽出して物性関係性データベースに入力する例を示す説明図である。 図24は、抽出された関係式が入力された物性関係性データベースの例を示す説明図である。 図25は、図24に示した物性関係性データベースから生成された物性関係性グラフに対して行った経路探索の例を示す説明図である。
1.実施の形態の概要
 先ず、本願において開示される代表的な実施の形態について概要を説明する。代表的な実施の形態についての概要説明で括弧を付して参照する図面中の参照符号はそれが付された構成要素の概念に含まれるものを例示するに過ぎない。
 〔1〕<物性関係性データベースへ入力する関係式の抽出と認識を行う情報処理方法>
 本発明の代表的な実施の形態は、記憶装置を備えるコンピュータを利用する情報処理方法であって、以下のように構成される。
 前記情報処理方法は、互いに関係性を有する物性パラメータ対を記憶する物性関係性データベース(1)に対して、前記物性パラメータ対を構成する2つの物性パラメータの関係を表す関係式を入力する方法であり、以下の各ステップを含む(図1)。
 第1ステップ(S1): 入力データを読み込む。
 第2ステップ(S2): 前記入力データから関係式を表す数式情報を抽出する。
 第3ステップ(S3): 前記数式情報から前記関係式を構成する複数の変数と前記複数の変数の間の関係を規定する関係式とを抽出する。
 第4ステップ(S4): 前記入力データから前記複数の変数のそれぞれを定義する記述を抽出する。
 第5ステップ(S5): 前記第4ステップで抽出された前記複数の変数のそれぞれを定義する記述に基づき、前記物性関係性データベースを参照して、前記複数の変数のそれぞれと前記物性関係性データベースに記憶されている物性パラメータとを対応付ける。
 第6ステップ(S6): 前記物性関係性データベースに対して、前記複数の変数のうちの2個に対応する物性パラメータ対に対応づけて、前記関係式を入力する。
 これにより、2つの物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法が提供される。さらにこれを使って、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用して、物性間の数量的関係性を加味した探索システムを提供することができる。
 〔2〕<原因側と結果側の物性パラメータ>
 〔1〕項の情報処理方法において、前記物性パラメータ対は、原因側物性パラメータと結果側物性パラメータとで構成され、前記第6ステップは、前記関係式を、当該関係式によって算出される変数に対応する物性パラメータを結果側物性パラメータとする物性パラメータ対に対応付けて、前記物性関係性データベースに入力する。
 これにより、2つの物性パラメータ間で逆関数の関係性が成立する場合としない場合とを区別して取り扱うことができる。
 〔3〕<原因側物性パラメータを算出する関係式の導出>
 〔2〕項の情報処理方法は、前記関係式から、当該関係式によって算出される変数以外の変数を算出する変形関係式を導出する第7ステップ(S7)をさらに含み、前記第6ステップは、前記変形関係式を、当該変形関係式によって算出される変数に対応する物性パラメータを結果側物性パラメータとする物性パラメータ対に対応付けて、前記物性関係性データベースに入力する(図9)。より具体的には第7ステップ(S7)では、関係式によって算出される変数を左辺とするとき、右辺に含まれる各変数のうち、物性パラメータを表す変数については、その変数を求める(左辺とする)関係式に変形する。変形された関係式は、前記物性関係性データベースに記憶される物性パラメータ対の中で、左辺の変数に対応する物性パラメータを結果側とする適切な物性パラメータ対に対応付けて、前記物性関係性データベースに入力される。
 これにより、入力された教科書等から抽出された関係式では直接的に算出対象とされていない変数についても、対応する物性パラメータを求めるための関係式がコンピュータによって物性関係性データベースに入力され、人的工数が削減される。
 〔4〕<関係式の成立条件を抽出>
 〔1〕項から〔3〕項のうちのいずれか1項の情報処理方法は、前記入力データから前記関係式が成立する条件を抽出する第8ステップ(S8)をさらに含み、前記第6ステップは、前記関係式によって算出される変数に対応する物性パラメータを含む物性パラメータ対に対応付けて、前記条件を前記物性関係性データベースに入力する(図10)。
 これにより、条件付きで成立する関係性を適切に扱うことができる探索システムに利用可能な物性関係性データベースを、少ない人的工数で整備することが可能となる。
 〔5〕<異なる条件の処理>
 〔4〕項の情報処理方法において、前記第6ステップは、前記物性関係性データベースにおいて前記条件に対応付けられる物性パラメータ対に既に別の条件が対応付けられている場合に、当該物性パラメータ対に対応するレコードを複写して、当該条件を入力する。
 ここでレコードとは、1つの物性パラメータ対と対応する1つの関係式及び対応する1つの条件を含んで構成され、複数のレコードによって前記物性関係性データベースが構成されている。同じ物性パラメータ対について、異なる条件で成立する異なる関係式が存在する場合に、複数のレコードを使ってその関係性が前記物性関係性データベースに記憶されることとなる。
 これにより、種々の条件下で成立する関係性を適切に扱うことができる探索システムに利用可能な物性関係性データベースを、少ない人的工数で整備することが可能となる。
 〔6〕<従属変数の判定と関係式の導出>
 〔1〕項から〔5〕項のうちのいずれか1項の情報処理方法は、前記第3ステップで抽出された前記複数の変数のそれぞれが独立変数か従属変数かを前記物性関係性データベースに基づいて判定する第9ステップ(S9)と、従属変数である場合に当該従属変数を算出する従属変数関係式を生成する第10ステップ(S10)と、前記従属変数関係式を表示する第11ステップ(S11)とをさらに含む。
 これにより、物性関係性データベースとそれを利用する探索システムにおいて、従属変数を適切に扱うことができる。
 〔7〕<既に入力されている関係式との照合>
 〔1〕項から〔6〕項のうちのいずれか1項の情報処理方法は、前記第3ステップで抽出された前記関係式によって算出される変数に対応する物性パラメータを含む物性パラメータ対に対応付けて前記物性関係性データベースに既に記憶されている別の関係式がある場合に、前記関係式と前記別の関係式とを照合する第12ステップをさらに含む。
 これにより、物性関係性データベースとそれを利用する探索システムの信頼性をより高めることができる。一つの教科書等の入力データから抽出された関係式と他の教科書等の入力データから抽出された関係式とが異なる場合があり得る。このような不一致は、例えばそれぞれの教科書が前提としている関係式が成立する環境(条件)が異なるときに発生すると考えられる。本発明の情報処理方法では、物性関係性データベースに既に記憶されている関係式と、新たに抽出して入力しようとする関係式とを照合することによって、不一致の場合の対処をユーザーに委ねるなどの対策を講じることができ、物性関係性データベースとそれを利用する探索システムの信頼性をより高めることができる。
 〔8〕<探索結果の経路に沿って関係式を表示する探索システム>
 本発明の代表的な実施の形態は、物性関係性データベース(1)とグラフ生成部(2)とグラフ探索部(4)とを備える探索システム(10)であって、以下のように構成される。(図12)
 前記物性関係性データベースは、互いに関係性を有する物性パラメータ対と前記物性パラメータ対の一方の物性パラメータの値を使って他方の物性パラメータの値を算出する関係式とを互いに対応付けて記憶する。
 前記グラフ生成部は、前記物性パラメータ対に含まれる複数の物性パラメータをノードとし、前記物性パラメータ対に対応するノード間をエッジとする、グラフ(3)を生成可能に構成され、前記グラフ探索部は、与えられる探索条件に基づいて前記グラフの経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに出力可能に構成される。
 前記探索システムは、教科書等の入力データから因果関係を持つ物性パラメータ間の関係式を抽出して前記物性関係性データベースに入力する、関係式抽出部(20)をさらに備える。関係式抽出部(20)は、例えば、関係式認識部(21)と変数定義認識部(22)と関係式出力部(23)とを含んで構成される。関係式認識部(21)は前記入力データに含まれる関係式を表す数式情報を認識して抽出し、変数定義認識部(22)は同じ入力データに含まれる文章から変数を定義する記述を抽出・認識する。関係式出力部(23)は、認識された変数定義に基づいて、前記物性関係性データベース(1)に記憶されている物性パラメータと変数とを対応付け、抽出された関係式を前記関係式として、前記物性関係性データベースに入力する。
 これにより、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用して、物性間の数量的関係性を加味した探索システムを提供することができる。また、教科書等から関係式を抽出して物性関係性データベースに入力する関係式抽出部を備えることにより、物性関係性データベースの管理が容易化される。
 なお、関係式認識部(21)と変数定義認識部(22)と関係式出力部(23)は、〔1〕項に記載した第1から第6ステップに相当する動作を行う構成であって、〔2〕項から〔7〕項に記載される各ステップに相当する動作を行う構成を、探索システムにさらに含むこともできる。
 〔9〕<関係式の成立条件>
 〔8〕項の探索システムにおいて、前記物性関係性データベースは、前記関係式の成立する条件を当該関係式に対応付けて記憶し、前記グラフでは、当該関係式に対応するエッジに前記条件が属性として付与される。
 これにより、条件付きで成立する関係性を適切に扱うことができる。
 〔10〕<同じ物性パラメータ対に対して成立条件の異なる関係式>
 〔8〕項または〔9〕項の探索システムにおいて、前記物性関係性データベースは、同じ物性パラメータ対に対して成立する条件の異なる複数の関係式を記憶可能に構成され、前記グラフ生成部は、当該物性パラメータ対に対応するノード間に、成立する条件の異なる前記複数の関係式をそれぞれ対応づけされた複数のエッジを、前記グラフ内に生成する。
 これにより、種々の条件下で成立する関係性を適切に扱うことができる。
 〔11〕<合成関数の算出>
 〔8〕項から〔10〕項のうちのいずれか1項の探索システムにおいて、前記グラフ探索部は、探索結果に含まれ複数のエッジよりなる経路について、前記複数のエッジに対応する関係式を合成して出力可能に構成される。
 これにより、複数の物性パラメータを経由して規定される物性パラメータ間の関係性について、経路に沿った数量的関係性を適切かつ簡便に扱うことができる。
 〔12〕<影響因子の寄与を反映することができる物性探索システム>
 〔8〕項から〔11〕項のうちのいずれか1項の探索システム(10)は、影響因子データベース(5)と、影響判定部(6)と、探索結果出力部(7)とをさらに備える。
 前記影響因子データベースは、前記複数の物性パラメータのうちの少なくとも1個の物性パラメータと、当該物性パラメータが依存性を有する1以上の影響因子と、その依存関係を表す関係式とを対応付けて記憶する。
 前記関係式出力部は、さらに、認識された変数定義に基づいて、前記影響因子データベースに記憶されている影響因子と変数とを対応付け、抽出された関係式を前記関係式として、前記影響因子データベースに入力する。
 前記影響判定部は、前記影響因子データベースを参照することによって、前記探索結果に含まれるノードに対応する物性パラメータが、少なくとも1つの影響因子に依存性を有するか否かを判定し、前記探索結果出力部は、前記探索結果とともに、前記影響判定部が依存性を有すると判定した物性パラメータと影響因子の組み合わせとその関係式とを出力することができるように構成される。
 これにより、関係性を有する物性パラメータの対をエッジによって接続されたノード対に対応付けたグラフを探索する物性探索システムにおいて、物性ではない因子(影響因子)の影響を探索に反映させることを可能とする探索支援機能を提供することができる。何らかの影響因子に依存する物性パラメータが探索結果に含まれているときには、当該物性パラメータがどの影響因子にその依存関係を表す関係式を、探索結果とともに出力することができるので、ユーザーは探索結果の中から、所望の特性を有する物質・材料またはその製造方法を、より効率的に抽出することができる。
 〔13〕<探索結果の経路に沿って関係式を表示する探索方法>
 本発明の代表的な実施の形態は、記憶装置を有するコンピュータを利用し、前記記憶装置に記憶される物性関係性データベースを参照する探索方法であって、関係式・変数定義抽出ステップ(S20)と物性関係性データベース入力ステップ(S21)とグラフ生成ステップ(S22)とグラフ探索ステップ(S23)とを含み、以下のように構成される(図13)。
 物性関係性データベース(1)は、互いに関係性を有する物性パラメータ対と前記物性パラメータ対の一方の物性パラメータの値を使って他方の物性パラメータの値を算出する関係式とを互いに対応付けて、前記記憶装置に記憶することによって構成される。
 前記関係式・変数定義抽出ステップでは、教科書等の入力データから関係式とその関係式に寄与している変数定義を抽出し、前記物性関係性データベース入力ステップでは、抽出した変数をその変数定義に基づいて前記物性関係性データベース(1)に記憶されている物性パラメータと対応付け、抽出された関係式を前記物性関係性データベースに入力する。
 前記グラフ生成ステップは、前記物性パラメータ対に含まれる複数の物性パラメータをノードとし、前記物性パラメータ対に対応するノード間をエッジとする、グラフを生成し、前記グラフ探索ステップは、与えられる探索条件(S24)に基づいて前記グラフの経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに出力する(S25)。
 これにより、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用して、物性間の数量的関係性を加味した探索方法を提供することができ、また、関係式・変数定義抽出ステップを備えることにより物性関係性データベースの管理が容易化される。
 なお、関係式・変数定義抽出ステップ(S20)と物性関係性データベース入力ステップ(S21)は、〔1〕項に記載した第1から第6ステップに相当する動作を行う構成であって、〔2〕項から〔7〕項に記載される各ステップに相当する動作を行う構成を、探索システムにさらに追加または包含することもできる。
 〔14〕<関係式の成立条件>
 〔13〕項の探索方法において、前記物性関係性データベースは、前記関係式の成立する条件を当該関係式に対応付けて記憶し、前記グラフでは、当該関係式に対応するエッジに前記条件が属性として付与される。
 これにより、条件付きで成立する関係性を適切に扱うことができる。
 〔15〕<同じ物性パラメータ対に対して成立条件の異なる関係式>
 〔13〕項または〔14〕項の探索方法において、前記物性関係性データベースは、同じ物性パラメータ対に対して成立する条件の異なる複数の関係式を記憶可能に構成され、前記グラフ生成ステップは、当該物性パラメータ対に対応するノード間に、成立する条件の異なる前記複数の関係式をそれぞれ対応づけされた複数のエッジを、前記グラフ内に生成する。
 これにより、種々の条件下で成立する関係性を適切に扱うことができる。
 〔16〕<合成関数の算出>
 〔13〕項から〔15〕項のうちのいずれか1項の探索方法において、前記グラフ探索ステップは、探索結果に含まれ複数のエッジよりなる経路について、前記複数のエッジに対応する関係式を合成して出力する。
 これにより、複数の物性パラメータを経由して規定される物性パラメータ間の関係性について、経路に沿った数量的関係性を適切かつ簡便に扱うことができる。
 〔17〕<影響因子の寄与を反映することができる物性探索システム>
 〔13〕項から〔16〕項のうちのいずれか1項の探索方法において、前記記憶装置または他の記憶装置(図14の112,122)に記憶される影響因子データベース(5)を参照する影響判定ステップと、探索結果出力ステップとをさらに含む。
 前記影響因子データベースでは、前記複数の物性パラメータのうちの少なくとも1個の物性パラメータと、当該物性パラメータが依存性を有する1以上の影響因子と、その依存関係を表す関係式とが対応付けられている(図16)。
 前記物性関係性データベース入力ステップでは、さらに、前記関係式・変数定義抽出ステップ認識された変数定義に基づいて、前記影響因子データベースに記憶されている影響因子と変数とを対応付け、抽出された関係式を前記関係式として、前記影響因子データベースに入力する。
 前記影響判定ステップは、前記探索結果に含まれるノードに対応する物性パラメータが、少なくとも1つの影響因子に依存性を有するか否かを判定し、前記探索結果出力ステップは、前記探索結果とともに、前記影響判定ステップで依存性を有すると判定された物性パラメータと影響因子の組み合わせとその関係式とを出力する。
 これにより、関係性を有する物性パラメータの対をエッジによって接続されたノード対に対応付けたグラフを探索する物性探索方法においても、〔12〕項と同様に、物性ではない因子(影響因子)の影響を探索に反映させることを可能とする探索支援機能を提供することができる。
 2.実施の形態の詳細
 実施の形態について更に詳述する。
 〔実施形態1〕
 図1は、実施形態1に係る情報処理方法の構成例を示すフローチャートである。
 本実施形態1は、記憶装置を備えるコンピュータを利用する情報処理方法であって、以下のように構成される。
 本実施形態の情報処理方法は、互いに関係性を有する物性パラメータ対を記憶する物性関係性データベース1に対して、因果関係を有するとして記憶されている物性パラメータ対について、その関係を表す関係式を入力する方法であり、以下の各ステップを含む。ここで物性関係性データベース1は、互いに関係性を有する物性パラメータ対をそれぞれ1組ずつ含む複数のレコードで構成されている(他の実施形態についても同様である)。
 第1ステップ(S1): 入力データを読み込む。入力データとしては、教科書のように内容が精査され正確であると認知されている文献であることが好ましい。入力データには、文章がテキストデータ、図や数式を表示するための情報として含まれている。ここで入力データには、例えば、書籍等の紙に印刷された文献、pdf(Portable Document Format)やePUB(Electronic PUBlication)など様々なフォーマットで電子出版された文献、インターネットからアクセス可能なウェブ上の記述が含まれる。また、「数式を表示するための情報」とは、表示すべき内容の外見的な構造を示す情報であり、ビットマップ、tif(tagged image file format)、jpeg(joint photographic expert group)などの画像フォーマットの情報や、TEX、LATEX、presentation MathMLなどの言語で記述された情報が含まれる。ただし本発明はこれには限定されない。文献が書籍等の印刷物である場合には、各ページを撮影した画像に対して文字認識処理を施すことによって、文字として認識された文章がテキストデータとして、残りの部分が画像情報として、入力データを構成する。文献がpdfフォーマットである場合にも、多くの場合、入力データはテキストデータと画像情報とで構成される。入力データが電子出版された書籍等である場合には、ePUB等のXHTMLに準拠したフォーマットで記述されており、入力データがインターネットからアクセス可能なウェブ上の記述である場合には、HTMLやXHTML等の言語で記述されている場合が多く、いずれの場合も文章を表すテキストデータと図表を表示するための情報が含まれている。
 第2ステップ(S2): 入力された入力データから関係式を表す数式情報を抽出する。関係式が数式情報に含まれている場合には、関係式を表す領域を抽出する。入力データがウェブ上の記述である場合には、全体がHTMLやXHTML等の言語で記述され、関係式は多くの場合presentation MathMLで記述されている。入力データが電子出版されたePUBフォーマットの書籍等の場合も同様に、関係式は多くの場合presentation MathMLで記述されている。
 第3ステップ(S3): 抽出した数式情報からそこに記載されている関係式とそれを構成する複数の変数とを抽出する。数式情報が画像である場合にその画像情報から関係式を抽出するには、例えばInftyReaderなどの市販の認識ソフトを利用することができる。InftyReaderは、入力されたpdfファイルから、文字認識機能により文章を表すテキスト情報と数式等を表すpresentation MathML等の記述とを含むXHTML形式のファイルを出力することができる。入力データがウェブ上の記述やePUBフォーマットの書籍等で、関係式がpresentation MathMLで記述されている場合には、この段階でのデータは同じ形式になる。抽出された関係式は、数量的な関係性を表す形式に変換される。例えば上述のpresentation MathMLは、表示の様式を表すものの数量的な関係性を表す形式ではないため、数量的な関係性を表すcontent MathMLに変換されるとよい。このような変換も既存のソフトウェアツールによって行うことが可能である。
 第4ステップ(S4): 入力データから複数の変数について、それぞれを定義する記述を抽出する。関係式には一般に物性パラメータ等を表す符号が使われている。第2ステップ(S2)では、抽出した関係式に使われている変数も抽出される。この第4ステップでは入力データから抽出したテキストデータを、第3ステップで抽出した関係式の近傍から遡ることにより、抽出された関係式に使われている各変数が定義されている箇所を探索する。変数定義は通常、関係式の直前または直後、或いは、その章・節の冒頭、文献の冒頭などに記載されていることが多いので、関係式の近傍から遡って探索することによって、変数定義を発見・抽出することができる。
 第5ステップ(S5): 第4ステップで抽出された変数定義にもとづき、物性関係性データベース1を参照して、抽出された関係式に使われている変数のそれぞれと物性関係性データベース1に記憶されている物性パラメータとを対応付ける。
 第6ステップ(S6): 物性関係性データベース1に対して、抽出された関係式に使われている複数の変数のうちの2個に対応する物性パラメータ対に対応づけて、その関係式を入力する。
 なお、物性関係性データベース1の形式は任意である。例えば、後段で詳述する物性関係性グラフ3をネットワーク型(グラフ型)のデータベースとして一体として扱うこともできる。このとき、抽出された関係式は、対応するノードにその属性として対応付けられる。
 これにより、2つの物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法が提供される。さらにこれを使って、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用し、物性間の数量的関係性を加味した探索システムを提供することができる。なお、本実施形態の情報処理方法は、後述の「ハードウェア/ソフトウェア実装形態」で説明するような記憶装置と計算機を備えたハードウェアシステム(コンピュータまたは複数のコンピュータをネットワークで接続したコンピュータシステム)上に、ソフトウェアとして機能構築される。
 本実施形態の情報処理方法の例を説明する。
 図2は、本発明の物性関係性データベース1の構成例を示す説明図である。上記第1から第6ステップによって関係式が入力される前の例を上段に、関係式入力後の例を中段に、さらに変形関係式を入力した後の例を下段に示す。紙面の制約のため、少数の物性パラメータ対についてのみを例示したが、実際にはできる限り多くの物性パラメータ対を記憶することが好ましい。物性関係性データベースは、互いに因果関係を有する物性パラメータ対を構成する原因側及び結果側物性パラメータと、その2つの物性パラメータの関係性を表す関係式と、その関係式が成立する条件とを、レコードごとに記憶することができるように構成される。図2に表形式で示す物性関係性データベースの各行が1つのレコードである。
 物性関係性データベース1には、互いに因果関係を有する物性パラメータの複数の対が記憶されている必要があるが、関係式と条件は必ずしも記憶されている必要はない。このときの互いに因果関係を有する物性パラメータの対は、科学的根拠に基づいた関係性、即ち、理論的に説明された関係性に基づくものだけではなく、理論的な説明が未だなされておらず、また、定式化もされていない段階であっても、実験データから明確な相関が認められることによって、因果関係の存在が知られている物性パラメータの対を含めることができる。物性パラメータ対に因果関係があることだけが記憶されていれば、特許文献2、3に記載されるように、任意の物性パラメータ間の因果関係の有無や関係性を生じさせる経路を探索することができるからである。
 図2上段に示す物性関係性データベース1の各レコードには、因果関係の存在が記憶されているが関係式と条件は記憶されていない。図には、拡散係数Dと振動数因子D0と活性化エネルギーQの3個の物性パラメータ相互の間に因果関係が存在することを示す3個のレコードが示されている。技術常識としては、拡散係数Dは、振動数因子D0と活性化エネルギーQの値から求められるが、逆の関係、例えば拡散係数Dから活性化エネルギーQが算出される方向性が一般的とは言えない場合には、図2上段の3行目と異なり、拡散係数Dを原因側、活性化エネルギーQを結果側物性パラメータとするレコードは含まれなくてもよい。しかし、拡散係数Dから活性化エネルギーQが算出される関係性は、多くの場合有用であるので、拡散係数Dを原因側、活性化エネルギーQを結果側物性パラメータとするレコードを含む方がより好適である。さらには、「原因側物性パラメータを算出する関係式の導出」で後述するように、2行目では原因側にあった活性化エネルギーQを算出する関係式を数式変形によって導出して、3行目の関係式欄に入力すると、さらに好適である。なお、「原因側」、「結果側」の用語は、必ずしも物理的なメカニズムにおける原因と結果を表すものではなく、数式の右辺と左辺を表すものと理解されたい。
 第1ステップ(S1)において、教科書から入力データを読み込む。図3は、物性の関係式を含む入力データの一例を示す説明図である。実際の入力データには、多くの関係式と文章が含まれるが、1個の関係式を含む一部のみを示している。文章の部分も画像データとして示すが、可能であればテキストデータを入力する方がよい。画像データとして入力された場合には、光学的文字認識(OCR: Optical Character Recognition)によりテキストデータに変換する。
 第2ステップ(S2)において、入力された入力データから関係式を表す数式情報を抽出する。この例では関係式が画像情報に含まれているので、関係式の領域を抽出する。図4は、図3に示した入力データから抽出した関係式部分の画像を示す説明図である。
 第3ステップ(S3)において、第2ステップ(S2)で抽出した画像情報からそこに記載されている関係式とその関係式を構成する複数の変数とを抽出する。図5は、図4に示した画像情報から抽出した関係式をpresentation MathMLで表した例を示す説明図であり、入力データがウェブ上の記述やePUBフォーマットの書籍等で、関係式がpresentation MathMLで記述されている場合も同様である。図6は、関係式をcontent MathMLに変換して表記した例を示す説明図である。presentation MathMLは数式を表示するための記述言語であり、表示する位置や、フォント、イタリック、ボールドなどの形式、上付き下付きなどの別を記述しているが、演算内容は記述されていない。content MathMLは演算内容を示すための記述言語であり、等号、不等号、かっこなどの記号、加減乗除、べき乗などの演算、exp, lnなどの関数を含むことができる。第3ステップ(S3)では、図5に示すpresentation MathMLまたは図6に示すcontent MathMLから、変数D、D0、Q、R及びTが抽出される。
 第4ステップ(S4)において、第3ステップ(S3)で抽出した変数D、D0、Q、R及びTのそれぞれを定義する記述を、入力データから抽出する。より具体的には、入力データに含まれるテキストデータに自然言語処理を施すことによって意味が理解された文章から、各変数がいかなる物性パラメータを示すものであるかを抽出する。図3に例示した入力データから、変数Dが拡散係数、変数D0が振動数因子、変数Qが活性化エネルギー、変数Rが気体定数、変数Tが絶対温度を、それぞれ示すことを定義する記述が抽出される。式5-4の直前の文章“The diffusion coefficient D is related to…”から、変数Dが拡散係数(diffusion coefficient)を表す変数であることがわかる。式5-4より後の文章“where Q is the activation energy … R is gas constant … and T is the absolute temperature”から、変数Q、R、Tがそれぞれ、活性化エネルギー(activation energy)、気体定数(gas constant)、絶対温度(absolute temperature)であることがわかる。また次の文章“D0 is the pre-exponential term …”、とさらに次の段落冒頭の文章“D0 is a constant for a given diffusion system and is equal to the value of the diffusion coefficient at 1/T = 0 or T = ∞.”から、変数D0が振動数因子であることがわかる。例示した文章からは、直接的に物性パラメータ名を抽出することはできないが、専門技術用語の意味を定義した辞書を使った自然言語処理によって適切な物性パラメータ名を対応づけることができる。自然言語処理では対応できない場合、または自然言語処理を利用できない場合には、抽出した文章をユーザーに示して判断を仰ぐことによって、対応付けを補完できるように構成してもよい。
 第5ステップ(S5)において、第4ステップで抽出された変数定義にもとづき、物性関係性データベース1を参照して、抽出された関係式に使われている変数のそれぞれと物性関係性データベース1に記憶されている物性パラメータとを対応付ける。図2に例示した物性関係性データベース1には、拡散係数、振動数因子及び活性化エネルギーが原因側または結果側の物性パラメータとして記憶されているので、抽出された変数D、変数D0、及び変数Qとそれぞれ対応付けられる。なお、変数Rで表記される気体定数は物理定数であり、絶対温度Tと同様に、物性関係性データベース1には物性パラメータとして記憶されてはいない。
 ここで、図2では入力データである教科書で使われているのと同じ変数を使って例示したが、第5ステップ(S5)では、変数の異同に基づいて対応付けるのではなく、物性パラメータの実体的な名称に基づいて対応づけを行う。物性パラメータ名の表記ブレについては、この段階で吸収する。そのために、物性パラメータ名の類語辞書を備え、これを参照して表記ブレを吸収することができる。
 図7は、図3に例示するpdf形式の入力データから光学的文字認識によってXHTMLに変換されたテキストデータを示す説明図である。入力データがウェブ上の記述やePUBフォーマットの書籍等で、関係式がpresentation MathMLで記述されている場合も同様である。数式は、“<math …”と“</math>”に囲まれた部分にpresentation MathMLで記述されている。例えば4行目から5行目の、“<math xmlns="http://www.w3.org/1998/Math/MathML"><mi mathvariant="italic">D</mi></math”は、図3に含まれる文章“The diffusion coefficient D is related to…”の中の“D”の部分を表している。式5-4は7行目から13行目の“<math xmlns= … >)</mi></math>”に変換されている。このように、XHTMLのテキストデータには、数式だけはなく変数単独の表記も、presentation MathMLで記述されて含まれている。また、XHTMLのテキストデータには、数式ではあっても定数との関係を示す表記や、大小関係を表す表記も含まれている場合がある。関係式抽出ステップ(図1等のS2)等において、XHTMLのテキストデータに含まれるpresentation MathML形式のテキストデータから、物性パラメータの関係を表す関係式である可能性のある数式に絞り込んでおくことにより、後段の処理を軽減することができる。
 図8は、抽出されたpresentation MathML形式のテキストデータから数式と認定すべきデータを絞り込む方法の一例を示すフローチャートである。XHTMLのテキストデータを入力する(S201)。入力されたXHTMLのテキストデータから、数式候補(pMathML)を抽出する(S202)。XHTMLの中で数式はpresentation MathML形式で表現されているので、“<math”と“</math>”とで囲まれた文字列を数式候補として抽出する。次に数式候補が関係性を定義する記号を含むか否かを判定する(S203)。presentation MathMLにおいて、記号は“<mi>”と“</mi>”とで囲まれているので、その記号が関係性を定義する記号か否かにによって判定する。関係性を定義する記号には、等号“=”の他、概ね等しいことを表す等号“~”や“≒”や比例することを表す記号“∝”などが適宜含まれるように構成してもよい。等号等を含んでいても、定数値を示す数式もあるので、数式候補から左辺と右辺を分離し(S204)、右辺に変数を表す文字が含まれているかどうかを判定する(S205)。数式候補の文字列(pMathML)において、S203で判定した記号を含む“<mi>記号</mi>”の左側の文字列を左辺(Lmem)、右側の文字列を(Rmem)とする。次に右辺に変数を表す文字列が含まれているか否かを判定する(S205)。変数を表す文字列は、通常、英字やギリシア文字から始まる1文字以上の文字列で構成されることが多い。変数を表す文字列を定義し、その文字列が<mi>”と“</mi>”とで囲まれている部分があれば、左辺(Lmem)には変数が含まれている可能性が高い。その結果、数式候補を数式と認定する(S206)。以上の各ステップをXHTMLのテキストデータの末尾に到達するまで繰り返す(S207)。
 実質的に同じ物性について異なる物性パラメータが定義されている場合(例えば、互いに逆数の関係にある2個の物性パラメータが定義されている場合、複素数の表現される1個の物性パラメータと、実部と虚部に分けた2個の物性パラメータで表現される場合など)には、それぞれを別の物性パラメータとして扱ってもよいし、単一の物性パラメータに集約して扱ってもよい。別の物性パラメータとし扱う場合には、物性関係性データベース1において、実質的に同じ物性について定義される異なる複数の物性パラメータ間の関係性をそれぞれ1レコードとし、その関係性を関係式として規定する。単一の物性パラメータに集約して扱う場合には、上述の物性パラメータ名の類語辞書を拡張して、単一の物性パラメータとして扱う範囲と取り扱い方法を規定するとよい。例えば、互いに逆数で規定される2個の物性パラメータが同じ物性について定義されている場合に、前者では互いに逆数で規定される2個の物性パラメータを対とするレコードを物性関係性データベース1に記憶し、その関係が逆数である関係式を記憶し、後者ではどちらか一方の物性パラメータのみが物性関係性データベース1に記憶されており、他方は類義語として扱われ、第3ステップで抽出された関係式は物性関係性データベース1に記憶される一方の物性パラメータを使った形式に変換された上で物性関係性データベース1に記憶される。
 第6ステップ(S6)において、物性関係性データベース1に対して、抽出された関係式に使われている複数の変数のうちの2個に対応する物性パラメータ対に対応づけて、その関係式を入力する。抽出された関係式は、拡散係数Dを左辺とする式であるため、拡散係数Dが原因側物性パラメータとされるレコードに、関係式が入力される。なお、図2の関係式欄には、理解の便宜を図るために、人が読みやすい数式の状態で入力されるように描いたが、実際には図6に示すcontent MathMLのように計算機で読み取り可能なフォーマットで記憶される。
 以上のように、2つの物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法が提供される。
 <原因側物性パラメータを算出する関係式の導出>
 本発明の情報処理方法は、教科書等の入力データから抽出された関係式によって算出される変数(左辺の変数)以外の変数を算出する変形関係式を導出するステップをさらに含むことができる。
 図9は、実施形態1に係る情報処理方法の一変形例を示すフローチャートである。第2ステップ(S2)で抽出され、第3ステップ(S3)で数量的関係性を記述する形式に変換された関係式から、当該関係式によって算出される変数以外の変数を算出する変形関係式を導出する第7ステップ(S7)が追加されている。関係式は、第3ステップ(S3)で数量的関係性を記述する形式に変換されているので、数学的な式変形によって、各変数を算出する形式に変形することができる。変形された式を変形関係式と呼ぶこととする。
 第6ステップ(S6)は、入力データから抽出された関係式だけでなく、第7ステップ(S7)で導出された変形関係式についても、当該変形関係式によって算出される変数に対応する物性パラメータを結果側物性パラメータとする物性パラメータ対に対応付けて、物性関係性データベース1の対応するレコードの関係式欄に、当該変形関係式を入力する。
 これにより、入力された教科書等から抽出された関係式では直接的に算出対象とされていない変数についても、対応する物性パラメータを求めるための関係式がコンピュータによって物性関係性データベースに入力され、人的工数が削減される。
 追加された第7ステップ(S7)では、純粋に数学的な式変形によって、各変数を算出する変形関係式を導出するため、左辺に現れる変数に対応する物性パラメータがない場合、及び、左辺に現れる変数に対応する物性パラメータを結果側物性パラメータとするレコードが物性関係性データベース1に存在しない場合があり得る。このような場合、因果関係が実在するのか否か、またその関係性を物性関係性データベース1に記憶すべきか否かの判断を、ユーザーに委ねるステップを追加してもよい。
 図2下段に示す例では、活性化エネルギーQを導出できるように変形された変形関係式が、3行目のレコードの関係式欄に入力されている。一方、振動数因子D0、気体定数R、絶対温度Tを導出する変形関係式は、対応するレコードがないために、物性関係性データベース1に入力されてはいない。気体定数Rと絶対温度Tは物性パラメータではないため、これらを導出する変形関係式を入力すべきレコードがないのは当然である。一方、振動数因子D0は物性パラメータであるので、これを導出する変形関係式を入力すべきレコードがないのが適切かどうかを検討できるように構成してもよい。例えば、導出された変形関係式の左辺が物性パラメータであるにも関わらず、物性関係性データベース1に対応するレコードが存在しない場合、対応するレコードを追加すべきか否かの判断をユーザーに委ねるステップを追加することができる。これにより、物性関係性データベース1の不備を検出することができ、信頼性を向上することができる。
 一方これに代えて、第7ステップ(S7)を第6ステップ(S6)の後段に追加しても良い。物性関係性データベース1に逆方向の因果関係を規定するレコードが存在していることを検出して、そのときの結果側物性パラメータを導出するような変形関係式を求めて当該レコードの関係式欄に入力する。これにより、変形関係式を導出する計算機負荷が必要最小限に抑えられる。
 例示した物性関係性データベース1は、因果関係を有する物性パラメータ対を原因側と結果側に区別して記憶する例であるが、区別しないで記憶する形態での実施も可能である。この場合には、変形関係式の導出は、探索段階で必要に応じて行えばよい。
 <関係式の成立条件を抽出>
 物性パラメータの間の関係を規定する関係式には、成立する条件が付されている場合がある。あらゆる条件下で成立する一般式が定義され得る場合であっても、条件によって一部の項が無視できるほどに小さくなるために、そのような項を省略した関係式が用いられる場合がままある。教科書でもそのような一定の条件下で成立する形式で、関係式が記載される場合が少なくない。このような場合には同じ物性パラメータ対についても、異なる条件下で異なる関係式が定義されることとなる。
 本発明の情報処理方法では、関係式が成立する条件を入力データから抽出するステップを追加し、その条件を物性関係性データベースに入力することによって、条件付きの関係式を適切に扱うことができる。
 図10は、実施形態1に係る情報処理方法の別の変形例を示すフローチャートである。変数定義を抽出する第4ステップ(S4)と並列に、関係式の成立条件を入力データから抽出する第8ステップ(S8)が追加されている。第3ステップ(S3)では関係式とその関係式に含まれる変数が抽出され、第4ステップ(S4)でその変数が定義されている記述を探索し抽出する。これと並列して当該関係式が成立する条件も探索することができる。一般に、関係式が成立する条件は、その関係式に使われている変数の取り得る範囲として規定される場合もあり、変数定義の記述に近い部分に記載される場合が多いため、並列に探索するのが効率的である。
 第8ステップ(S8)では、第3ステップ(S3)で抽出された関係式が成立する条件を入力データから抽出し、後段の第6ステップ(S6)では、その関係式によって算出される変数に対応する物性パラメータを含む物性パラメータ対に対応付けて、第8ステップ(S8)で抽出した条件を物性関係性データベース1の条件欄(図2参照)に入力する。
 これにより、条件付きで成立する関係性を適切に扱うことができる探索システムに利用することができる、物性関係性データベースを、少ない人的工数で整備することが可能となる。
 より具体的には、例えば、入力されたXHTMLテキストデータから数式を抽出する、図8に例示したようなフローチャートにおいて、条件を表す記述を抽出するステップを追加することによって実現することができる。数式候補(pMathML)が等号等を含むか否かを判定するステップ(S203)と並列に、数式候補(pMathML)が1または複数の不等号を含む場合には、条件を表す式として抽出する。不等号が2個以上の場合は、範囲が指定されているので、関係式が成立する条件である可能性がある。また、右辺に変数を表す文字列が含まれているか否かを判定するステップ(S205)と並列に、右辺または左辺の一方に、変数を表す文字列が含まれていない場合、すなわち定数である場合に、条件を表す式として抽出する。また、右辺に文字が含まれているために数式であると認定(S205,S206)された数式候補であっても、条件を表す式である場合もある。例えば、「温度Tが融点Tmに近い」ことが関係式の成立条件である場合に、「T~Tm」と表記される場合がある。このような場合には、同じ数式候補が関係式の候補であり、且つ、成立条件を表す式の候補としても扱われる。なお、関係式の成立条件は、数式で表現されるとは限らないので、自然言語処理も併用される。例えば「遷移金属の場合」、「絶縁体の場合」などである。
 <異なる条件の処理>
 第6ステップ(S6)において、新たに抽出された条件を物性関係性データベース1に入力しようとした際に、対応付けられる物性パラメータ対に既に別の条件が対応付けられている場合がある。同じ物性パラメータ対であっても異なる条件下では別の関係式によって規定される関係性を持つ場合があるからである。このような場合には、当該物性パラメータ対に対応するレコードを複写して、同じ物性パラメータ対についてのレコードを1つ追加し、第3ステップ(S3)で抽出した関係式と第8ステップ(S8)で抽出した条件を追加したレコードの関係式欄と条件欄に入力する。この結果、物性関係性データベース1には同じ物性パラメータ対について複数のレコードが含まれ、それぞれ異なる関係式と成立条件が記憶されることとなる。
 これにより、種々の条件下で成立する関係性を適切に扱うことができる探索システムに利用することができる、物性関係性データベースを、少ない人的工数で整備することが可能となる。
 <既に入力されている関係式との照合>
 本発明の情報処理方法では、第6ステップ(S6)において、新たに抽出された関係式を物性関係性データベース1に入力しようとした際に、対応付けられる物性パラメータ対に既に別の関係式が対応付けられている場合がある。上述したように成立条件が異なる場合もこれに含まれるが、既に関係式が入力されているレコードに条件が入力されていない場合、同じ条件でありながら異なる関係式を入力しようとしている場合、同じ関係式について異なる成立条件が抽出された場合など、種々の不一致要因が考えられる。
 このような不一致を解消するためには、不一致となっている2つの関係式それぞれの出典まで遡って検証する必要がある。このような不一致は、例えばそれぞれの教科書が前提としている関係式が成立する環境(条件)が異なるときに発生すると考えられるからである。
 そこで、本発明の情報処理方法では、第6ステップ(S6)において、新たに抽出された関係式を物性関係性データベース1に入力しようとした際に、同じ物性パラメータ対に対応付けて別の関係式が既に記憶されている場合に、新たに抽出された関係式と既に記憶されている別の関係式とを照合するステップをさらに含むとよい。照合した結果、関係式が不一致であれば、ユーザーに通知して対処を求めることができる。照合の結果、関係式が不一致でも条件が異なれば、ユーザーへ通知することなく、上述の「異なる条件の処理」を行うこともできる。
 これにより、物性関係性データベースとそれを利用する探索システムの信頼性をより高めることができる。
 <従属変数の判定と関係式の導出>
 本発明の情報処理方法は、第3ステップ(S3)で関係式とともに抽出されたその関係式に使われている複数の変数について、それぞれが独立変数か従属変数かを判断するステップを追加することができる。
 関係式がz=f(x、y)であるとき、この形式から直感的に判断すると、xとyは互いに独立の変数であると理解される。しかし、物性においては物性パラメータyが物性パラメータxに依存して変化する場合があり得る。このような従属関係が存在すると、物性パラメータzとxの関係性を誤認する可能性がある。例えば関数fの記述のみに基づいて判断した場合に、zがxに比例しyに反比例するとき、「zはxに比例する」と理解することとなる。ここでyがx2に比例するような従属変数であるときには、全体としては、zはxの2乗に反比例する関係性の方が顕著に発現する場合がある。このような場合は、先の「zはxに比例する」という理解は適切ではない可能性がある。ただし、変数がとる値にも依存するので、不適切と結論付けることもできない。そこで、ユーザーによる判断が必要となる。
 図11は、実施形態1に係る情報処理方法のさらに別の変形例を示すフローチャートである。情報処理方法は、変数と物性パラメータの対応付けを行う第5ステップ(S5)に続いて、各変数が独立変数か従属変数かを判定する第9ステップ(S9)と、従属変数である場合に当該従属変数を算出する従属変数関係式を生成する第10ステップ(S10)と、算出した従属変数関係式を表示する第11ステップ(S11)とをさらに含む。
 第9ステップ(S9)では、物性関係性データベース1またはこれから生成される物性関係性グラフ3(後述)を参照することによって、各変数に対応する物性パラメータの因果関係に基づいて判断することができる。上述の例では、zとx、zとyはそれぞれ因果関係がある事が明白であり、物性関係性データベース1から生成される物性関係性グラフ3にはzとx、zとyを接続するエッジが存在する。厳密に表現するには物性パラメータとそれに対応するノードとは区別すべきであるが、ここでは、物性パラメータx、y、zのそれぞれに対応するノードを同じくx、y、zとして記述する。物性関係性グラフ3にxとyを直接結ぶエッジが存在していれば、xまたはyの一方が他方に従属する変数であることがわかる。物性関係性グラフ3が有向グラフである場合には、xとyのうちのどちらが従属変数であるかがより明白である。ここでは物性関係性グラフ3を引用して説明したが、物性関係性データベース1にも等価な情報が含まれているので、物性関係性グラフ3におけるエッジの有無に代えて、物性関係性データベース1におけるレコードの有無を参照することによって、同様の判断が可能である。
 第9ステップ(S9)である変数が従属変数であると判断された場合には、第10ステップ(S10)においてその変数を算出する従属変数関係式を生成し、第11ステップ(S11)において算出した従属変数関係式を表示する。算出された従属変数関係式を、物性関係性データベース1に入力しても良い。上述の例でyがxにも依存する従属変数である場合には、原因側物性パラメータをx、結果側物性パラメータをyとするレコードが物性関係性データベース1に記憶されているので、そのレコードの関係式欄に上記従属変数関係式を入力してもよい。なお、このステップは図11には図示されていない。第11ステップ(S11)に代えてまたは第11ステップ(S11)に加えて、従属変数関係式の出力ステップを追加しても良い。
 これにより、物性関係性データベースとそれを利用する探索システムにおいて、従属変数を適切に扱うことができる。
 〔実施形態2〕
 実施形態1に係る情報処理方法によって関係式が入力された物性関係性データベース1を利用すれば、物性間の数量的関係性を加味した探索システムを提供することができる。
 図12は、実施形態2に係る探索システムの構成例を示すブロック図である。
 本実施形態2は、物性関係性データベース1とグラフ生成部2とグラフ探索部4とを備える探索システム10であって、以下のように構成される。
 物性関係性データベース1は、互いに関係性を有する物性パラメータ対と前記物性パラメータ対の一方の物性パラメータの値を使って他方の物性パラメータの値を算出する関係式とを互いに対応付けて記憶する。物性関係性データベース1への関係式の入力方法としては、実施形態1に係る情報処理方法を採用するのが好適であるが、これに限られるものではない。例えば、教科書等を入力データとする同様の情報処理方法によって、互いに因果関係を有する物性パラメータ対とその関係式、関係式の成立条件を一括して抽出して物性関係性データベースを構成することも可能である。このとき複数の教科書を入力データとする同様の情報処理方法によって構成される複数の物性関係性データベースを統合することにより、本実施形態2に係る探索システム10で使用可能な物性関係性データベース1とすることができる。
 グラフ生成部2は、物性関係性データベース1に記憶されている物性パラメータ対に含まれる複数の物性パラメータをノードとし、物性パラメータ対に対応するノード間をエッジとする、物性関係性グラフ3を生成する。グラフ探索部4は、与えられる探索条件に基づいて物性関係性グラフ3の経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに探索結果として出力する。
 探索システム10は、教科書等の入力データから因果関係を持つ物性パラメータ間の関係式を抽出して物性関係性データベース1に入力する、関係式抽出部20をさらに備える。この関係式抽出部20は、実施形態1に係る情報処理方法により、物性関係性データベース1に関係式を入力する。関係式抽出部20は、例えば、関係式認識部21と変数定義認識部22と関係式出力部23とを含んで構成される。関係式認識部21は入力データに含まれる関係式を表す数式情報を認識して抽出する。即ち、関係式認識部21は、実施形態1の第2及び第3ステップ(S2,S3)に相当する処理を実行可能な構成である。変数定義認識部22は同じ入力データに含まれる文章から変数を定義する記述を抽出・認識する。即ち、変数定義認識部22は、実施形態1の第4ステップ(S4)に相当する処理を実行可能な構成である。関係式出力部23は、認識された変数定義に基づいて、物性関係性データベース1に記憶されている物性パラメータと変数とを対応付け、抽出された関係式を物性関係性データベース1の関係式欄に入力する。即ち、関係式出力部23は、実施形態1の第5及び第6ステップ(S5,S6)に相当する処理を実行可能な構成である。
 以上のように、探索システム10は、与えられた探索条件を満たす探索結果を出力するときに、その探索結果に含まれる経路について物性間の数量的関係性を加味して出力することができることとなる。即ち、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用することにより、物性間の数量的関係性を加味した探索システムを提供することができる。また、教科書等から関係式を抽出して物性関係性データベース1に入力する構成を、探索システム10内に備え、物性関係性データベース1の管理が容易化される。
 なお、関係式認識部21と変数定義認識部22と関係式出力部23は、実施形態1に記載した第1から第6ステップ(S1~S6)に相当する動作を行う構成であって、実施形態1に記載されるその他の各ステップに相当する動作を行う構成を、探索システム10にさらに含むこともできる。
 例えば、物性関係性データベース1には、関係式の成立する条件を当該関係式に対応付けて記憶する領域を設けることができる。このとき物性関係性グラフ3では、物性関係性データベース1に記憶されている関係式と条件は、対応付けられている物性パラメータ対に対応するエッジの属性と位置付けられる。これにより、条件付きで成立する関係性を適切に扱うことができる。
 関係式抽出部20が、同じ物性パラメータ対に対して成立条件の異なる関係式を抽出する場合があるので、探索システム10において、物性関係性データベース1は、同じ物性パラメータ対に対して成立する条件の異なる複数の関係式を記憶することができるように構成されるのが望ましい。例えば、物性関係性データベース1は、同じ物性パラメータ対についての複数のレコードを記憶し、各レコードにそれぞれ関係式とその関係式が成立する条件を記憶できるように構成される。これに対応して、グラフ生成部2は、複数の関係式が対応付けられている同じ物性パラメータ対に対応するノード間に、それぞれに関係式とその成立条件を属性として持つ複数のエッジを、物性関係性グラフ3を生成する。これにより、種々の条件下で成立する関係性を適切に扱うことができる。
 <合成関数の算出>
 上述のように、探索システム10は、与えられた探索条件を満たす探索結果を出力するときに、その探索結果に含まれる経路について物性間の数量的関係性を加味して出力することができる。その一実施形態として、グラフ探索部4は、探索結果に含まれ複数のエッジよりなる経路について、各エッジに対応する関係式を合成して出力することができる。
 これにより、複数の物性パラメータを経由して規定される物性パラメータ間の関係性について、経路に沿った数量的関係性を適切かつ簡便に扱うことができる。
 このときの探索システム10の動作について簡単に説明する。物性パラメータX,Y,Zについて、物性パラメータXとYとの関係が関係式Y=f(X)で表され、物性パラメータYとZとの関係が関係式Z=g(Y)で表されるとする。物性関係性グラフ3は、物性パラメータX,Y,Zに対応するノードX,Y,ZについてノードX-Y間とノードY-Z間にエッジを持ち、それぞれ関係式Y=f(X)とZ=g(Y)が属性として付与される。経路探索の結果、ノードXからノードYを経由してノードZに到達する経路が探索結果として出力されるとき、経路探索の結果である経路X-Y-Zに対応して、合成関数Z=g(f(X))が算出されて出力される。経路X-Yと経路Y-Zのそれぞれに関係式Y=f(X)とZ=g(Y)が表示され得るように構成してもよいが、合成関数が示されることによって、始点である物性パラメータを増減させたときの終点の物性パラメータの変化を定量的に扱うことができる点で優れている。
 <探索結果の経路に沿って関係式を表示する探索方法>
 探索システム10は、記憶装置と計算機を備えたハードウェアシステム上に、ソフトウェアとして機能構築することができるので、本発明は、記憶装置と計算機を備えたハードウェアシステムを使う探索方法と位置付けることができる。
 図13は、実施形態2に係る探索方法の構成例を示すフローチャートである。
 本実施形態2に係る探索方法は、記憶装置を有するコンピュータを利用する探索方法であって、グラフ生成ステップ(S22)とグラフ探索ステップ(S23)とを含み、以下のように構成される。
 グラフ生成ステップ(S22)とは、物性関係性データベース1に記憶された物性パラメータ対に含まれる複数の物性パラメータをノードとし、その物性パラメータ対に対応するノード間をエッジとする、物性関係性グラフ3(図13には示されていない)を生成する。グラフ探索ステップ(S23)は、与えられる探索条件(S24)に基づいて物性関係性グラフ3の経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに出力する(S25)。
 これにより、因果関係を持つ物性パラメータ間の関係式が入力された物性関係性データベースを利用して、物性間の数量的関係性を加味した探索システムを提供することができる。
 この探索方法は、関係式・変数定義抽出ステップ(S20)と物性関係性データベース入力ステップ(S21)とを備えるとさらに好適である。関係式・変数定義抽出ステップ(S20)では、教科書等の入力データから関係式とその関係式に寄与している変数定義を抽出する。物性関係性データベース入力ステップ(S21)では、抽出した変数を物性関係性データベース1に記憶されている物性パラメータと対応付け、抽出された関係式を、物性関係性データベース1に入力する。
 これにより、複数の物性パラメータを関係づける関係式を、コンピュータによって教科書的な文書から抽出して物性関係性データベースに記憶させる方法と、その物性関係性データベースを利用して、物性間の数量的関係性を加味した探索方法とを一貫して提供することができ、物性関係性データベースの管理が容易化される。
 また、物性関係性データベース1には、上述したように、関係式の成立する条件を当該関係式に対応付けて記憶する領域を設けることができ、物性関係性グラフ3では、その関係式と条件は、対応付けられている物性パラメータ対に対応するエッジの属性と位置付けられる。
 本実施形態2の探索方法においても、物性関係性データベース1は、同じ物性パラメータ対に対して成立する条件の異なる複数の関係式を記憶することができ、これに対応してグラフ生成ステップ(S22)は、複数の関係式が対応付けられている同じ物性パラメータ対に対応するノード間に、それぞれに関係式とその成立条件を属性として持つ複数のエッジを、物性関係性グラフ3を生成する。これにより、種々の条件下で成立する関係性を適切に扱うことができる。
 <合成関数の算出>
 上述のように、本実施形態2の探索方法では、与えられた探索条件を満たす探索結果を出力するときに、その探索結果に含まれる経路について物性間の数量的関係性を加味して出力することができる。その一実施形態として、グラフ探索ステップ(S23)は、探索結果に含まれ複数のエッジよりなる経路について、経路に含まれる各エッジに対応する関係式を合成して出力することができる。これにより、複数の物性パラメータを経由して規定される物性パラメータ間の関係性について、経路に沿った数量的関係性を適切かつ簡便に扱うことができる。
 なお、関係式・変数定義抽出ステップ(S20)と物性関係性データベース入力ステップ(S21)は、実施形態1に記載した第1から第6ステップと同様であって、本実施形態2に係る探索方法は、実施形態1に記載されるその他の各ステップに相当する各ステップをさらに含むことができる。
 〔実施形態3〕<影響因子>
 実施形態2で説明したように、物性関係性データベース1から生成された物性関係性グラフ3を対象とした経路探索を行うことにより、その探索結果に含まれる経路について物性間の数量的関係性を表す関係式や合成関数等を出力することができるが、その関係式には、物性パラメータの他に、物性ではない因子が含まれている場合がある。このような因子は、物性ではないが物性に影響を与えるため、影響因子と呼ぶこととする。
 実施形態2の探索システムは、物性関係性データベース1から生成した物性関係性グラフ3を対象としての経路探索を行い、探索結果である経路とその経路に含まれるエッジに対応する関係式や合成関数とともに出力する。この探索システムでは、影響因子の寄与は関係式や合成関数に表されているものの、探索自体では考慮されていない。
 本発明者は、影響因子の寄与を探索に反映させることができる探索システムを発明し、特願2018-194118として出願した。探索システムは、物性関係性データベース、グラフ生成部、グラフ探索部に加えて、影響因子データベース、影響判定部及び探索結果出力部を備え、経路探索の結果抽出される経路に含まれる各ノードに対応する物性パラメータについて、影響因子への依存性の有無を判定し、依存性があると判定した物性パラメータと影響因子の組み合わせをその依存性情報ともに出力する。
 本発明においても、実施形態2の探索システム10(図12)に、影響因子データベース、影響判定部及び探索結果出力部を追加することにより、影響因子の寄与を探索に反映させることができる。
 図15は、本実施形態3に係る探索システム10の構成例を示すブロック図である。本実施形態3に係る探索システム10は、実施形態2の探索システム(図12)に示した物性関係性データベース1、グラフ生成部2及びグラフ探索部4に加え、影響因子データベース5、影響判定部6及び探索結果出力部7を備える。物性関係性データベース1、グラフ生成部2及びグラフ探索部4の構成と動作は、実施形態2と同様であるので、説明を省略する。影響因子データベース5は、物性関係性グラフ3を構成する複数の物性パラメータのそれぞれと、当該物性パラメータが依存性を有する影響因子と、その依存性を表す関係式とを対応付けて記憶する。影響判定部6は、影響因子データベース5を参照することによって、探索結果に含まれるノードに対応する物性パラメータが、少なくとも1つの影響因子に依存性を有するか否かを判定する。探索結果出力部7は、探索結果とともに、影響判定部6が依存性を有すると判定した物性パラメータと影響因子の組み合わせとその関係式とを出力する。
 実施形態2と同様に、探索システム10は、教科書等の入力データから因果関係を持つ物性パラメータ間の関係式を抽出して物性関係性データベース1に入力する、関係式抽出部20を備える。この関係式抽出部20は、実施形態1に係る情報処理方法により、物性関係性データベース1に関係式を入力する。関係式抽出部20の基本的な動作は、図2~図6を引用した説明と同様であるので、詳しい説明を省略する。関係式抽出部20は、さらに影響因子データベース5についても教科書等の入力データから関係式等抽出する。
 図16は、物性関係性データベース1と影響因子データベース5の関係を示す説明図である。上段は図2に示した物性関係性データベース1の例の一つであり、「関係式」の欄は図3に示した教科書から抽出した拡散方程式(図4)に基づいて入力されている。1行目と2行目のレコードに入力された関係式は抽出された拡散方程式をcontent math MLに変換したものであり、3行目のレコードに入力された関係式は、同じ関係式を、変数Qを求める形式に変形したものである。影響因子データベース5は、物性関係性データベース1の第1列である「原因側物性パラメータ」の欄を「原因側影響因子」に置き換えた形式とすることができる。第1列第2列に物性パラメータと影響因子との関係性の有無が記憶され、第3列にその関係を表す関係式が記憶されるとよい。教科書等から関係性(依存性)の存在だけが抽出されたときには、第3列の関係式の欄は空欄、すなわちデータなしとされる。
 物性探索について説明する。
 物性関係性グラフ3は、実施形態2と同様に、物性関係性データベース1に記憶されている物性パラメータ対に含まれる複数の物性パラメータをノードとし、物性パラメータ対に対応するノード間をエッジとする、グラフである。グラフ探索部4は、与えられる探索条件に基づいて物性関係性グラフ3の経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに探索結果として出力する。本実施形態3においては、影響因子データベース5に記憶されている影響因子に対応するノードが、物性関係性グラフ3に追加され、その影響因子に依存する物性パラメータに対応するノードとの間にエッジが追加される。グラフ探索部4は、与えられる探索条件に基づいて物性関係性グラフ3の経路探索を行う。ただし、ある物性パラメータに対応するノードから影響因子に対応するノードを経て別の物性パラメータに対応するノードに至る経路は、経路探索の対象から除外されるとよい。ある物性パラメータがある影響因子に依存性があるかないかを知ることはユーザーにとって価値があるが、その影響因子に依存性をもつすべての物性パラメータを網羅的に抽出するようなニーズは、一般的には考えられないためである。
 影響因子データベース5について、さらに詳しく説明する。
 影響因子データベース5は、環境記述データベース11、形態記述データベース12およびサイズ記述データベース13のように、下位概念の影響因子ごとに区分して構成すると、より好適である。
 環境記述データベース11は、温度、圧力、電界および磁界のうちの少なくとも1つを影響因子として含み、複数の物性パラメータのうち当該影響因子に依存する物性パラメータについて、その依存関係を示す依存性情報を対応付けて記憶する。環境記述データベース11に保持される影響因子は、物質が置かれている環境を表す因子であって、当該物質の物性もしくは物性パラメータに影響を与える場合がある。
 形態記述データベース12は、球状、柱状、線状、クラスタ、表面積/体積比、配向方向および分散度のうちの少なくとも1つを影響因子として含み、複数の物性パラメータのうち当該影響因子に依存する物性パラメータについて、その依存関係を示す依存性情報を対応付けて記憶する。形態記述データベース12に保持される影響因子は、物質の形状や状態を表す影響因子である。その物質の形状や状態が、当該物質の物性もしくは物性パラメータに影響を与える場合があるので、これを影響因子の一種として位置づけることができる。
 サイズ記述データベース13は、長さ、径、ナノ、マイクロおよびバルクのうちの少なくとも1つを影響因子として含み、前記複数の物性パラメータのうち当該影響因子に依存する物性パラメータについて、その依存関係を示す依存性情報と対応付けて記憶する。形態記述データベース12に保持される影響因子が物質の形状や状態を表すのに対して、サイズ記述データベース13には、その形状や状態の大きさを表す影響因子が保持される。例示した「長さ」「径」は絶対値を与えることができる影響因子であるのに対し、「ナノ」「マイクロ」「バルク」はピンポイントの絶対値ではなく、ある程度の値の範囲を表す影響因子である。前者は、例えば物性パラメータを規定する数式中に変数として含まれて、定量的な関係性を呈する場合があるので、そのような影響因子である。一方、後者は、例えば、バルク状態では発現していなかった性質がナノサイズの微細構造になったときに初めて発現する場合があるので、そのような場合の物質の大きさを表す影響因子である。このようにいずれも物質の形状や状態の大きさを表す影響因子であるので、同じサイズ記述データベース13に保持する実施形態を例示したが、概念的には多少異なるので、2つのデータベースに区分して保持するように構成してもよい。
 これにより、影響因子データベースが異なる概念の下位のデータベースに区分され、物性パラメータの影響因子の依存性を、表示または探索結果の絞り込みに利用する際に、ユーザーの利便性を向上することができる。
 図17は、実施形態3に係る探索システムによる影響因子の依存性情報の表示についての説明図である。
 影響因子データベース5は、上述のように、環境記述データベース11、形態記述データベース12およびサイズ記述データベース13に区分された下位概念のデータベースを含んで構成されている。必ずしも区分する必要はない。また、例示した3つの区分以外の区分や、区分に分類されない影響因子が影響因子データベース5に含まれてもよい。グラフ探索部4から出力される探索結果31は、部分グラフとして表示される。物性パラメータがノードに対応し、関係性を有する物性パラメータ対に対応する2個のノードが、エッジによって接続されている。探索結果31が複数の経路である場合も、通常は始点と終点が共通なので、結果的には部分グラフで表示されることとなる。影響因子の依存性情報をこの探索結果と合わせて表示するには、種々の態様を取り得る。
 探索結果出力部7は、影響判定部6が依存関係を有すると判定した影響因子を新たなノードとして追加して表示し、追加した新たなノードと、当該影響因子に依存する物性パラメータに対応するノードとの間に新たなエッジを追加して表示する。追加された新たなエッジが、依存関係があることを示す表示となっている。図17に示した例では、ノードb、d及びTが追加され、さらに依存関係表示領域32を設けて、依存関係を示すエッジが追加されている。影響因子データベース5の枠線、環境記述データベース11、形態記述データベース12およびサイズ記述データベース13の区分は、必ずしも表示する必要はないが、表示することによって、ユーザーの視認性を向上することができる。ノードA,B,Fに対応する物性パラメータが温度Tに依存することを示すために、ノードTが追加され、ノードT-A間、T-B間、T-F間にそれぞれエッジ(破線)が表示されている。また、ノードA,Nに対応する物性パラメータが、形態として球状のときにサイズとして直径dに依存することが、ノードb、d、及びノードb-A間、b-N間、d-A間、d-N間それぞれのエッジ(1点鎖線)が追加されて表示されている。
 これにより、影響因子の物性への寄与が可視化され、ユーザーの利便性がより向上する。例えば、ノードAに対応する物性パラメータを制御して、ノードBに対応する物性パラメータを最適化しようとする場合に、経路A-N-Bを原理とした制御を行うと、ノードNに対応する物性パラメータが直径dに依存して変動する可能性があることがわかる。このような変動が好ましくない場合には、他の経路、A-C-F-BやA-K-E-Bを検討すべきであることがわかる。
 探索結果出力部7は、影響判定部6が依存関係を有すると判定した影響因子のうち、1または複数の影響因子を外部から指定することができるように構成することができる。依存関係がある影響因子が多数であるときにエッジが輻輳して視認性が低下する場合に有効である。また、ユーザーが関心のある影響因子についての依存関係に絞って表示することができるので、視認性が向上する。一方、ユーザーに関心のある影響因子を指定する機能を使わずに、探索結果である部分グラフを構成するすべてのノードに対応する物性パラメータのそれぞれに影響するすべての因子からの依存性情報を出力することによって、ユーザーに気付きの機会を提供することもできる。例えば、選択しようとする経路の途中の物性パラメータが、意外な影響因子に強い依存性を有していて、実は適切な経路でないこと気付くような場合である。
 影響因子の指定を可能とする場合と、指定しない場合の、両方の利点を活かすために、存在するすべての関係性を表示した上で、選択した影響因子の依存性情報を強調表示するなど、優先度に差をつけて表示することができる。ユーザーの関心の強い因子の影響を強調表示しながらも、他の因子の影響も合わせて表示されるため、ユーザーが想定していなかった因子の影響にも気付きの機会が与えられる。
 本実施形態3の探索システム10において、探索結果出力部7は、影響判定部6が1または複数の影響因子の依存関係を有すると判定した物性パラメータについて、対応するノード及び/またはエッジに、対応する依存性情報を表示することができるように構成するとさらに好適である。依存性情報には、依存関係の有無の他、当該依存関係を表す関係式が含まれる。例えば、ノードAに対応する物性パラメータを制御して、ノードBに対応する物性パラメータを最適化しようとする場合に、経路A-N-Bを原理とした制御を行うと、ノードNに対応する物性パラメータが直径dに依存して変動する可能性があることがわかるが、このとき、ノードNに対応する物性パラメータが直径dにどのように依存するかを表す関係式を、影響因子データベース5を参照することによってノードN-d間のエッジに対応づけ、表示することができる。例えば、ノードN-d間のエッジをクリックしたときに関数式がポップアップ表示される。このようなグラフィカルユーザーインターフェースによるのではなく、またはこれと合わせて、探索結果の情報をデータ出力してもよい。
 また、関係式を解析して、相関の極性(正の相関か負の相関か)から関係性の種類までを含めて、例えば、線形よりも緩やかに増加/減少、線形で増加/減少、べき乗(2乗、3乗、…)で増加/減少、指数的に増加/減少に区分することができる。このような、影響因子に対する依存性を有する側のノードに、依存性情報として表示することもできる。
 さらに、物性パラメータと影響因子の関係性を表すエッジに、対応する関係式を表示または出力するのに合わせて、逆関数を導出して出力しても良い。例えばノードAに対応する物性パラメータAがノードTに対応する影響因子である温度Tに依存するとき、関係式は“A=f(T)”の形式となるが、温度Tを求める形式に数式変形して“T=f-1(A)”を求めて合わせて表示または出力する。環境、形態、サイズ等の影響因子が物性値に依存して変化することはないが、反応プロセス等において、測定される物性値からそのプロセスが発生した系の温度、材料物質や反応生成物、中間生成物などプロセスに関与する材料の形態やサイズを求めるのに利用することができる。
 〔実施形態4〕<ハードウェア/ソフトウェア実装形態>
 実施形態1の情報処理方法及び実施形態2の探索システムと探索方法は、記憶装置と計算機を備えたハードウェアシステム上に、ソフトウェアとして機能構築される。
 図14は、本発明の情報処理方法及び探索方法に使用され、探索システム10が実装されることが可能なハードウェアシステムの一例を示すブロック図である。
 サーバー100とユーザー側のワークステーション110,120が、インターネットなどのネットワーク200に接続されている。サーバー100は、計算機101、記憶装置102、ネットワークインターフェース103、入力部104及び表示部105を有する。
 ネットワーク200を介する入出力で十分であれば、入力部104及び表示部105は具備されなくても良い。ユーザー側のワークステーション110,120もそれぞれ、計算機111,121、記憶装置112,122、ネットワークインターフェース113,123、入力部114,124及び表示部115,125を有する。一方、ネットワーク200に接続されない態様で実装することもできる。サーバー100からネットワークインターフェース103を省略し、本発明の情報処理方法、探索システム10及び探索方法それぞれのすべての機能を、計算機101、記憶装置102、入力部104及び表示部105に実装すればよい。
 物性関係性データベース1は記憶装置102に記憶される。実施形態1の情報処理方法を構成する各ステップは、計算機101上で動作するソフトウェアとして実装される。実施形態2について、探索システム10の関係式抽出部20及び探索方法の関係式・変数定義抽出ステップ(S20)と物性関係性データベース入力ステップ(S21)等についても同様である。また、探索システム10のグラフ生成部2と探索方法のグラフ生成ステップ(S22)も計算機101上で動作するソフトウェアとして実装され、生成される物性関係性グラフ3は記憶装置102に保持される。探索システム10のグラフ探索部4は、サーバー100側の計算機101に実装されても、ユーザー側のワークステーション110,120の計算機111,121に実装されても良い。サーバー100側の計算機101に実装される場合には、サーバー100側の入力部104から探索条件が入力され、探索結果が表示部105に表示されまたは記憶装置102に出力されるように構成することができる。或いは、探索条件がユーザー側のワークステーション110,120の入力部114,124から入力され、ネットワーク200を介してサーバー100に送られ、探索結果がネットワーク200を介して探索条件を送信したユーザー側のワークステーション110,120に返信されて、その表示部115,125に表示され、または記憶装置112,122に記憶されるように構成してもよい。
 グラフ探索部4は、サーバー100ではなくまたはサーバー100に加えて、ユーザー側のワークステーション110,120の計算機111,121上にソフトウェアとして実装されても良い。このとき、物性関係性グラフ3は、ユーザー側のワークステーション110,120からの要求に応じてサーバー100から供給される。物性関係性グラフ3は、その経路探索に先立って、予めダウンロードし、ワークステーション110,120の記憶装置112、122上に格納されるように構成しても良い。これにより、グラフ探索部4による経路探索処理が高速化される。特に、多数のユーザーが同時にグラフ探索処理を実行する場合に、サーバー100に処理の負荷が集中するのを防止することができる。
 さらに、グラフ生成部2についても、ユーザー側のワークステーション110,120の計算機111,121上にソフトウェアとして実装されても良い。この場合も、同様に、多数のユーザーが同時にグラフ探索処理を実行する場合に、サーバー100に処理の負荷が集中するのを防止することができる。
〔具体的な実施例〕
 <実施例1>
 図18と図19は、電気化学分野と熱化学分野の教科書から、それぞれ関係式を抽出して物性関係性データベース1に入力する例を示す説明図であり、図20と図21は、抽出された関係式が入力された物性関係性データベース1と、その物性関係性データベース1から生成された物性関係性グラフ3に対して行った経路探索の例を示す説明図である。
 図18に例示する電気化学分野の教科書からは、関係式「E°=-ΔG°/nF」とその関係式に使われている変数の定義が抽出される。関係式「E°=-ΔG°/nF」は、教科書がpdfファイルの場合、画像データの形で含まれている。教科書であるpdfファイルを走査し、画像認識によって数式である領域を特定した上で、文字認識を行って文字や記号とそれらの位置関係を抽出し、抽出した関係式を、例えばpresentation math MLなど、数式を表示するための記述言語で表現する。これは、実施形態1では第2ステップS2(図1等)として説明した動作である。
 この段階で、関係式に使われている変数である可能性のある文字または文字列が抽出される。ただし、1文字で変数として使用されているのか、複数文字の文字列で1つの変数が表されているのかは、特定されない。変数の候補を列挙し、関係式が記載されていた領域の前後、特に、その領域よりも前に記載されたテキストデータを中心に、変数の候補を探索しヒットした文章の意味解釈を行う。文章が変数の意味を定義するときに、変数とパラメータ名を対応付けて出力する。一方、複数の変数候補のうち、文章中にヒットしないもの、或いは、多数のヒットがあるものの変数の意味を定義していると解釈される文章がないものについては、変数ではないと判断する。また、文字数の多い候補を優先してテキスト探索し、対応するパラメータを抽出することに成功した場合には、それよりも少ない文字数の候補のテキスト探索を行わないように構成しても良い。この動作は、実施形態1では第4ステップS4(図1等)として説明した動作である。
 図18に示す例では、変数「E°」、「ΔG°」、「n」及び「F」がそれぞれ「標準酸化還元電位」、「標準ギブスエネルギーの変化」、「価数」及び「ファラデー定数」として抽出される。上述したように、変数候補「E°」について、その意味を定義する文章が特定され、変数と特定された場合には、それよりも文字数の少ない候補「E」と「°」については変数候補から除外されるように構成しても良い。
 教科書に含まれる画像データから抽出され、例えばpresentation math MLなど、数式を表示するための記述言語で表現された関係式は、定義が抽出された各変数を使って、例えばcontent math MLなど、数学的に意味のある記述言語に変換される。これは、実施形態1では第3ステップS3(図1等)として説明した動作である。
 抽出された各変数について、物性関係性データベース1が探索される。関係式の左辺の変数は結果側、右辺に含まれる1または複数の変数は原因側物性パラメータを対象として探索されるとよい。原因側と結果側の両方でヒットしたレコードが、抽出された関係式に対応する物性パラメータ対として特定される。ヒットした変数は、物性パラメータ名として特定される。抽出されcontent math MLなどの数学的に意味のある記述言語で表記された関係式は、対応する物性パラメータ対を記憶するレコードの関係式欄に入力される。図20に例示する物性関係性データベース1において、原因側物性パラメータを「標準ギブスエネルギーの変化,ΔG°」、結果側物性パラメータを「標準酸化還元電位,E°」とする物性パラメータ対を含むレコードがヒットするので、そのレコードの関係式欄に、抽出された関係式「E°=-ΔG°/nF」が入力される。図20では画像情報と同様の表記で示されているが、実際にはcontent math MLなどの数学的に意味のある形式言語で記述された関係式が入力される。一方、関係式には、物性パラメータ以外の変数も使われている。例えば、図18に示す変数「n」は価数であり、「F」はファラデー定数であって物理定数であるから、いずれも物性パラメータではない。このような変数は、物性関係性データベース1には記憶されていないので、探索してもヒットせず、物性パラメータとして特定されない。この動作は、実施形態1では第5及び第6ステップ(S5及びS6)(図1等)として説明した動作である。
 次に、図19に例示するように、熱力学分野の教科書からは、関係式「ΔG°=ΔH°-TΔS°」とその関係式に使われている変数の定義が抽出される。変数「ΔG°」、「ΔH°」、「ΔS°」及び「T」がそれぞれ「反応の標準ギブスエネルギー変化」、「反応の標準エンタルピー変化」、「反応の標準エントロピー変化」及び「温度」として抽出される。このとき、もう1つの関係式として、「ΔG°~ΔH°」も合わせて抽出される。この関係式は、第2項である「TΔS°<<ΔH°」の場合の近似式である。これは実施形態1において、「関係式の成立条件を抽出」として説明した動作の一例であり、「TΔS°」が十分小さいこと即ち「TΔS°<<ΔH°」が成立条件として抽出される。より物理化学的な条件、例えば、温度条件や材料名(物質名)などが、成立条件として抽出されてもよい。
 抽出された各変数について、物性関係性データベース1が探索され、原因側と結果側の物性パラメータを、「反応の標準エンタルピー変化,ΔH°」と「反応の標準ギブスエネルギー変化,ΔG°」するレコード(図20の第2レコード)と、「反応の標準エントロピー変化,ΔS°」と「反応の標準ギブスエネルギー変化,ΔG°」するレコード(図20の第3レコード)とがヒットする。この時点では図20の第4レコードは存在していない。第2レコードと第3レコードに、抽出した関係式「ΔG°=ΔH°-TΔS°」が入力される。このとき、近似式「ΔG°~ΔH°」についても第2レコードがヒットする。原因側と結果側の物性パラメータが一致するからである。第2レコードには上述のように既に関係式「ΔG°=ΔH°-TΔS°」が入力されたので、第2レコードをコピーして新たに第4レコードを作成した上で、新たに作成した第4レコードの関係式欄に近似式「ΔG°~ΔH°」を、条件欄に成立条件「TΔS°<<ΔH°」を入力する。
 図21には、図20に示した物性関係性データベース1から生成した物性関係性グラフ3の一部が示されている。電気化学分野の物性の関係性を表す領域Aと、熱力学分野の物性の関係性を表す領域Bとの境界部分に相当する。領域Aには「標準酸化還元電位」に対応するノード「E°」と「標準ギブスエネルギーの変化」に対応するノード「ΔG°」とが含まれ、領域Bには「反応の標準ギブスエネルギーの変化」に対応するノード「ΔG°」と「反応の標準エンタルピー変化」に対応するノード「ΔH°」と「反応の標準エントロピー変化」に対応するノード「ΔS°」とが含まれている。
 ユーザーが物性探索を行うと、ノード「E°」-「ΔG°」-「ΔH°」の経路が抽出されることにより、「標準酸化還元電位」が「反応の標準エンタルピー変化」に依存して変化することがわかり、さらに、その依存関係として関係式「E°~-ΔH°/nF」が表示されている。ただし、この関係は「TΔS°~0」が成立条件となっている。これはノード「E°」-「ΔG°」-「ΔH°」の経路に沿って、物性関係性データベース1の第1レコードの関係式「E°=-ΔG°/nF」と第4レコードの関係式(近似式)「ΔG°~ΔH°」とを合成した結果であり、第4レコードの関係式である近似が成り立つ条件として「TΔS°<<ΔH°」が合わせて示されている。ユーザーには、経路をハイライトなどで強調表示し、合成した関係式とその条件をポップアップするサブウィンドウで示すなどの方法で表示されることとなる。なお、この表示方法は一例に過ぎない。
 以上のように、ユーザーは分野横断的な物性パラメータの因果関係、即ち、電気化学分野の「標準酸化還元電位」と熱力学分野の「反応の標準エンタルピー変化」とが関係性を有するという知見を得ることができる上に、その関係性を数量的に表現する関係式「E°~-ΔH°/nF」をも知ることができる。
 <実施例2>
 図22と図23は、半導体物理分野と光学物性分野の教科書から、それぞれ関係式を抽出して物性関係性データベースに入力する例を示す説明図であり、図24と図25は、抽出された関係式が入力された物性関係性データベースと、その物性関係性データベースから生成されたグラフに対して行った経路探索の例を示す説明図である。
 図22に例示されるように、半導体物理分野の教科書からは、変数σを算出する関係式を表す数式情報とその関係式に使われている変数の定義が抽出される。例えば、図示されるように関係式を表す数式情報が画像データの場合には、その画像データに含まれる文字の配置などを認識することによって、presentation math MLの形式に変換される。教科書がePub等の電子出版物である場合には、関係式を表示するための数式情報がpresentation math MLの形式で含まれている場合が多いので、該当箇所の記述を抽出するだけでよい。一方、抽出された関係式に使われている変数の定義を、教科書においてその関係式の前後の文章に自然言語処理を施す等の方法によって特定する。図22の例では、関係式として抽出された文字列に含まれている変数「σ」、「m*」、「m0」、「e」、「μe」、「μh」、「Eg」、「KB」及び「T」がそれぞれ「電気伝導率」、「有効質量」、「電子の質量」、「電気素量」、「電子の移動度」、「正孔の移動度」、「バンドギャップ」、「ボルツマン定数」及び「温度」を指すことが特定される。特定された変数を使って、関係式がcontent math MLの形式に変換される。content math MLの形式に変換された関係式は、図24の第1レコードに示されるように、「バンドギャップEg」と「電気伝導率σ」を原因側と結果側の物性パラメータ対とするレコードの関係式欄に入力される。図示は省略されているが、関係式に含まれる他の物性パラメータと電気伝導率σとを物性パラメータ対とするレコードにも、同じ関係式が入力される。
 また図23に例示されるように、光学物性分野の教科書からは、変数αを算出する関係式を表す数式情報とその関係式に使われている変数の定義が抽出される。例えば、図22と同様に関係式を表す数式情報が画像データの場合には、同様の処理によってpresentation math MLの形式に変換され、教科書がePub等の電子出版物である場合には、該当箇所の記述が数式情報として抽出される。抽出された数式情報に含まれる文字列から、変数「αdir」、「E」及び「Egap」が変数として特定され、教科書の文章からそれぞれの変数の定義が「光吸収係数(光吸収スペクトル)」、「エネルギー準位」及び「バンドギャップ」であると特定される。特定された変数を使って、presentation math MLからcontent math MLの形式に変換された関係式は、図24の第2レコードに示されるように、「バンドギャップEgap」と「光吸収係数αdir」を原因側と結果側の物性パラメータ対とするレコードの関係式欄に入力される。
 図25には、図24に示した物性関係性データベース1から生成した物性関係性グラフ3の一部が示されている。半導体物理分野の物性の関係性を示す領域Cと、光学物性分野の物性の関係性を示す領域Dとの境界部分に相当する。領域Cには「電気伝導率」に対応するノード「σ」と「バンドギャップ」に対応するノード「Eg」とが含まれ、領域Dには「バンドギャップ」に対応するノード「Eg」と「光吸収係数」に対応するノード「αdir」とが含まれている。
 ユーザーが物性探索を行うと、ノード「σ」-「Eg」-「αdir」の経路が抽出されることにより、「電気伝導率」と「光吸収係数」とが相互に依存して変化することがわかる。図21とは異なり、合成関数は例示されていない。
 合成関数を求めるためには、図24の第1レコードまたは第2レコードについて、原因側と結果側の物性パラメータを入れ替えた関係式を求める。これは純粋に数学的な数式変形を行えばよい。第1レコードについて、原因側と結果側の物性パラメータを入れ替えると、「電気伝導率」から「バンドギャップ」が算出される関係式が導出され、第2レコードの関係式と合成することにより、「電気伝導率」を変化した場合に「光吸収係数」がどのように変化するかを表す数量的関係性を求めることができる。逆に、第2レコードについて、原因側と結果側の物性パラメータを入れ替えると、「光吸収係数」から「バンドギャップ」が算出される関係式が導出され、第1レコードの関係式と合成することにより、「光吸収係数」に対する「電気伝導率」の数量的関係性を求めることができ、所望の電気伝導率の物質を得るために利用することができる材料の候補を「光吸収係数」の値に基づいて絞り込む、などの利用形態が可能となる。現実的には、ユーザーにとっては、後者である「光吸収係数」を変化した場合に「電気伝導率」がどのように変化するかを表す数量的関係性を利用する方が便宜であると考えられ、本実施例ではユーザーは希望する方向での数量的関係性を要求して出力させることができる。
 なお、上述した、原因側と結果側の物性パラメータを入れ替えて導出した関係式は、実施形態1の「原因側物性パラメータを算出する関係式の導出」で説明したように、図9に示した第6ステップにより、物性関係性データベース1に予め記憶させておくこともできる。
 以上本発明者によってなされた発明を実施形態に基づいて具体的に説明したが、本発明はそれに限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。
 本発明は、データベースを使った探索システム及び探索方法、並びにそのデータベースを管理する情報処理方法に関し、特に複数の物性パラメータ間の関係性を探索する場合に数量的関係性を加味する探索システム、探索方法およびそのために使用するデータベースの作成に好適に利用できるものである。
 1 物性関係性データベース
 2 グラフ生成部
 3 物性関係性グラフ
 4 グラフ探索部
 5 影響因子データベース
 6 影響判定部
 7 探索結果出力部
 10 探索システム
 11 環境記述データベース
 12 形態記述データベース
 13 サイズ記述データベース
 20 関係式抽出部
 21 関係式認識部
 22 変数定義認識部
 23 関係式出力部
 31 探索結果
 32 依存関係表示領域
 100 サーバー
 110、120 ワークステーション
 101、111、121 計算機
 102、112、122 記憶装置
 103、113、123 ネットワークインターフェース
 104、114、124 入力部
 105、115、125 表示部
 200 ネットワーク

 

Claims (17)

  1.  記憶装置を備えるコンピュータを利用する情報処理方法であって、
     前記情報処理方法は、互いに関係性を有する物性パラメータ対を記憶する物性関係性データベースに対して、前記物性パラメータ対を構成する2つの物性パラメータの関係を表す関係式を入力する方法であり、
     入力データを読み込む第1ステップと、
     前記入力データから数式情報を抽出する第2ステップと、
     前記数式情報から複数の変数の間の関係を規定する関係式と当該関係式を構成する複数の変数とを抽出する第3ステップと、
     前記入力データから前記複数の変数のそれぞれを定義する記述を抽出する第4ステップと、
     前記第4ステップで抽出された前記複数の変数のそれぞれを定義する記述にもとづき、前記物性関係性データベースを参照して、前記複数の変数のそれぞれと前記物性関係性データベースに記憶されている物性パラメータを対応付ける第5ステップと、
     前記物性関係性データベースに対して、前記複数の変数のうちの2個に対応する物性パラメータ対に対応づけて、前記関係式を入力する第6ステップとを含む、
     情報処理方法。
  2.  請求項1において、
     前記物性パラメータ対は、原因側物性パラメータと結果側物性パラメータとで構成され、
     前記第6ステップは、前記関係式を、当該関係式によって算出される変数に対応する物性パラメータを結果側物性パラメータとする物性パラメータ対に対応付けて、前記物性関係性データベースに入力する、
     情報処理方法。
  3.  請求項2において、
     前記情報処理方法は、前記関係式から、当該関係式によって算出される変数以外の変数を算出する変形関係式を導出する第7ステップをさらに含み、
     前記第6ステップは、前記変形関係式を、当該変形関係式によって算出される変数に対応する物性パラメータを結果側物性パラメータとする物性パラメータ対に対応付けて、前記物性関係性データベースに入力する、
     情報処理方法。
  4.  請求項1から請求項3のうちのいずれか1項において、
     前記情報処理方法は、前記入力データから関係式が成立する条件を抽出する第8ステップをさらに含み、
     前記第6ステップは、前記関係式によって算出される変数に対応する物性パラメータを含む物性パラメータ対に対応付けて、前記条件を前記物性関係性データベースに入力する、
     情報処理方法。
  5.  請求項4において、
     前記第6ステップは、前記物性関係性データベースにおいて前記条件に対応付けられる物性パラメータ対に既に別の条件が対応付けられている場合に、当該物性パラメータ対に対応するレコードを複写して、当該条件を入力する、
     情報処理方法。
  6.  請求項1から請求項5のうちのいずれか1項において、
     前記情報処理方法は、前記第3ステップで抽出された前記複数の変数のそれぞれが独立変数か従属変数かを前記物性関係性データベースに基づいて判定する第9ステップと、従属変数である場合に当該従属変数を算出する従属変数関係式を生成する第10ステップと、前記従属変数関係式を表示する第11ステップとをさらに含む、
     情報処理方法。
  7.  請求項1から請求項6のうちのいずれか1項において、
     前記情報処理方法は、前記第3ステップで抽出された前記関係式によって算出される変数に対応する物性パラメータを含む物性パラメータ対に対応付けて前記物性関係性データベースに既に記憶されている別の関係式がある場合に、前記関係式と前記別の関係式とを照合する第12ステップをさらに含む、
     情報処理方法。
  8.  物性関係性データベースとグラフ生成部とグラフ探索部とを備える探索システムであって、
     前記物性関係性データベースは、互いに関係性を有する物性パラメータ対と前記物性パラメータ対の一方の物性パラメータの値を使って他方の物性パラメータの値を算出する関係式とを互いに対応付けて記憶し、
     前記グラフ生成部は、前記物性パラメータ対に含まれる複数の物性パラメータをノードとし、前記物性パラメータ対に対応するノード間をエッジとする、グラフを生成可能に構成され、
     前記グラフ探索部は、与えられる探索条件に基づいて前記グラフの経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに出力可能に構成され、
     前記探索システムは、関係式認識部と変数定義認識部と関係式出力部とを含む関係式抽出部をさらに備え、
      前記関係式認識部は入力データに含まれる数式情報を抽出し、
      前記数式情報に含まれる関係式と当該関係式を構成する複数の変数とを抽出し、
      前記変数定義認識部は前記入力データに含まれる文章から変数を定義する記述を認識して変数定義として抽出し、
      前記関係式出力部は、認識された変数定義に基づいて、前記物性関係性データベースに記憶されている物性パラメータと変数とを対応付け、抽出された関係式を前記物性関係性データベースに入力する、
     探索システム。
  9.  請求項8において、
     前記物性関係性データベースは、前記関係式の成立する条件を当該関係式に対応付けて記憶し、
     前記グラフでは、当該関係式に対応するエッジに前記条件が属性として付与される、
     探索システム。
  10.  請求項8または請求項9において、
     前記物性関係性データベースは、同じ物性パラメータ対に対して成立する条件の異なる複数の関係式を記憶可能に構成され、
     前記グラフ生成部は、当該物性パラメータ対に対応するノード間に、成立する条件の異なる前記複数の関係式がそれぞれ対応づけられた複数のエッジを、前記グラフ内に生成する、
     探索システム。
  11.  請求項8から請求項10のうちのいずれか1項において、
     前記グラフ探索部は、探索結果に含まれ複数のエッジよりなる経路について、前記複数のエッジに対応する関係式を合成して出力可能に構成される、
     探索システム。
  12.  請求項8から請求項11のうちのいずれか1項において、
     前記探索システムは、影響因子データベースと、影響判定部と、探索結果出力部とをさらに備え、
      前記影響因子データベースは、前記物性関係性データベースに記憶される複数の物性パラメータのうちの少なくとも1個の物性パラメータと、当該物性パラメータが依存性を有する1以上の影響因子と、その依存関係を表す関係式とを対応付けて記憶し、
      前記関係式出力部は、さらに、認識された変数定義に基づいて、前記影響因子データベースに記憶されている影響因子と変数とを対応付け、抽出された関係式を前記関係式として、前記影響因子データベースに入力し、
      前記影響判定部は、前記影響因子データベースを参照することによって、前記探索結果に含まれるノードに対応する物性パラメータが、少なくとも1つの影響因子に依存性を有するか否かを判定し、
      前記探索結果出力部は、前記探索結果とともに、前記影響判定部が依存性を有すると判定した物性パラメータと影響因子の組み合わせとその関係式とを出力することができるように構成される、
     探索システム。
  13.  記憶装置を有するコンピュータを利用し、前記記憶装置に記憶される物性関係性データベースを参照する探索方法であって、関係式・変数定義抽出ステップと物性関係性データベース入力ステップとグラフ生成ステップとグラフ探索ステップとを含み、
     前記物性関係性データベースは、互いに関係性を有する物性パラメータ対と前記物性パラメータ対の一方の物性パラメータの値を使って他方の物性パラメータの値を算出する関係式とを互いに対応付けて、前記記憶装置に記憶され、
     前記関係式・変数定義抽出ステップは、入力データから関係式とその関係式に寄与している変数とその変数定義を抽出し、
     前記物性関係性データベース入力ステップは、抽出した変数をその変数定義に基づいて前記物性関係性データベースに記憶されている物性パラメータと対応付け、抽出された関係式を前記物性関係性データベースに入力し、
     前記グラフ生成ステップは、前記物性パラメータ対に含まれる複数の物性パラメータをノードとし、前記物性パラメータ対に対応するノード間をエッジとする、グラフを生成し、
     前記グラフ探索ステップは、与えられる探索条件に基づいて前記グラフの経路探索を行い、探索結果である経路を当該経路に含まれるエッジに対応する関係式とともに出力する、
     探索方法。
  14.  請求項13において、
     前記物性関係性データベースは、関係式の成立する条件を当該関係式に対応付けて記憶し、
     前記グラフでは、当該関係式に対応するエッジに前記条件が属性として付与される、
     探索方法。
  15.  請求項13または請求項14において、
     前記物性関係性データベースは、同じ物性パラメータ対に対して成立する条件の異なる複数の関係式を記憶可能に構成され、
     前記グラフ生成ステップは、当該同じ物性パラメータ対に対応するノード間に、成立する条件の異なる前記複数の関係式をそれぞれ対応づけされた複数のエッジを、前記グラフ内に生成する、
     探索方法。
  16.  請求項13から請求項15のうちのいずれか1項において、
     前記グラフ探索ステップは、探索結果に含まれ複数のエッジよりなる経路について、前記複数のエッジに対応する関係式を合成して出力する、
     探索方法。
  17.  請求項13から請求項16のうちのいずれか1項において、
     前記探索方法は、前記記憶装置または他の記憶装置に記憶される影響因子データベースを参照する影響判定ステップと、探索結果出力ステップとをさらに含み、
      前記影響因子データベースでは、前記物性関係性データベースに記憶される複数の物性パラメータのうちの少なくとも1個の物性パラメータと、当該物性パラメータが依存性を有する1以上の影響因子と、その依存関係を表す関係式とが対応付けられており、
      前記物性関係性データベース入力ステップは、前記関係式・変数定義抽出ステップで認識された変数定義に基づいて、前記影響因子データベースに記憶されている影響因子と変数とを対応付け、抽出された関係式を前記関係式として、前記影響因子データベースに入力し、
      前記影響判定ステップは、前記探索結果に含まれるノードに対応する物性パラメータが、少なくとも1つの影響因子に依存性を有するか否かを判定し、
      前記探索結果出力ステップは、前記探索結果とともに、前記影響判定ステップで依存性を有すると判定された物性パラメータと影響因子の組み合わせとその関係式とを出力する、
     探索方法。
PCT/JP2021/004695 2020-02-19 2021-02-09 情報処理方法、探索システムおよび探索方法 WO2021166728A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21756526.6A EP4109298A4 (en) 2020-02-19 2021-02-09 INFORMATION PROCESSING METHOD, RESEARCH SYSTEM AND RESEARCH METHOD
US17/799,670 US20230082534A1 (en) 2020-02-19 2021-02-09 Information-processing method, search system, and search method
JP2022501819A JP7352315B2 (ja) 2020-02-19 2021-02-09 情報処理方法、探索システムおよび探索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-026688 2020-02-19
JP2020026688 2020-02-19

Publications (1)

Publication Number Publication Date
WO2021166728A1 true WO2021166728A1 (ja) 2021-08-26

Family

ID=77391125

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004695 WO2021166728A1 (ja) 2020-02-19 2021-02-09 情報処理方法、探索システムおよび探索方法

Country Status (4)

Country Link
US (1) US20230082534A1 (ja)
EP (1) EP4109298A4 (ja)
JP (1) JP7352315B2 (ja)
WO (1) WO2021166728A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350950A (ja) * 2005-06-20 2006-12-28 National Institute Of Information & Communication Technology データ表示装置及びデータ表示方法
JP2007018444A (ja) 2005-07-11 2007-01-25 Yamato Hiroshi 新規材料の構成物質情報探索方法、及び新規材料の構成物質情報探索システム
WO2017221444A1 (ja) 2016-06-21 2017-12-28 国立研究開発法人物質・材料研究機構 探索システム、探索方法および物性データベース管理装置
WO2018159237A1 (ja) 2017-02-28 2018-09-07 国立研究開発法人物質・材料研究機構 探索方法、探索装置および探索システム
JP2018194118A (ja) 2017-05-19 2018-12-06 株式会社エクセディ トルクコンバータ
JP2018194117A (ja) 2017-05-19 2018-12-06 川崎重工業株式会社 低温液化ガス貯蔵タンク
JP2019125841A (ja) 2018-01-12 2019-07-25 ザインエレクトロニクス株式会社 映像信号受信装置、映像信号受信モジュールおよび映像信号送受信システム
JP2020021303A (ja) 2018-08-01 2020-02-06 国立研究開発法人物質・材料研究機構 探索支援システム、探索システム及び探索支援方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4874678B2 (ja) * 2006-03-07 2012-02-15 株式会社東芝 半導体製造装置の制御方法、および半導体製造装置の制御システム
US20090171908A1 (en) * 2008-01-02 2009-07-02 Michael Patrick Nash Natural language minimally explicit grammar pattern
KR102580947B1 (ko) * 2018-06-29 2023-09-20 삼성전자주식회사 추출된 모델 파라미터를 이용하여 집적 회로를 설계하기 위한 컴퓨팅 시스템 및 이를 이용한 집적 회로의 제조 방법
WO2020039871A1 (ja) * 2018-08-23 2020-02-27 国立研究開発法人物質・材料研究機構 探索システムおよび探索方法
US11194832B2 (en) * 2018-09-13 2021-12-07 Sap Se Normalization of unstructured catalog data
US11023210B2 (en) * 2019-03-20 2021-06-01 International Business Machines Corporation Generating program analysis rules based on coding standard documents

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350950A (ja) * 2005-06-20 2006-12-28 National Institute Of Information & Communication Technology データ表示装置及びデータ表示方法
JP2007018444A (ja) 2005-07-11 2007-01-25 Yamato Hiroshi 新規材料の構成物質情報探索方法、及び新規材料の構成物質情報探索システム
WO2017221444A1 (ja) 2016-06-21 2017-12-28 国立研究開発法人物質・材料研究機構 探索システム、探索方法および物性データベース管理装置
WO2018159237A1 (ja) 2017-02-28 2018-09-07 国立研究開発法人物質・材料研究機構 探索方法、探索装置および探索システム
JP2018194118A (ja) 2017-05-19 2018-12-06 株式会社エクセディ トルクコンバータ
JP2018194117A (ja) 2017-05-19 2018-12-06 川崎重工業株式会社 低温液化ガス貯蔵タンク
JP2019125841A (ja) 2018-01-12 2019-07-25 ザインエレクトロニクス株式会社 映像信号受信装置、映像信号受信モジュールおよび映像信号送受信システム
JP2020021303A (ja) 2018-08-01 2020-02-06 国立研究開発法人物質・材料研究機構 探索支援システム、探索システム及び探索支援方法

Also Published As

Publication number Publication date
US20230082534A1 (en) 2023-03-16
JP7352315B2 (ja) 2023-09-28
JPWO2021166728A1 (ja) 2021-08-26
EP4109298A1 (en) 2022-12-28
EP4109298A4 (en) 2023-07-26

Similar Documents

Publication Publication Date Title
US20190250778A1 (en) Generating visualizations of facet values for facets defined over a collection of objects
CN108959328B (zh) 知识图谱的处理方法、装置及电子设备
US10275713B2 (en) Automatic data interpretation and answering analytical questions with tables and charts
JP6719748B2 (ja) 探索システム、探索方法および物性データベース管理装置
WO2016045153A1 (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
US9507805B1 (en) Drawing based search queries
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
JP5103051B2 (ja) 情報処理システム及び情報処理方法
CN117112806B (zh) 一种基于知识图谱的信息结构化方法和装置
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
KR20120058544A (ko) 이미지 구성요소의 검색
CN111813874A (zh) 太赫兹知识图谱构建方法及系统
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
WO2021166728A1 (ja) 情報処理方法、探索システムおよび探索方法
KR20210129465A (ko) 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법
Dinov et al. Natural language processing/text mining
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
Wei et al. Management of scientific documents and visualization of citation relationships using weighted key scientific terms
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2011248740A (ja) データ出力装置、データ出力方法およびデータ出力プログラム
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
JP2017208047A (ja) 情報検索方法、情報検索装置、及びプログラム
Baptiste et al. HistText: An Application for leveraging large-scale historical textbases
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム
Busch et al. Semantic Document Indexing With Generative AI

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21756526

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022501819

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021756526

Country of ref document: EP

Effective date: 20220919