WO2021140406A1 - 文書検索システム、文書を検索する方法 - Google Patents

文書検索システム、文書を検索する方法 Download PDF

Info

Publication number
WO2021140406A1
WO2021140406A1 PCT/IB2020/062467 IB2020062467W WO2021140406A1 WO 2021140406 A1 WO2021140406 A1 WO 2021140406A1 IB 2020062467 W IB2020062467 W IB 2020062467W WO 2021140406 A1 WO2021140406 A1 WO 2021140406A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
sentence
graph
document
score
Prior art date
Application number
PCT/IB2020/062467
Other languages
English (en)
French (fr)
Inventor
桃純平
東和樹
中島基
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to JP2021569602A priority Critical patent/JPWO2021140406A1/ja
Priority to US17/791,316 priority patent/US20230350949A1/en
Priority to CN202080091469.4A priority patent/CN114902206A/zh
Publication of WO2021140406A1 publication Critical patent/WO2021140406A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • One aspect of the present invention relates to a document retrieval system. Also, one aspect of the present invention relates to a method of retrieving a document.
  • a word (character string) search is mainly used.
  • page rank is used in web pages, and thesaurus is used in the patent field.
  • Patent Document 1 discloses a language processing apparatus that compares whether sentences are similar by converting a structural unit constituting a sentence into a string structure and calculating a distance between the string structures.
  • one aspect of the present invention is to provide a document retrieval system in consideration of the concept of a document.
  • Another object of the present invention is to provide a method for searching a document in consideration of the concept of the document.
  • One aspect of the present invention is a document retrieval system having a processing unit.
  • the processing unit has a function of creating a graph from sentences, a search graph is created from search sentences, and a search graph is a local graph for search of the first to m (m is an integer of 1 or more).
  • the first to mth search local graphs are composed of two nodes and an edge between the two nodes, respectively, and the processing unit further includes the first to mth sentences from the reference document.
  • the sentence of the i (i is an integer of 1 or more and m or less) has a function of searching for the word (3i-2), the word (3i-1), and the word 3i.
  • the third (3i-2) word is one of the two nodes in the local graph for searching i, one of the related words of the two nodes, or one of the subordinate words of the two nodes.
  • the word 3i-1) is the other of the two nodes in the local graph for searching i, the other related word of the two nodes, or the other subordinate word of the two nodes, and the word of the third i is the third word. It is an edge, a related word of the edge, or a subordinate word of the edge in the local graph for searching i, and the processing unit further bases the number of sentences included in the reference document among the first to mth sentences. It has a function of giving a first score to the score of the reference document.
  • the processing unit includes a sentence in which the reference document is j (j is an integer of 1 or more and m or less) and a sentence of k (k is an integer of 1 or more and m or less excluding j).
  • the function of giving a second score to the score of the reference document based on the distance between the jth sentence and the kth sentence, and the score of the reference document based on the score given to the score of the reference document It is preferable to have a function of calculating a score.
  • the processing unit uses the word (3j-2) included in the sentence j and the word that is the source of one of the two nodes in the local graph for searching j. It is preferable to have a function of giving a third score to the score of the reference document based on the closeness of the concept.
  • the processing unit performs the first (3l-2) word and the (3l-1) included in the first sentence (l is an integer of 1 or more and m or less) from a plurality of reference documents. It is preferable to have a function of extracting a reference document containing the word.
  • the function of the processing unit to create a graph from a sentence includes a function of dividing a sentence into a plurality of tokens, a function of performing a dependency analysis, and a function of performing a dependency analysis, depending on the result of the dependency analysis. It is preferable to have a function of concatenating a part of tokens, a function of evaluating the concatenation relationship between tokens according to the result of dependency analysis, and a function of constructing a graph from the concatenation relationship between tokens.
  • the function of the processing unit for creating a graph from a sentence further has a function of replacing a token in which a representative word or a hypernym exists with a representative word or a hypernym.
  • the document retrieval system has an input unit in addition to the processing unit, and the input unit has a function of supplying a search sentence to the processing unit.
  • the document retrieval system has an output unit in addition to the processing unit and the input unit, and the output unit has a function of supplying the score of the reference document.
  • the present invention it is possible to provide a document retrieval system in consideration of the concept of a document. Further, according to one aspect of the present invention, it is possible to provide a method for searching a document in consideration of the concept of the document.
  • the effect of one aspect of the present invention is not limited to the effects listed above.
  • the effects listed above do not preclude the existence of other effects.
  • the other effects are the effects not mentioned in this item, which are described below. Effects not mentioned in this item can be derived from those described in the description, drawings, etc. by those skilled in the art, and can be appropriately extracted from these descriptions.
  • one aspect of the present invention has at least one of the above-listed effects and / or other effects. Therefore, one aspect of the present invention may not have the effects listed above in some cases.
  • FIG. 1 is a diagram showing an example of a document retrieval system.
  • FIG. 2 is a flowchart showing an example of a document retrieval method.
  • FIG. 3 is a flowchart showing an example of a process of creating a graph.
  • 4A to 4C are diagrams showing the results obtained in each step.
  • 5A to 5C are diagrams showing the results obtained in each step.
  • 6A to 6D are diagrams showing the results obtained in each step.
  • 7A to 7C are diagrams showing the results obtained in each step.
  • FIG. 8 is a diagram illustrating an example of a graph.
  • FIG. 9 is a flowchart showing an example of analysis of the reference document.
  • FIG. 10 is a flowchart showing an example of analysis of the reference document.
  • FIG. 11 is a diagram illustrating the relationship between words.
  • FIG. 12A is a diagram illustrating an example of a graph.
  • FIG. 12B is a diagram showing the results obtained in each step.
  • 13A and 13B are diagrams showing the results obtained in each step.
  • FIG. 14 is a flowchart showing an example of a document retrieval method.
  • FIG. 15 is a flowchart showing an example of narrowing down the reference documents.
  • FIG. 16 is a diagram showing an example of hardware of a document retrieval system.
  • FIG. 17 is a diagram showing an example of hardware of a document retrieval system.
  • the "sentence” refers to a sentence composed of one or more "sentences”. Therefore, the “sentence” also includes the “sentence”.
  • the "document” may refer to a set of records represented by characters. In this specification and the like, when the term “document” is used, it may refer to a part or all of the text contained in the document. In other words, the term “document” can be paraphrased as a sentence. In addition, a part or all of the text contained in the document may be simply described as "text”.
  • text or "document” may refer to a collection of character information or character codes that can be processed and transmitted by an information processing device such as a server or a personal computer. is there.
  • the collection may be referred to as text data.
  • FIG. 1 is a diagram showing a configuration of a document retrieval system 100.
  • the document retrieval system 100 can be provided in an information processing device such as a personal computer used by a user. Alternatively, a processing unit of the document retrieval system 100 can be provided on the server, and the document retrieval system 100 can be used from the client PC via the network.
  • the document retrieval system 100 has at least a processing unit 106.
  • the document retrieval system 100 shown in FIG. 1 has a processing unit 106, an input unit 101, a storage unit 107, and an output unit 104. Further, the document retrieval system 100 is connected to the concept dictionary 112 via a network.
  • the processing unit 106 has a function of creating a graph from sentences.
  • the sentence is a sentence included in a sentence (also referred to as a search sentence, a query sentence, etc.) designated by the user for search and a document to be searched (also referred to as a reference document).
  • the graph created from the sentences specified by the user for search is also referred to as a search graph, a query graph, or the like.
  • the graph is composed of a set of nodes (also called a node group) and a set of edges (also called an edge group) showing the connection relationship between the nodes.
  • the node group has two or more nodes.
  • the edge group has one or more edges. Even if it has one edge, it may be referred to as an edge group.
  • the graph is preferably a directed graph.
  • a directed graph is a graph composed of a group of nodes and a group of edges having directions. Further, it is more preferable that the graph is a directed graph in which the nodes and edges are labeled. By using a directed graph with a label, the accuracy of the search can be improved.
  • weights may be set for the nodes and / or edges of the graph. By setting weights on nodes and / or edges, users can search for the desired document.
  • the graph may be an undirected graph.
  • the processing unit 106 has, for example, a function of performing morphological analysis, a function of performing dependency analysis, a function of abstracting, and a function of constructing a graph. Further, the processing unit 106 has a function of referring to the concept dictionary 112. With reference to the concept dictionary 112, the processing unit 106 creates a graph from the text.
  • the function of performing morphological analysis and / or the function of performing dependency analysis may be provided in a device different from the document retrieval system 100.
  • the document retrieval system 100 may transmit the above sentence to the device, receive the result of the morphological analysis and / or the dependency analysis performed by the device, and transmit the received data to the processing unit 106.
  • the processing unit 106 has a function of analyzing the reference document. In addition, the processing unit 106 has a function of evaluating the reference document. For example, the processing unit 106 preferably has a function of giving a score to the score of the reference document. In addition, the processing unit 106 has a function of extracting a reference document.
  • a sentence is input using the input unit 101.
  • the input unit 101 has a function of supplying the text to the processing unit 106.
  • the sentence is a sentence specified by the user for search.
  • the sentence is text data.
  • the text may be audio data or image data.
  • the input unit 101 includes input devices such as a keyboard, a mouse, a touch sensor, a microphone, a scanner, and a camera.
  • the document retrieval system 100 may have a function of converting voice data into text data.
  • the processing unit 106 may have the function.
  • the document retrieval system 100 may further have a voice-text conversion unit having the function.
  • the document retrieval system 100 may have an optical character recognition (OCR) function. As a result, the characters included in the image data can be recognized and the text data can be created.
  • OCR optical character recognition
  • the processing unit 106 may have the function.
  • the document retrieval system 100 may further have a character recognition unit having the function.
  • the storage unit 107 stores a plurality of reference documents.
  • the plurality of reference documents may be stored in the storage unit 107 via the input unit 101, the storage medium, communication, and the like.
  • the plurality of reference documents stored in the storage unit 107 are preferably text data.
  • the data size can be reduced by converting the character information contained in the audio data or image data into text data. can do. Therefore, by storing the text data in the storage unit 107, it is possible to reduce the increase in the storage capacity of the storage unit 107.
  • the storage unit 107 may store sentences input using the input unit 101. Further, the graph created from the text by the processing unit 106 may be stored as text data, image data, or the like.
  • the output unit 104 has a function of outputting information.
  • the information is the result of the processing unit 106 evaluating the reference document.
  • the information is the score of the reference document.
  • the information is the reference document with the highest score.
  • the information is ranking data ranked based on the score.
  • the above information is output to the output unit 104 as, for example, visual information such as character strings, numerical values, graphs, audio information, and the like.
  • the output unit 104 includes an output device such as a display and a speaker.
  • the document retrieval system 100 may have a function of converting text data into voice data.
  • the document retrieval system 100 may further have a text-to-speech conversion unit having the function.
  • the concept dictionary 112 is a list to which word classifications, relationships with other words, etc. are given.
  • the concept dictionary 112 may be an existing concept dictionary. Alternatively, a concept dictionary specialized in the field of search text or reference document may be created. Alternatively, words that are easily used in the field of search sentences or reference documents may be added to a general-purpose concept dictionary.
  • FIG. 1 shows a configuration in which the concept dictionary 112 is provided in a device different from the document retrieval system 100, but the present invention is not limited to this.
  • the concept dictionary 112 may be provided in the document retrieval system 100.
  • a document similar to the sentence can be searched from a plurality of reference documents in consideration of the concept of the sentence.
  • a list of documents similar to the sentence can be created from a plurality of reference documents.
  • a document similar to a sentence is a document that is judged to have the same (rough) meaning even if the words used are different.
  • the graph created from each of the two sentences is the same. Therefore, by using the document retrieval system which is one aspect of the present invention, it is possible to facilitate the retrieval of documents between different languages.
  • FIG. 2 is a flowchart illustrating a flow of processing executed by the document retrieval system 100. That is, FIG. 2 is also a flowchart showing an example of a method for searching a document, which is one aspect of the present invention.
  • a method of searching a document will be described.
  • the reference document is analyzed and evaluated based on the graph created from the text.
  • a method of searching a document will be described with reference to FIG.
  • the method for searching a document includes steps S001 to S005.
  • Step S001 is a step of acquiring the sentence 20.
  • the sentence 20 is a sentence supplied from the input unit 101 to the processing unit 106.
  • the sentence 20 is a sentence designated by the user for search.
  • the audio data or the image data is converted into the text data before proceeding to step S002.
  • the conversion from the voice data to the text data may be performed by using the function of converting the voice data of the processing unit 106 into the text data or the voice-text conversion unit.
  • the conversion from the image data to the text data may be performed by using the optical character recognition (OCR) function of the processing unit 106 or the character recognition unit.
  • OCR optical character recognition
  • the sentence 20 may be cleaned before proceeding to step S002.
  • the cleaning process includes removing a semicolon, replacing a colon with a comma, and so on. By performing a cleaning process on the text, the accuracy of morphological analysis can be improved. Further, even when the sentence 20 is a claim, the sentence 20 may be cleaned before proceeding to step S002.
  • the cleaning process may be performed as appropriate as necessary. Further, the sentence 20 may be stored in the storage unit 107 after the cleaning process is performed.
  • Step S002 is a step of creating a graph 21 from the sentence 20.
  • FIG. 3 is a flowchart showing an example of a process of creating a graph from sentences.
  • Step S002 includes steps S021 to S024 shown in FIG. In order to explain step S002, it will be described with reference to steps S021 to S024.
  • Step S021 is a step in which the processing unit 106 performs morphological analysis on the text.
  • the sentence is divided into morphemes (words).
  • the divided morpheme (word) may be referred to as a token.
  • step S021 it is preferable to determine the part of speech of the token and associate the part of speech label with each of the above tokens.
  • the accuracy of the dependency analysis can be improved.
  • associating a token with a part of speech label can be paraphrased as giving a part of speech to a token.
  • step S021 is a step of transmitting a sentence to the device, performing morphological analysis on the device, and receiving the result of the morphological analysis.
  • Step S022 is a step in which the processing unit 106 performs the dependency analysis. That is, it is a process of combining a part of a plurality of tokens according to the dependency of each token. For example, when tokens satisfy a specific condition, tokens satisfying the conditions are combined to generate a new token. As a result, the number of tokens can be reduced, and the number of processes in the subsequent steps can be reduced. Therefore, it is possible to reduce the load on the central processing unit and the memory, shorten the search time, and the like. Further, the document retrieval system 100 can be provided in an information processing device such as a personal computer used by a user or a small-scale server.
  • the above dependency analysis includes compound word analysis.
  • the dependency analysis it is possible to combine a part of a plurality of tokens and generate a compound word as a new token.
  • the sentence can be divided into tokens with high accuracy.
  • the generated compound word may be added to the concept dictionary 112. Thereby, the efficiency of dividing the sentence into tokens can be improved.
  • step S022 includes a step of evaluating the connection relationship between tokens in addition to the step of combining a part of the plurality of tokens described above.
  • the step of evaluating the connection relationship between tokens may be performed after the step of joining a part of the plurality of tokens described above.
  • the sentence when Japanese is used in a sentence, the sentence is described in the order of subject, object, predicative verb (verb, adjective, adjective verb, combination of noun and particle, etc.). Therefore, the token that is the subject, the token that is the object, and the token that is the predicate are searched in order.
  • the token that is the subject and the token that is the object may be extracted as a node, and the token that is a predicate may be extracted as an edge.
  • the sentence when English is used in a sentence, the sentence is described in the order of subject, predicate (verb), and object. Therefore, the token that is the subject, the token that is the predicate (verb), and the token that is the object are searched in order.
  • the token which is the subject and the token which is the object may be used as a node, and the token which is a predicate (verb) may be extracted as an edge.
  • the order in which the subject, object, and predicate are written differs depending on the language used in the sentence, so it is advisable to make appropriate adjustments depending on the language.
  • a token that is a preposition included between the first token and the second token may be searched.
  • the first token and the second token may be used as nodes, and the token that is a preposition may be extracted as an edge.
  • step S022 is a step of transmitting the token to the device, performing the dependency analysis on the device, and receiving the result of the dependency analysis.
  • Step S023 is a step of abstracting the token in the processing unit 106.
  • the token is a node and edge token extracted in step S022.
  • the word contained in the token is analyzed to obtain the representative word. If the representative word has a hypernym, the hypernym is acquired. Then, the token is replaced with the acquired representative word or the hypernym.
  • the representative word is a headword (also referred to as a lemma) of a group of synonyms.
  • the hypernym is a representative word that corresponds to the superordinate concept of the representative word.
  • token abstraction refers to replacing a token with a representative word or a hypernym. If the token is a representative word or a hypernym, the token need not be replaced.
  • the upper limit of the layer of the hypernym to be replaced is preferably one layer or more and two layers or less, and more preferably one layer.
  • the upper limit of the hierarchy of hypernyms to be replaced may be specified. As a result, it is possible to prevent the token from being over-conceptualized and to prevent it from deviating from the concept of sentences. In addition, the number of processes in the process of abstracting tokens can be reduced. Therefore, it is possible to reduce the load on the central processing unit and the memory, shorten the search time, and the like. Further, the document retrieval system 100 can be provided in an information processing device such as a personal computer used by a user or a small-scale server.
  • the appropriate level of abstraction of tokens varies from field to field. Therefore, it is preferable to abstract the token by machine learning according to the field.
  • the abstraction of tokens is carried out, for example, by vectorizing the token, or vectorizing one of the tokens obtained by dividing the token again and classifying it by a classifier.
  • a classifier an algorithm such as a decision tree, a support vector machine, a random forest, or a multi-layer perceptron may be used.
  • “oxide semiconductor”, "amorphous semiconductor”, “silicon semiconductor”, and “GaAs semiconductor” may be classified into “semiconductor".
  • oxide semiconductor layer may also be classified as “semiconductor”.
  • a classifier may be used to classify the tokens based on a plurality of tokens obtained by dividing the tokens again. For example, when abstracting a token called “oxide semiconductor layer”, the tokens ("oxidation”, “object”, “semiconductor”, and “layer”) obtained by re-dividing the token into morphemes are used as classifiers. input. If it is classified as “semiconductor” as a result of inputting to the classifier, the token is replaced with "semiconductor”. This makes it possible to abstract the token.
  • conditional random field may be used.
  • the CRF may be combined with the above method.
  • the representative words and hypernyms may be acquired by using a concept dictionary or by machine learning.
  • a concept dictionary 112 provided in a device different from the document retrieval system 100 may be used, or a concept dictionary provided in the document retrieval system 100 may be used.
  • Step S024 is a step of constructing a graph in the processing unit 106. That is, it is a step of constructing a graph using the tokens prepared up to step S023. For example, if there is a first token and a second token that are noun phrases and a third token that represents the concatenation of the first token and the second token in the sentence, the first token A graph is constructed in which each of the second tokens is a node and a label of the node, and the third token is an edge and the label of the edge. That is, the node label and the edge label are composed of the tokens prepared up to step S023.
  • a node it may refer to the label of the node.
  • an edge it may refer to the label of the edge.
  • the node of the graph is a component and the edge of the graph is the relationship between the components.
  • the nodes of the graph are A and B, and the edges of the graph are the contents and conditions of the contract.
  • the graph may be constructed based on the rules due to the dependency relationship between tokens. You may also use CRF to perform machine learning to label nodes and edges based on a list of tokens. This allows you to label nodes and edges based on the list of tokens.
  • CRF recurrent neural network
  • LSTM long short-term memory
  • the processing unit 106 may have a function of reversing the direction of the edge and replacing the label of the edge with a synonym for the label of the edge. For example, suppose a graph has a first edge and a second edge labeled with a label that is synonymous with the label of the first edge. At this time, the function is used to reverse the direction of the second edge and replace the label of the second edge with the antonym of the label of the second edge (that is, the label of the first edge). As a result, the graph is reconstructed. By using the reconstructed graph, it is possible to cover substantially the same structure. Therefore, when searching for a sentence, it is not easily affected by the composition and expression of the sentence. That is, the search can be performed based on the concept of sentences.
  • the above processing should be performed on the edge with the lower frequency of appearance in the text. That is, when the appearance frequency of the second edge is lower than or the same as the appearance frequency of the first edge, the direction of the second edge is reversed and the label of the second edge is changed to the second edge. It is advisable to perform the process of replacing the label with the antonym of the label (that is, the label of the first edge). As a result, the frequency of performing the above processing can be reduced, and the time required for searching the document can be shortened.
  • steps S023 and S024 may be changed.
  • the order of steps S023 and S024 is changed, the nodes and edges included in the graph are abstracted after the graph is constructed. Therefore, even if the order of step S023 and step S024 is changed, an abstracted graph can be created from the text.
  • the graph 21 can be created from the sentence 20.
  • the graph 21 may be output after performing step S002.
  • the nodes and edges constituting the graph 21 may be output, and before performing step S004 or step S005, a step of setting weights for each of the nodes and / or the edges may be provided. ..
  • the oxide semiconductor layer is above the insulator layer (SANKABUTSUHANDOUTAISOU HA ZETSUENTAISOU NO JOUHOU NI ARU)" (see Fig. 4A) will be described as an example.
  • the rounded quadrangle shown in FIGS. 4B, 4C, and 5A is a token, and the part of speech given to the token is described below the rounded quadrangle.
  • the above sentence is divided into tokens by performing morphological analysis on the above sentence. Part of speech may be given to each token (step S021 shown in FIG. 3). As a result, the result shown in FIG. 4B is obtained.
  • the above sentence is "" oxidation (SANKA) "(noun)
  • step S022 the dependency analysis is performed (step S022 shown in FIG. 3). Specifically, “oxidation (SANKA)” and “object (BUTSU)”, “object (BUTSU)” and “semiconductor (HANDOUTAI)”, and “semiconductor (HANDOUTAI)” and “layer (SOU)” are The condition described in step S022 is satisfied. Therefore, the four tokens (“oxidation (SANKA)”, “object (BUTSU)”, “semiconductor (HANDOUTAI)”, “layer (SOU)”) are combined into one token (“oxide semiconductor layer (SANKABUTSUHANDOUTAISOU)). Can be replaced with ").
  • step S023 shown in FIG. 3 the token is abstracted (step S023 shown in FIG. 3). Specifically, “oxide semiconductor layer (SANKABUTSUHANDOUTAISOU)" is replaced with the hypernym “semiconductor (HANDOUTAI)”. Further, “insulator layer (ZETSUENTAISOU)” is replaced with the hypernym “insulator (ZETSUENTAI)”. Further, “JOUHOU” is replaced with the representative word "UE”.
  • SANKABUTSUHANDOUTAISOU oxide semiconductor layer
  • HANDOUTAI hypernym
  • insulator layer ZTSUENTAISOU
  • JOUHOU is replaced with the representative word "UE”.
  • step S024 a graph is constructed (step S024 shown in FIG. 3). Specifically, “semiconductor (HANDOUTAI)” and “insulator (ZETSUENTAI)” are the nodes of the graph and the labels of the nodes, respectively, and “top (UE)” is the edge of the graph and the label of the edge. It becomes. As a result, the graph shown in FIG. 5B can be obtained from the above sentence.
  • the direction of the edge (direction of the arrow) shown in FIG. 5B is from the node that appears first in the sentence (“HANDOUTAI” in the case of the above sentence) to the node that appears later (in the case of the above sentence, “insulator”). (ZETSUENTAI) ”)"). That is, the start point of the edge (the start point of the arrow) is the node that appears first, and the end point of the edge (the end point of the arrow) is the node that appears later.
  • the present embodiment is not limited to this.
  • the direction of the edge (direction of the arrow) may be determined based on the semantic relationship between words such as the positional relationship.
  • start point of the edge is a node whose label is "insulation (ZETSUENTAI)"
  • end point of the edge is a node whose label is "semiconductor (HANDOUTAI)”.
  • a graph may be created in which the edge between these nodes and the label of the edge are "upper (UE)”. This makes it possible to intuitively understand the graph.
  • the method of determining the direction of the edge needs to be unified in the method of searching the document.
  • FIGS. 6C, 6D, and 7A The rounded quadrangle shown in FIGS. 6C, 6D, and 7A is a token. Although an example in which a part of speech is not given to the token is shown here, a part of speech may be given to the token.
  • the above sentence is divided into tokens (step S021 shown in FIG. 3).
  • the above sentence becomes "A
  • step S022 the dependency analysis is performed (step S022 shown in FIG. 3). Specifically, three tokens (“A”, “semiconductor device”, “device”) can be combined and replaced with one token (“A semiconductor device”). Further, four tokens (“an”, “oxide”, “semiconductor”, “layer”) can be combined and replaced with one token (“an oxide semiconductor layer”). In addition, three tokens (“an”, “insulator”, “layer”) can be combined and replaced with one token (“an insulator”). As a result, the above sentence becomes "A semiconductor device
  • step S023 shown in FIG. 3 the token is abstracted (step S023 shown in FIG. 3). Specifically, "A semiconductor device” is replaced with the hypernym “device”. Further, “an oxide semiconductor layer” is replaced with the hypernym “a semiconductor controller”. Further, “an insulator layer” is replaced with the hypernym “an insulator”. As a result, the above sentence is abstracted as "device
  • step S024 shown in FIG. 3 a graph is constructed (step S024 shown in FIG. 3). Specifically, “device”, “semiconductor”, and “insulator” are the nodes of the graph and the labels of the nodes, respectively, and “comprising” and “over” are the edges of the graph and the edges of the graph, respectively. It becomes a label. As a result, the graph shown in FIG. 7B can be obtained from the above sentence.
  • the antonym of "over” is "under”. Therefore, by reversing the direction (arrow) of the edge of the graph shown in FIG. 7B and replacing the edge of the graph shown in FIG. 7B and the label “over” of the edge with “under”, it is shown in FIG. 7C.
  • the graph may be reconstructed. This makes it possible to cover substantially the same structure.
  • the direction of the edge (direction of the arrow) shown in FIG. 7B is from the node that appears first in the sentence (“semiconductor” in the case of the above sentence) to the node that appears later (“insulator” in the case of the above sentence). Is illustrated as. That is, the start point of the edge (the start point of the arrow) is the node that appears first, and the end point of the edge (the end point of the arrow) is the node that appears later.
  • the present embodiment is not limited to this.
  • the direction of the edge (direction of the arrow) may be determined based on the semantic relationship between words such as the positional relationship.
  • start point of the edge is a node whose label is "insulator”
  • end point of the edge is a node whose label is "semiconductor”.
  • a graph may be created in which the edge and the label of the edge are "over”. This makes it possible to intuitively understand the graph.
  • the method of determining the direction of the edge needs to be unified in the method of searching the document.
  • Step S003 is a step of acquiring one or more reference documents.
  • the one or more reference documents are documents to be searched and are stored in the storage unit 107.
  • the above-mentioned cleaning process may be performed on the text included in the reference document before proceeding to step S004.
  • the cleaning process By performing the cleaning process, the accuracy of morphological analysis can be improved. Even if the reference document is outside the scope of claims or claims, the cleaning process may be appropriately performed as necessary.
  • Graph 21 shown in FIG. 8 is a directed graph.
  • the graph 21 is composed of a node group (nodes 22_1 to 22_n (n is an integer of 2 or more)) and an edge group (edges 23_1 to 23_m (m is 1 or more and an integer smaller than n)). It is preferable that the sum of the incoming degree and the outgoing degree is 1 or more for each of the nodes 22_1 to 22_n.
  • the start point of the edge 23_1 is the node 22_1, and the end point of the edge 23_1 is the node 22_1.
  • the start point of the edge 23_2 is the node 22_2, and the end point of the edge 23_2 is the node 22_3.
  • the start point of the edge 23_m is the node 22_n-1, and the end point of the edge 23_m is the node 22_n.
  • each of the edge 23_3 to the edge 23_m-1 is an edge of one of the node groups and the other one of the node groups.
  • FIG. 8 illustrates that there is a path via one or more nodes between the node 22_1 and the node 22_n-1. In other words, FIG. 8 omits one or more nodes and associated edges that exist between node 22_1 and node 22_n-1.
  • the graph 21 may be expressed using a set.
  • the graph 21 (G) is composed of a vertex set V and an edge set E.
  • the vertex set V and the edge set E are represented by the following (see Equation 1).
  • the number of elements of the vertex set V is n, and the number of elements of the edge set E is m.
  • the graph 21 (G) is expressed using a set (vertex set V and edge set E), but the present invention is not limited to this.
  • the graph 21 may be represented by using a matrix. Examples of the matrix include an adjacency matrix, a connection matrix, a degree matrix, and the like.
  • the adjacency matrix of the graph 21 is represented by an n ⁇ n matrix.
  • the connection matrix of the graph 21 is represented by an n ⁇ m matrix.
  • a graph composed of any one edge of edge 23_1 to edge 23_m, a node serving as a start point of the edge, and a node serving as an ending point of the edge is referred to as a local graph of graph 21. May be called.
  • the local graph of the graph 21 is created as many as the number of edges. That is, there are m local graphs of the graph 21.
  • m local graphs of the graph 21 may be referred to as a local graph group of the graph 21.
  • it may be expressed as a local graph 24_1 to a local graph 24_m.
  • the local graph of the graph 21 may be referred to as a search local graph, a query local graph, or the like.
  • Step S004 is a step of analyzing the reference document by the processing unit 106.
  • the reference document is composed of sentences 41_1 to 41_p (p is an integer of 1 or more).
  • the step of analyzing the reference document includes steps S031 to S034 shown in FIG.
  • the analysis of the reference document may start from sentence 41_1.
  • Step S031 is a step of determining whether the sentence 41_pp (pp is an integer of 1 or more and p or less) satisfies the condition A.
  • the condition A is satisfied when the sentence 41_pp includes two of the words 32A_1 to 32A_n.
  • the word 32A_i (i is an integer of 1 or more and n or less) refers to a node 22_i constituting the graph 21, a related word of the node 22_i, or a subordinate word of the node 22_i. That is, if the word 32A_i is a related word of node 22_i or a subordinate word of node 22_i, the abstracted word 32A_i matches node 22_i.
  • Related words include synonyms, synonyms, antonyms, representative words, hypernyms, hyponyms, etc.
  • related words are synonyms, synonyms, antonyms, representative words, and the like.
  • the subordinate word is a representative word corresponding to the subordinate concept of the representative word.
  • related words and hyponyms refer to a concept dictionary or the like.
  • oxide semiconductor when "semiconductor” is a hypernym, there are “oxide semiconductor”, “silicon semiconductor” and the like as a hyponym of “semiconductor”. Further, as related terms of “oxide semiconductor”, there are “oxide semiconductor layer”, “oxide semiconductor film”, “crystalline oxide semiconductor”, “polycrystalline oxide semiconductor” and the like. Further, as the “silicon semiconductor”, there are “silicon semiconductor layer”, “silicon semiconductor film”, “single crystal silicon”, “hydrogenated amorphous silicon (sometimes referred to as a-Si: H)” and the like.
  • oxide semiconductor oxide containing indium, gallium, and zinc (sometimes referred to as IGZO, etc.)" and “oxide containing indium, zinc, etc. It may be done) ”and so on.
  • sentence 41_pp contains one of the words 32A_1 to 32A_n, or does not contain any of the words 32A_1 to 32A_n, the sentence 41_pp is determined not to satisfy the condition A. At this time, the process proceeds to the analysis of the next sentence (sentence 41_pp + 1).
  • sentence 41_pp includes the word 32A_i1 (i1 is an integer of 1 or more and n or less) and the word 32A_i2 (i2 is an integer of 1 or more and n or less excluding i1)
  • sentence 41_pp satisfies the condition A. Will be done.
  • the word 32A_i1 and the word 32A_i2 can be obtained from the sentence 41_pp. If it is determined that the sentence 41_pp satisfies the condition A, the process proceeds to step S032.
  • Step S032 is a step of determining whether or not it is possible to acquire the words that are the edges of the words 32A_i1 and the words 32A_i2 from the sentence 41_pp.
  • the word that is the edge between the word 32A_i1 and the word 32A_i2 will be referred to as the word 33A.
  • the process proceeds to step S033 after acquiring the word 32A_i1, the word 32A_i2, and the word 33A.
  • the word 32A_i1, the word 32A_i2, and the word 33A may be acquired by performing steps S021 and S022.
  • step S021 and step S022 By performing step S021 and step S022 with respect to the sentence 41_pp, a token can be prepared from the sentence 41_pp and the relationship between the tokens can be known. If the word 33A cannot be obtained from the sentence 41_pp, the process proceeds to the analysis of the next sentence (sentence 41_pp + 1).
  • Step S033 is a step of abstracting the words 32A_i1, the words 32A_i2, and the words 33A.
  • the step of abstracting the word 32A_i1, the word 32A_i2, and the word 33A is the same step as in step S023. Therefore, the step of abstracting the word 32A_i1, the word 32A_i2, and the word 33A can refer to the explanation in step S023.
  • the abstracted word 32A_i1, the abstracted word 32A_i2, and the abstracted word 33A are referred to as node 32_i1, node 32_i2, and edge 33, respectively. Node 32_i1 and node 32_i2 coincide with node 22_i1 and node 22_i2, respectively.
  • Step S034 is a step of determining whether the edge 33 satisfies the condition B.
  • the condition B is satisfied when the edge 33 coincides with the edges of the node 22_i1 and the node 22_i2 constituting the graph 21.
  • the condition B is satisfied when the graph composed of the node 32_i1, the node 32_i2 and the edge 33 extracted from the sentence 41_pp becomes the local graph or the induced subgraph of the graph 21.
  • a flag may be provided in sentence 41_pp. For example, if it is determined that the condition B is satisfied, the flag of sentence 41_pp may be set. On the other hand, if it is determined that the condition B is not satisfied, the flag of sentence 41_pp may be set.
  • the process of analyzing the reference document is not limited to the flowchart shown in FIG.
  • the flowchart shown in FIG. 10 may be used.
  • a sentence that can create a local graph 24_1 to a local graph 24_m is searched from the reference document.
  • the local graph 24_mm (mm is an integer of 1 or more and m or less) is composed of two nodes and an edge between the two nodes.
  • one of the two nodes, one related word of the two nodes, and one subordinate word of the two nodes are collectively referred to as a word group 22A_m1 (m1 is an integer of 1 or more and n or less). .. Further, the other of the two nodes, the other related word of the two nodes, and the other subordinate word of the two nodes are put together, and the word group 22A_m2 (m2 is an integer of 1 or more and n or less excluding m1). ).
  • the edge, related words of the edge, and subordinate words of the edge are collectively referred to as a word group 23A_mm. That is, the sentence capable of creating the local graph 24_mm has at least one of the word group 22A_m1, any one of the word group 22A_m2, and any one of the word group 23A_mm.
  • the step of analyzing the reference document shown in FIG. 10 includes step S041.
  • the analysis of the reference document may be started from the local graph 24_1.
  • Step S041 is a step of determining whether the sentence 41_pp satisfies the condition D.
  • the condition D is satisfied when the sentence 41_pp has any one of the word group 22A_m1, any one of the word group 22A_m2, and any one of the word group 23A_mm.
  • a flag may be provided in sentence 41_pp. For example, if it is determined that the condition D is satisfied, the flag of sentence 41_pp may be set. On the other hand, if it is determined that the condition D is not satisfied, the flag of sentence 41_pp may be set.
  • the vertex set Vr and the edge set Er may be created from the above reference document. For example, an edge satisfying the condition B and a node connected to the edge may be added to the edge set Er and the vertex set Vr, respectively. If the edge is already included in the edge set Er, it is not necessary to add the edge. If the node is already included in the vertex set Vr, it is not necessary to add the node. As a result, the edge set Er becomes a union of edges satisfying the condition B. Further, the vertex set Vr is a union of nodes connected to the edge satisfying the condition B.
  • the reference document can be analyzed. After the above analysis is completed for all the reference documents, the process proceeds to step S005.
  • Step S005 is a step in which the processing unit 106 evaluates the reference document. Specifically, it is a step of giving a score to the score of the reference document based on the similarity between the sentence 20 and the reference document and calculating the score of the reference document.
  • Criteria for giving points 1 The more the nodes and edges that can be extracted from the reference document include the nodes and edges that make up the graph 21, the higher the score of the reference document is given.
  • the score given to the score of the reference document based on the criterion 1 is expressed as a score 61.
  • the score 61 may be calculated from the number of subgraphs that can be created from the reference document included in the local graph group (local graph 24_1 to local graph 24_m) of the graph 21. Specifically, the ratio of the number s of sentences included in the reference document to the number m of the local graph group of the graph 21 among the m sentences that can create each of the local graph 24_1 to the local graph 24_m (inclusion rate). It may be calculated from (notation). Here, the inclusion rate is (s / m).
  • s may be the number of sentences satisfying the above-mentioned condition B among the sentences 41_1 to 41_p included in the reference document, or the above-mentioned condition among the sentences 41_1 to 41_p included in the reference document. It may be the number of sentences satisfying D.
  • the inclusion rate is 1. Further, if none of the m sentences that can create each of the local graph 24_1 to the local graph 24_m is included in the reference document, the inclusion rate is 0. Therefore, it is advisable to give the score of the reference document the product of the inclusion rate and the weight X1 as a score of 61.
  • the score 61 may be calculated from the matching rate of the edges that can be extracted from the reference document with respect to the edges constituting the graph 21. Specifically, it may be calculated from the ratio of the number of intersections of the side set Er and the side set E of the graph 21 to the number of elements of the side set E (expressed as the matching rate).
  • the match rate is (t / m).
  • t is the number of intersections between the edge set Er created in step S004 and the edge set E in the graph 21.
  • m is the number of elements
  • the weight X1 or the weight X2 may be specified in advance or may be specified by the user.
  • the timing at which the user specifies the weight X1 or the weight X2 may be before step S005 is performed. For example, it may be the timing of inputting the sentence 20, or it may be after step S002 is performed.
  • the score 61 may be calculated from the Frobenius product (also referred to as the Frobenius inner product) of the adjacency matrix of the graph 21 and the adjacency matrix created from the vertex set Vr, or the connection matrix of the graph 21 and the vertex set Vr. And it may be calculated from the inner product with the adjacency matrix created from the side set Er.
  • Frobenius product also referred to as the Frobenius inner product
  • the score may be calculated from the distance between the sentence in which the nodes and edges of the graph 21 appear and the other sentences in which the nodes and edges of the graph 21 appear. The distance may be calculated using the flag set in step S004.
  • the score given to the score of the reference document based on the criterion 2 is expressed as a score 62.
  • the sentence in which the node and edge of the graph 21 appear is the sentence 41_p1 (p1 is an integer of 1 or more and p or less), and the other sentence in which the node and the edge of the graph 21 appear is the sentence 41_p2 (p2 is p1).
  • the distance r between the sentence 41_p1 and the sentence 41_p2 is (
  • the value (p-2-r) / (p-2) is calculated.
  • the value (p-2-r) / (p-2) becomes 1
  • the value (p-2-r) / (P-2) becomes zero. Therefore, it is advisable to give the score of the reference document the product of the value (p-2-r) / (p-2) and the weight Y as a score of 62.
  • the weight Y may be specified in advance or may be specified by the user.
  • the timing at which the user specifies the weight Y may be before step S005 is performed. For example, it may be the timing of inputting the sentence 20, or it may be after step S002 is performed.
  • the method of calculating the distance between the sentence in which the node and the edge appear and the other sentence in which the node and the edge appear is not limited to the above.
  • the graph 21 is a directed graph
  • abstraction is the work of replacing tokens with representative words or hypernyms. That is, the node before being abstracted is a token before being replaced with a hypernym or a representative word, and is a token before executing step S023. In other words, the node before being abstracted is the word itself that appears in the text contained in the reference document.
  • the word 32A_i3 (i3 is an integer of 1 or more and n or less) is acquired from the sentence included in the reference document will be described.
  • the node 32_i3 obtained by abstracting the word 32A_i3 coincides with the node 22_i3 in the graph 21. Further, the node 22_i3 before being abstracted is referred to as the word 22A_i3.
  • the word 22A_i3 is a word that appears in the sentence 20.
  • the reference document can be regarded as close to the concept of sentence 20.
  • the score 63 given to the score of the reference document is increased.
  • the reference document can be regarded as far from the concept of sentence 20.
  • the score 63 given to the score of the reference document is lowered or set to zero.
  • the score 63 given to the score of the reference document may be adjusted according to the relationship between the word 32A_i3 and the word 22A_i3.
  • r2 be a value representing the relationship between the word 32A_i3 and the word 22A_i3.
  • the value r2 is calculated from the position of the word 32A_i3 with respect to the word 22A_i3.
  • an example of a method for calculating the value r2 will be described with reference to FIG.
  • FIG. 11 is a diagram for explaining the relationship between words.
  • word A1 and word A2 are subordinate words of word A0.
  • the word A1 and the word A2 are related words to each other.
  • the word A11 and the word A12 are subordinate words of the word A1.
  • the word A11 and the word A12 are related words to each other.
  • the word A21 and the word A22 are subordinate words of the word A2.
  • the word A21 and the word A22 are related words to each other.
  • the word and the hypernym of the word are connected.
  • the word and the subordinate word of the word are connected.
  • the words shown in FIG. 11 can be regarded as nodes of the graph.
  • the line connecting the words can be regarded as the edge of the graph.
  • the distance between the word A0 and the word A1 is w1.
  • Let w2 be the distance between the word A0 and the word A2.
  • Let w11 be the distance between the word A1 and the word A11.
  • Let w12 be the distance between the word A1 and the word A12.
  • Let w21 be the distance between the word A2 and the word A21.
  • Let w22 be the distance between the word A2 and the word A22.
  • the word 22A_i3 is the word A1 shown in FIG.
  • the distance of the shortest path from the word 32A_i3 to the word 22A_i3 is W.
  • the shortest path from the word 32A_i3 to the word 22A_i3 refers to the path connecting the word 32A_i3 and the word 22A_i3 with the smallest number of edges. That is, the distance of the shortest path is the sum of the distances corresponding to the edges existing in the shortest path.
  • W becomes zero.
  • W is w1.
  • W is w11 or w12.
  • W is set to w1 + w2.
  • W is set to w1 + w2 + w21 or w1 + w2 + w22.
  • the value r2 may be calculated as 1 / (1 + W). As a result, when the word 32A_i3 and the word 22A_i3 match, the value r2 becomes 1, and when the distance of the shortest path from the word 32A_i3 to the word 22A_i3 is the maximum, the value r2 becomes the minimum value.
  • the value r2 may be calculated as (Wmax-W) / Wmax.
  • Wmax is the maximum value of the distance of the shortest path from the word 32A_i3 to the word 22A_i3.
  • the product of the value r2 calculated by the above method and the weight Z1 may be given as a score 63 to the score of the reference document.
  • the distance between words may be specified in advance or may be specified by the user.
  • the timing at which the user specifies the inter-word distance may be before step S005 is performed. For example, it may be the timing of inputting the sentence 20, or it may be after step S002 is performed.
  • the score 63 may be the product of the value r2 and the weight Z2.
  • the edges have a direction. Therefore, if the orientation of the edge obtained from the sentence included in the reference document is the same as the orientation of the edge of the graph 21, the edge can be regarded as close to the concept of the graph 21 before being abstracted. .. At this time, it is advisable to increase the score 63 given to the score of the reference document. On the other hand, if the orientation of the edges extracted from the statements contained in the reference document is opposite to the orientation of the edges in graph 21, the edges can be considered far from the concept of graph 21 before being abstracted. .. At this time, the score 63 given to the score of the reference document may be lowered or set to zero.
  • the weight Z1 and the weight Z2 may be specified in advance or may be specified by the user.
  • the timing at which the user specifies the weight Z1 and the weight Z2 may be before step S005 is performed. For example, it may be the timing of inputting the sentence 20, or it may be after step S002 is performed.
  • ⁇ Criteria for awarding points 4 If the node and the edge are the superordinate concept or the subordinate concept of the graph 21 according to the search condition, a score is given to the score of the reference document. For example, the values of the inter-word distances (distance w1, distance w2, distance w11, distance w12, distance w21, and distance w22) shown in FIG. 11 may be adjusted.
  • the score given to the score of the reference document based on the criterion 4 is expressed as a score 64.
  • the distance w11 and the distance w12 are set to infinity or a value very large compared to the value of the distance between other words (for example, the distance w1).
  • the score 64 given to the score of the reference document, which is a subordinate concept of the graph 21 can be set to a value close to zero. Therefore, the searchability of the reference document of the superordinate concept of the graph 21 can be improved.
  • the distance w2, or the distance w21 and the distance w22 may be infinite, or may be set to a very large value as compared with the value of the inter-word distance (for example, the distance w1). Thereby, the searchability of the reference document of the superordinate concept of the graph 21 can be further improved.
  • the distance w1 is set to infinity or a value very large compared to the value of the distance between other words (for example, the distance w11).
  • the score 64 given to the score of the reference document, which is a superordinate concept of the graph 21 can be set to a value close to zero. Therefore, the searchability of the reference document of the subordinate concept of the graph 21 can be improved.
  • the above is an example of the criteria for giving points to the score of the reference document and the points to be given to the score of the reference document based on the criteria.
  • the score given to the score of the reference document may be an appropriate combination of one or more of the above criteria 1 to 4. Further, the standard of the score given to the score of the reference document is not limited to the above, and the score of the reference document may be calculated by setting appropriate conditions.
  • Example of calculating the score of the reference document >>
  • an example of calculating the score of the reference document will be described with reference to FIGS. 12A, 12B, 13A, and 13B.
  • graph 21A having the configuration shown in FIG. 12A is used.
  • the number of reference documents to be searched is four (reference document 40a, reference document 40b, reference document 40c, and reference document 40d).
  • the reference document 40a to the reference document 40d are each composed of 10 sentences. That is, p of the reference document 40a to the reference document 40d is set to 10.
  • the reference document 40a is composed of sentences 41a_1 to 41a_10
  • the reference document 40b is composed of sentences 41b_1 to 41b_10
  • the reference document 40c is composed of sentences 41c_1 to 41c_10
  • the reference document 40d is composed of sentences 41c_1 to 41c_10. It is composed of sentences 41d_1 to 41d_1.
  • Graph 21A shown in FIG. 12A is another example of graph 21.
  • Graph 21A is composed of nodes 22_1 to 22_1 and edges 23_1 to 23_3.
  • the start point of the edge 23_1 is the node 22_1, and the end point of the edge 23_1 is the node 22_1.
  • the start point of the edge 23_2 is the node 22_2, and the end point of the edge 23_2 is the node 22_3.
  • the start point of the edge 23_3 is the node 22_1, and the end point of the edge 23_3 is the node 22_4.
  • the local graph 24_1, the local graph 24_2, and the local graph 24_3 shown in FIG. 12A are local graphs of graph 21A and are also subgraphs of graph 21A.
  • the local graph 24_1 is composed of a node 22_1, a node 22_1, and an edge 23_1.
  • the local graph 24_2 is composed of a node 22_2, a node 22_3, and an edge 23_2.
  • the local graph 24_3 is composed of a node 22_1, a node 22_4, and an edge 23_3.
  • the sentence that can form the local graph 24_1 is referred to as sentence 30_1. That is, the local graph 24_1 can be formed from the words extracted from the sentence 30_1. Further, the sentence that can form the local graph 24_2 is referred to as sentence 30_2. That is, the local graph 24_2 can be formed from the words extracted from the sentence 30_2. Further, the sentence that can form the local graph 24_3 is referred to as sentence 30_3. That is, the local graph 24_3 can be formed from the words extracted from the sentence 30_3.
  • the reference document 40a includes sentences 30_1 to 30_3.
  • sentence 41a_5 corresponds to sentence 30_1
  • sentence 41a_6 corresponds to sentence 30_2
  • sentence 41a_8 corresponds to sentence 30_3.
  • the reference document 40b includes sentence 30_1 and sentence 30_2, and does not include sentence 30_3.
  • the sentence 41b_5 corresponds to the sentence 30_1
  • the sentence 41b_6 corresponds to the sentence 30_2.
  • the reference document 40c includes sentence 30_1 and sentence 30_2, and does not include sentence 30_3.
  • the sentence 41c_2 corresponds to the sentence 30_1
  • the sentence 41c_6 corresponds to the sentence 30_2.
  • the reference document 40d includes the sentence 30_1 and does not include the sentence 30_2 and the sentence 30_3.
  • the sentence 41d_2 corresponds to the sentence 30_1.
  • values calculated based on each criterion inclusion rate, value (p-2-r) / (p-2), value r2, etc.
  • weights weight X1, weight Y1, and weight Z1
  • significance figures such as (the last digit of significant figures) may be adjusted as appropriate according to the number of reference documents to be evaluated. For example, the larger the number of reference documents to be evaluated, the larger the significant figure or the smaller the last digit of the significant figure. Here, the last digit of the significant figure is the second decimal place.
  • the weight X1 is 1.00.
  • the weight Y is 1.00.
  • a score 63 and a score 64 (score 64A or score 64B) to the respective scores of the reference document 40a to the reference document 40d based on the above-mentioned criteria 3 and 4 will be described with reference to FIG. 13B.
  • a method of calculating the score 63 and the score 64 to be given to the score of the reference document will be described from the sentence 30_1 of each of the reference document 40a to the reference document 40d.
  • the weight Z1 is 1.00.
  • the value r2 is calculated as 1 / (1 + W).
  • Word 22A_1 is a word that appears in sentence 20.
  • the word 22A_1 is the word A1 shown in FIG.
  • the word 32A_1 acquired from the reference document 40a is the word A1 shown in FIG.
  • the word 32A_1 obtained from the reference document 40b is the word A11 shown in FIG.
  • the word 32A_1 obtained from the reference document 40c is the word A0 shown in FIG.
  • the word 32A_1 obtained from the reference document 40d is the word A22 shown in FIG.
  • W in the reference document 40a is zero
  • W in the reference document 40b is w11
  • W in the reference document 40c is w1
  • W in the reference document 40d is w1 + w2 + w22.
  • the inter-word distances (distance w1, distance w2, distance w11, distance w12, distance w21, and distance w22) shown in FIG. 11 are all set to 1.00.
  • the score given to the reference document is a score of 63.
  • the value r2 in the reference document 40a is 1.00
  • the score 63 given to the score of the reference document 40a is the highest, the score 63 given to the scores of the reference document 40b and the reference document 40c is the next highest, and the score 63 is given to the score of the reference document 40d.
  • the score 63 is the lowest.
  • the distance w1, the distance w21, and the distance w22 are set to 1.00, and the distance w2, the distance w11, and the distance w12 are set to infinity.
  • the score given to the reference document is a score of 64A.
  • the value r2 in the reference document 40a is 1.00
  • the value r2 in the reference document 40b is substantially
  • the reference document 40d is substantially zero.
  • the score 64A given to the score of the reference document 40a is the highest, the score 64A given to the score of the reference document 40c is the next highest, and the score is given to the scores of the reference document 40b and the reference document 40d.
  • the score of 64A is the lowest.
  • the distance w2 the distance w11, the distance w12, the distance w21, and the distance w22 are set to 1.00, and the distance w1 is set to infinity.
  • the score given to the reference document is defined as the score 64B.
  • the value r2 in the reference document 40a is 1.00
  • the value r2 in the reference document 40c is substantially 0, and the reference document 40d
  • the value r2 in is substantially zero.
  • the score 64B given to the score of the reference document 40a is the highest, the score 64B given to the score of the reference document 40b is the next highest, and the score is given to the scores of the reference document 40c and the reference document 40d.
  • the score of 64B is the lowest.
  • the score of the reference document can be calculated.
  • the weight X1, the weight Y, and the weight Z1 are all described as being 1.00, but the present invention is not limited to this.
  • the value of the weight Z1 may be larger than the values of the weight X1 and the weight Y.
  • the value of the weight X1 and / or the weight Y may be larger than the value of the weight Z1.
  • step S005 By performing step S005, a score is given to the score of the reference document based on the similarity between the sentence 20 and the reference document. Therefore, the higher the score of the reference document, the higher the similarity between the reference document and the sentence 20. Therefore, a document similar to the sentence 20 can be searched.
  • Documents can be searched by the above method.
  • the method for searching a document is not limited to the above.
  • the method of searching a document may include steps S011 and S012 in addition to steps S001 to S005.
  • Step S011 is a step of narrowing down the reference documents, and is performed between steps S003 and S004.
  • a flowchart for narrowing down a plurality of reference documents (reference document 40_1 to reference document 40_q (q is an integer of 1 or more)) acquired in step S003 will be described with reference to FIG.
  • Step S011 may start from reference document 40_1.
  • the reference document 40_qq (qq is an integer of 1 or more and less than or equal to q) satisfies the condition C.
  • the condition C is satisfied when the reference document 40_qq includes all of the words 32A_1 to 32A_n described in step S004.
  • the reference document 40_qq When it is determined that the reference document 40_qq satisfies the condition C, the reference document 40_qq is extracted. Further, when it is determined that the reference document 40_qq does not satisfy the condition C, the reference document 40_qq is not extracted.
  • Condition C is not limited to the above.
  • the condition C may be satisfied when the reference document 40_qq includes a part of the words 32A_1 to 32A_n described in step S004. Thereby, a similar document can be searched based on a part of the word 32A_1 to the word 32A_n.
  • step S004 The step of determining whether the condition C is satisfied is carried out for all of the reference document 40_1 to the reference document 40_q. When the narrowing down to the reference document 40_q is completed, the process proceeds to step S004.
  • step S011 only the reference document similar to the sentence 20 can be extracted from the plurality of reference documents. As a result, the reference document to be compared with the sentence 20 can be narrowed down, and the time required to search the document can be shortened.
  • Step S012 is a step of outputting information by the output unit 104.
  • the information is information about the result calculated by the processing unit 106.
  • the information is the score of the reference document.
  • the information is the reference document with the highest score.
  • the information is ranking data ranked based on the score.
  • the above information is output to the output unit 104 as, for example, visual information such as character strings, numerical values, graphs, audio information, and the like. Further, the above information may be output to a memory or the like of the storage unit 107 and the processing unit 106.
  • the document search system of the present embodiment can easily search for a document by using the method of searching for a document shown in the first embodiment.
  • FIG. 16 shows a block diagram of the document retrieval system 200.
  • the components are classified by function and the block diagram is shown as blocks independent of each other.
  • a component may be involved in multiple functions.
  • one function may be related to a plurality of components.
  • the processing performed by the processing unit 202 may be executed by different servers depending on the processing.
  • the document retrieval system 200 has at least a processing unit 202.
  • the document retrieval system 200 shown in FIG. 16 further includes an input unit 201, a storage unit 203, a database 204, a display unit 205, and a transmission line 206.
  • a sentence is supplied to the input unit 201 from the outside of the document retrieval system 200.
  • the sentence is a search sentence and corresponds to the sentence 20 shown in the first embodiment.
  • a plurality of reference documents may be supplied to the input unit 201 from the outside of the document retrieval system 200.
  • the plurality of reference documents are documents to be compared with the above-mentioned sentences, and correspond to the plurality of reference documents shown in the first embodiment.
  • the plurality of reference documents and the above sentences supplied to the input unit 201 are supplied to the processing unit 202, the storage unit 203, or the database 204, respectively, via the transmission line 206.
  • the plurality of reference documents and the above sentences are input as, for example, text data, voice data, or image data.
  • the text included in each of the plurality of reference documents is preferably input as text data.
  • Examples of the input method of the above sentences include key input using a keyboard, touch panel, etc., voice input using a microphone, reading from a recording medium, image input using a scanner, a camera, etc., acquisition using communication, and the like. Can be mentioned.
  • the document retrieval system 200 may have a function of converting voice data into text data.
  • the processing unit 202 may have the function.
  • the document retrieval system 200 may further have a voice conversion unit having the function.
  • the document retrieval system 200 may have an optical character recognition (OCR) function. As a result, the characters included in the image data can be recognized and the text data can be created.
  • OCR optical character recognition
  • the processing unit 202 may have the function.
  • the document retrieval system 200 may further have a character recognition unit having the function.
  • the processing unit 202 has a function of performing processing using data supplied from the input unit 201, the storage unit 203, the database 204, and the like.
  • the processing unit 202 can supply the processing result to the storage unit 203, the database 204, the display unit 205, and the like.
  • the processing unit 202 includes the processing unit 106 shown in the first embodiment. That is, the processing unit 202 has a function of performing morphological analysis, a function of performing dependency analysis, a function of abstracting, and a function of creating a graph. Further, the processing unit 202 has a function of analyzing the reference document and a function of evaluating the reference document.
  • a transistor having a metal oxide in the channel forming region may be used for the processing unit 202. Since the transistor has an extremely small off-current, the data retention period can be secured for a long period of time by using the transistor as a switch for holding the electric charge (data) that has flowed into the capacitive element that functions as a storage element. ..
  • the processing unit 202 is operated only when necessary, and in other cases, the information of the immediately preceding processing is saved in the storage element. This makes it possible to turn off the processing unit 202. That is, normally off-computing becomes possible, and the power consumption of the document retrieval system can be reduced.
  • a transistor using an oxide semiconductor in the channel forming region is referred to as an Oxide Semiconductor transistor (OS transistor).
  • OS transistor Oxide Semiconductor transistor
  • the channel forming region of the OS transistor preferably has a metal oxide.
  • the metal oxide contained in the channel forming region preferably contains indium (In).
  • the metal oxide contained in the channel forming region is a metal oxide containing indium, the carrier mobility (electron mobility) of the OS transistor becomes high.
  • the metal oxide contained in the channel forming region preferably contains the element M.
  • the element M is preferably aluminum (Al), gallium (Ga), or tin (Sn).
  • Other elements applicable to element M include boron (B), tantalum (Ti), iron (Fe), nickel (Ni), germanium (Ge), yttrium (Y), zirconium (Zr), and molybdenum (Mo).
  • the element M a plurality of the above-mentioned elements may be combined in some cases.
  • the element M is, for example, an element having a high binding energy with oxygen.
  • it is an element whose binding energy with oxygen is higher than that of indium.
  • the metal oxide contained in the channel forming region preferably contains zinc (Zn). Metal oxides containing zinc may be more likely to crystallize.
  • the metal oxide contained in the channel forming region is not limited to the metal oxide containing indium.
  • the metal oxide contained in the channel forming region is, for example, a metal oxide containing zinc, a metal oxide containing zinc, a metal oxide containing gallium, a metal oxide containing tin, and the like, such as zinc tin oxide and gallium tin oxide. It doesn't matter if there is.
  • processing unit 202 may use a transistor containing silicon in the channel forming region.
  • processing unit 202 may use a transistor containing an oxide semiconductor in the channel forming region and a transistor containing silicon in the channel forming region in combination.
  • the processing unit 202 has, for example, an arithmetic circuit or a central arithmetic unit (CPU: Central Processing Unit) or the like.
  • the processing unit 202 may have a microprocessor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit).
  • the microprocessor may have a configuration realized by a PLD (Programmable Logic Device) such as FPGA (Field Programmable Gate Array) or FPAA (Field Programmable Analog Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • FPAA Field Programmable Analog Array
  • the processing unit 202 can perform various data processing and program control by interpreting and executing instructions from various programs by the processor.
  • the program that can be executed by the processor is stored in at least one of the memory area and the storage unit 203 of the processor.
  • the processing unit 202 may have a main memory.
  • the main memory has at least one of a volatile memory such as RAM and a non-volatile memory such as ROM.
  • the RAM for example, a DRAM (Dynamic Random Access Memory), a SRAM (Static Random Access Memory), or the like is used, and a memory space is virtually allocated and used as a work space of the processing unit 202.
  • the operating system, application program, program module, program data, lookup table, and the like stored in the storage unit 203 are loaded into the RAM for execution. These data, programs, and program modules loaded into the RAM are each directly accessed and operated by the processing unit 202.
  • the ROM can store BIOS (Basic Input / Output System), firmware, etc. that do not require rewriting.
  • BIOS Basic Input / Output System
  • Examples of the ROM include a mask ROM, an OTPROM (One Time Program Read Only Memory), an EPROM (Erasable Program Read Only Memory), and the like.
  • Examples of EPROM include UV-EPROM (Ultra-Violet Erasable Program Read Only Memory), EEPROM (Electrically Erasable Program Memory), etc., which enable erasure of stored data by irradiation with ultraviolet rays.
  • the storage unit 203 has a function of storing a program executed by the processing unit 202. Further, the storage unit 203 may have, for example, a function of storing the processing result generated by the processing unit 202 and the data input to the input unit 201. Specifically, it is preferable that the storage unit 203 has a function of storing the graph generated by the processing unit 202 (for example, the graph 21 shown in the first embodiment), the calculated score result, and the like.
  • the storage unit 203 has at least one of a volatile memory and a non-volatile memory.
  • the storage unit 203 may have, for example, a volatile memory such as a DRAM or SRAM.
  • the storage unit 203 may be, for example, ReRAM (Resistive Random Access Memory, also referred to as resistance change type memory), PRAM (Phase-change Random Access Memory), FeRAM (Ferroelectric Ramdem Magnetoresistive Memory) It may also have a non-volatile memory such as a flash memory) or a flash memory.
  • the storage unit 203 may have a recording media drive such as a hard disk drive (Hard Disk Drive: HDD) and a solid state drive (Solid State Drive: SSD).
  • the document retrieval system 200 may have a database 204.
  • the database 204 has a function of storing a plurality of reference documents.
  • a method of searching a document of one aspect of the present invention may be used for the plurality of reference documents stored in the database 204.
  • the concept dictionary may be stored in the database 204.
  • the storage unit 203 and the database 204 do not have to be separated from each other.
  • the document retrieval system 200 may have a storage unit having both functions of the storage unit 203 and the database 204.
  • the memories of the processing unit 202, the storage unit 203, and the database 204 can be said to be examples of non-temporary computer-readable storage media, respectively.
  • the display unit 205 has a function of displaying the processing result of the processing unit 202. Further, the display unit 205 has a function of displaying the reference document and the result of the score calculated for the reference document. Further, the display unit 205 may have a function of displaying a search sentence.
  • the document retrieval system 200 may have an output unit.
  • the output unit has a function of supplying data to the outside.
  • the transmission line 206 has a function of transmitting various data. Data can be transmitted / received between the input unit 201, the processing unit 202, the storage unit 203, the database 204, and the display unit 205 via the transmission line 206. For example, data such as a search sentence and a reference document to be compared with the sentence are transmitted and received via the transmission line 206.
  • FIG. 17 shows a block diagram of the document retrieval system 210.
  • the document retrieval system 210 includes a server 220 and a terminal 230 (such as a personal computer).
  • the server 220 has a processing unit 202, a transmission line 212, a storage unit 213, and a communication unit 217a. Although not shown in FIG. 17, the server 220 may further include an input / output unit and the like.
  • the terminal 230 has an input unit 201, a storage unit 203, a display unit 205, a transmission line 216, a communication unit 217b, and a processing unit 218. Although not shown in FIG. 17, the terminal 230 may further have a database or the like.
  • the user of the document retrieval system 210 inputs a sentence into the input unit 201 of the terminal 230.
  • the sentence is a search sentence and corresponds to the sentence 20 shown in the first embodiment.
  • the text is transmitted from the communication unit 217b of the terminal 230 to the communication unit 217a of the server 220.
  • the above sentence received by the communication unit 217a is stored in the storage unit 213 via the transmission line 212.
  • the above sentence may be directly supplied from the communication unit 217a to the processing unit 202.
  • the processing unit 202 included in the server 220 has a higher processing capacity than the processing unit 218 included in the terminal 230. Therefore, it is preferable that the graph is created and the reference document is analyzed and evaluated by the processing unit 202.
  • the processing unit 202 calculates the score.
  • the score is stored in the storage unit 213 via the transmission line 212.
  • the score may be directly supplied from the processing unit 202 to the communication unit 217a.
  • the score is transmitted from the communication unit 217a of the server 220 to the communication unit 217b of the terminal 230.
  • the score is displayed on the display unit 205 of the terminal 230.
  • Transmission line 212 and transmission line 216 have a function of transmitting data. Data can be transmitted and received between the processing unit 202, the storage unit 213, and the communication unit 217a via the transmission line 212. Data can be transmitted and received between the input unit 201, the storage unit 203, the display unit 205, the communication unit 217b, and the processing unit 218 via the transmission line 216.
  • the processing unit 202 has a function of performing processing using data supplied from the storage unit 213, the communication unit 217a, and the like.
  • the processing unit 218 has a function of performing processing using data supplied from the input unit 201, the storage unit 203, the display unit 205, the communication unit 217b, and the like.
  • the processing unit 202 and the processing unit 218 can refer to the description of the processing unit 202.
  • the processing unit 202 preferably has a higher processing capacity than the processing unit 218.
  • the storage unit 203 has a function of storing a program executed by the processing unit 218. Further, the storage unit 203 has a function of storing the calculation result generated by the processing unit 218, the data input to the communication unit 217b, the data input to the input unit 201, and the like.
  • the storage unit 213 has a function of storing a plurality of reference documents, processing results generated by the processing unit 202, data input to the communication unit 217a, and the like.
  • Communication unit 217a and communication unit 217b Data can be transmitted and received between the server 220 and the terminal 230 by using the communication unit 217a and the communication unit 217b.
  • a hub, a router, a modem, or the like can be used as the communication unit 217a and the communication unit 217b.
  • Wired or wireless for example, radio waves, infrared rays, etc. may be used for transmitting and receiving data.
  • the communication between the server 220 and the terminal 230 is the Internet, intranet, extranet, PAN (Personal Area Network), LAN (Local Area Network), CAN (Campus Area Network), which are the foundations of the World Wide Web (WWW). It may be performed by connecting to a computer network such as MAN (Metropolitan Area Network), WAN (Wide Area Network), and GAN (Global Area Network).
  • MAN Micropolitan Area Network
  • WAN Wide Area Network
  • GAN Global Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書の概念を考慮して、文書を検索する文書検索システムを提供する。 処理部を有し、検索用グラフが処理部にて検索用文章から作成される。検索用グラフは、第1乃至第m(mは1以上の整数)の検索用局所グラフを有し、検索用局所グラフは、2つのノードと1つのエッジから構成される。また、第1乃至第mの文の検索が処理部にて参照文書に対して行われる。第i(iは1以上m以下の整数)の文は、第iの検索用局所グラフにおける2つのノードの一方、または2つのノードの一方の関連語もしくは下位語と、第iの検索用局所グラフにおける2つのノードの他方、または2つのノードの他方の関連語もしくは下位語と、第iの検索用局所グラフにおけるエッジ、またはエッジの関連語もしくは下位語と、を有する。そして、第1乃至第mの文のうち、参照文書に含まれる文の数に基づいて、参照文書のスコアに点数が付与される。

Description

文書検索システム、文書を検索する方法
 本発明の一態様は、文書検索システムに関する。また、本発明の一態様は、文書を検索する方法に関する。
 文書を検索するための、様々な検索技術が提供されている。従来の文書の検索では、単語(文字列)の検索が主に用いられる。例えば、webページではページランクなどが利用され、特許分野ではシソーラスが利用されている。また、単語の集合を取ってJaccard係数、Dice係数、Simpson係数などを用いて、文章の類似度を表現する方法がある。また、tf−idf、Bag of Words(BoW)、Doc2Vecなどを用いて、文章をベクトル化し、コサイン類似度を比較するといった手法がある。また、ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離などを用いて、文章の文字列の類似度を評価して所望の文書を探す方法がある。また、特許文献1では、文を構成する構成単位をストリング構造に変換し、ストリング構造間の距離を算出することで、文が類似しているかを比較する言語処理装置が開示されている。
特開2005−258624号公報
 様々な分野の文書を検索するには、より精度の高い文書検索方法が求められる。例えば、特許書類(明細書、特許請求の範囲など)や契約書などの文書では、似通った単語が多用されることが多い。よって、文書に使われている単語のみならず、文書の概念(概括的な意味内容)を考慮した検索技術が重要となる。
 そこで、本発明の一態様は、文書の概念を考慮した、文書検索システムを提供することを課題の一とする。また、本発明の一態様は、文書の概念を考慮した、文書を検索する方法を提供することを課題の一とする。
 なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から、自ずと明らかとなるものであり、明細書、図面、請求項などの記載から、これら以外の課題を抽出することが可能である。
 本発明の一態様は、処理部を有する文書検索システムである。処理部は、文章からグラフを作成する機能を有し、検索用グラフは、検索用文章から作成され、検索用グラフは、第1乃至第m(mは1以上の整数)の検索用局所グラフを有し、第1乃至第mの検索用局所グラフは、それぞれ、2つのノードと、2つのノードの間のエッジから構成され、処理部は、さらに、参照文書から第1乃至第mの文の検索を行う機能を有し、第i(iは1以上m以下の整数)の文は、第(3i−2)の単語、第(3i−1)の単語、及び、第3iの単語を有し、第(3i−2)の単語は、第iの検索用局所グラフにおける2つのノードの一方、2つのノードの一方の関連語、または2つのノードの一方の下位語であり、第(3i−1)の単語は、第iの検索用局所グラフにおける2つのノードの他方、2つのノードの他方の関連語、または2つのノードの他方の下位語であり、第3iの単語は、第iの検索用局所グラフにおけるエッジ、エッジの関連語、またはエッジの下位語であり、処理部は、さらに、第1乃至第mの文のうち、参照文書に含まれる文の数に基づいて、参照文書のスコアに第1の点数を付与する機能を有する。
 上記文書検索システムにおいて、処理部は、参照文書が、第j(jは1以上m以下の整数)の文、および第k(kはjを除く、1以上m以下の整数)の文を含む場合、第jの文と、第kの文との距離に基づいて、参照文書のスコアに第2の点数を付与する機能と、参照文書のスコアに付与された点数に基づいて、参照文書のスコアを算出する機能と、を有することが好ましい。
 また、上記文書検索システムにおいて、処理部は、第jの文に含まれる第(3j−2)の単語と、第jの検索用局所グラフにおける2つのノードの一方の元となる単語と、の概念の近さに基づいて、参照文書のスコアに第3の点数を付与する機能を有することが好ましい。
 また、上記文書検索システムにおいて、処理部は、複数の参照文書から、第l(lは1以上m以下の整数)の文に含まれる第(3l−2)の単語および第(3l−1)の単語を含む参照文書を抽出する機能を有することが好ましい。
 また、上記文書検索システムにおいて、処理部が有する、文章からグラフを作成する機能は、文章を複数のトークンに分割する機能と、係り受け解析を行う機能と、係り受け解析の結果に応じて、トークンの一部を連結する機能と、係り受け解析の結果に応じて、トークン間の連結関係を評価する機能と、トークン間の連結関係から、グラフを構築する機能と、を有することが好ましい。
 また、上記文書検索システムにおいて、処理部が有する、文章からグラフを作成する機能は、さらに、代表語または上位語が存在するトークンを、代表語または上位語に置き換える機能を有することが好ましい。
 また、上記文書検索システムにおいて、処理部に加えて、入力部を有し、入力部は、検索用文章を処理部に供給する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、処理部、および入力部に加えて、出力部を有し、出力部は、参照文書のスコアを供給する機能を有する、ことが好ましい。
 本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。また、本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。
 なお、本発明の一態様の効果は、上記列挙した効果に限定されない。上記列挙した効果は、他の効果の存在を妨げるものではない。なお、他の効果は、以下の記載で述べる、本項目で言及していない効果である。本項目で言及していない効果は、当業者であれば、明細書、図面などの記載から導き出せるものであり、これらの記載から適宜抽出することができる。なお、本発明の一態様は、上記列挙した効果、及び/又は他の効果のうち、少なくとも一つの効果を有するものである。したがって本発明の一態様は、場合によっては、上記列挙した効果を有さない場合もある。
図1は、文書検索システムの一例を示す図である。
図2は、文書検索方法の一例を示すフローチャートである。
図3は、グラフを作成する工程の一例を示すフローチャートである。
図4A乃至図4Cは、各工程で得られる結果を示す図である。
図5A乃至図5Cは、各工程で得られる結果を示す図である。
図6A乃至図6Dは、各工程で得られる結果を示す図である。
図7A乃至図7Cは、各工程で得られる結果を示す図である。
図8は、グラフの一例を説明する図である。
図9は、参照文書の解析の一例を示すフローチャートである。
図10は、参照文書の解析の一例を示すフローチャートである。
図11は、単語の関連を説明する図である。
図12Aは、グラフの一例を説明する図である。図12Bは、各工程で得られる結果を示す図である。
図13A、図13Bは、各工程で得られる結果を示す図である。
図14は、文書検索方法の一例を示すフローチャートである。
図15は、参照文書の絞り込みの一例を示すフローチャートである。
図16は、文書検索システムのハードウェアの一例を示す図である。
図17は、文書検索システムのハードウェアの一例を示す図である。
 実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨およびその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。したがって、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
 なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
 また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。
 また、本明細書にて用いる「第1」、「第2」、「第3」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではないことを付記する。
 本明細書等において、「文章」とは、1以上の「文」から構成されたものを指す。よって、「文章」には、「文」も含まれる。また、「文書」とは、文字によって表されたひとまとまりの記録を指す場合がある。なお、本明細書等では、「文書」と記載した場合には、文書に含まれる文章の一部または全てを指す場合がある。つまり、「文書」という用語を、文章と言い換えることができる。また、文書に含まれる文章の一部または全てを、単に「文章」と記載する場合がある。
 また、本明細書等では、「文章」または「文書」と記載した場合には、サーバやパーソナルコンピュータなどの情報処理装置において処理および伝達が可能な、文字情報または文字コードの集まりを指す場合がある。なお、当該集まりを、テキストデータと呼ぶ場合がある。
(実施の形態1)
 本実施の形態では、本発明の一態様の、文書検索システム、および文書を検索する方法について、図1乃至図15を用いて説明する。
<文書検索システム>
 図1は、文書検索システム100の構成を示す図である。
 文書検索システム100は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けることができる。または、サーバに文書検索システム100の処理部を設け、クライアントPCからネットワークを介して利用することができる。
 文書検索システム100は、少なくとも、処理部106を有する。図1に示す文書検索システム100は、処理部106、入力部101、記憶部107、および出力部104を有する。また、文書検索システム100は、概念辞書112とネットワークを介して接続される。
 処理部106は、文章からグラフを作成する機能を有する。当該文章は、ユーザが検索用に指定する文章(検索用文章、クエリ文章などともいう)、および検索対象となる文書(参照文書ともいう)に含まれる文章である。なお、ユーザが検索用に指定する文章から作成されるグラフは、検索用グラフ、クエリグラフなどともいう。
 グラフは、ノードの集合(ノード群ともいう)と、ノード間の連結関係を表すエッジの集合(エッジ群ともいう)と、により構成される。当該ノード群は、2つ以上のノードを有する。また、当該エッジ群は1つ以上のエッジを有する。なお、エッジを1つ有する場合でも、エッジ群と表記する場合がある。
 グラフは、有向グラフであることが好ましい。有向グラフとは、ノード群と、向きを持つエッジ群と、により構成されたグラフである。また、グラフは、ノードおよびエッジにラベルが付与された有向グラフであることがより好ましい。ラベルが付与された有向グラフを用いることで、検索の精度を向上させることができる。また、グラフが有するノードおよび/またはエッジに、重みを設定してもよい。ノードおよび/またはエッジに重みを設定することで、ユーザが所望する文書を検索することができる。なお、グラフは、無向グラフであってもよい。
 処理部106は、例えば、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフを構築する機能を有することが好ましい。また、処理部106は、概念辞書112を参照する機能を有する。概念辞書112を参照し、処理部106にて、文章からグラフが作成される。
 形態素解析を行う機能および/または係り受け解析を行う機能は、文書検索システム100とは異なる装置に備えられてもよい。このとき、文書検索システム100は、上記文章を当該装置に送信し、当該装置で行われた形態素解析および/または係り受け解析の結果を受信し、受信したデータを処理部106に送信するとよい。
 処理部106は、参照文書を解析する機能を有する。また、処理部106は、参照文書を評価する機能を有する。例えば、処理部106は、参照文書のスコアに点数を付与する機能を有することが好ましい。また、処理部106は参照文書を抽出する機能を有する。
 入力部101を用いて、文章が入力される。入力部101は、当該文章を処理部106に供給する機能を有する。当該文章は、ユーザが検索用に指定する文章である。当該文章は、テキストデータである。なお、当該文章は、音声データ、または画像データでもよい。入力部101として、キーボード、マウス、タッチセンサ、マイク、スキャナ、カメラなどの入力デバイスがある。
 文書検索システム100は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部106が当該機能を有していてもよい。または、文書検索システム100が、さらに、当該機能を有する音声テキスト変換部を有していてもよい。
 文書検索システム100は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部106が当該機能を有していてもよい。または、文書検索システム100が、さらに、当該機能を有する文字認識部を有していてもよい。
 記憶部107は、複数の参照文書を格納する。なお、当該複数の参照文書は、入力部101、記憶媒体、通信などを介して、記憶部107に格納されてもよい。
 記憶部107に格納されている複数の参照文書は、テキストデータであることが好ましい。異なる例として、記憶部107に格納されている複数の参照文書が、音声データまたは画像データである場合、音声データまたは画像データに含まれる文字情報をテキストデータに変換することで、データサイズを小さくすることができる。したがって、記憶部107には、テキストデータを保存することで、記憶部107の記憶容量の増大を低減することができる。
 なお、記憶部107には、入力部101を用いて入力された文章が格納されてもよい。また、処理部106にて当該文章から作成されるグラフが、テキストデータ、画像データなどとして格納されてもよい。
 出力部104は、情報を出力する機能を有する。当該情報とは、処理部106が参照文書を評価した結果である。例えば、当該情報は、参照文書のスコアである。または、当該情報は、スコアが最も高い参照文書である。または、当該情報は、スコアに基づいて順位づけられたランキングデータである。
 上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして出力部104に出力される。出力部104として、ディスプレイ、スピーカーなどの出力デバイスがある。
 文書検索システム100は、テキストデータを音声データに変換する機能を有していてもよい。例えば、文書検索システム100が、さらに、当該機能を有するテキスト音声変換部を有していてもよい。
 概念辞書112は、単語の分類、他の単語との関係などが付与されたリストである。概念辞書112は、既存の概念辞書であってもよい。または、検索用文章もしくは参照文書の分野に特化した概念辞書を作成してもよい。または、汎用的な概念辞書に、検索用文章もしくは参照文書の分野に用いられやすい単語を追加してもよい。
 なお、図1では、概念辞書112が、文書検索システム100とは異なる装置に設けられている構成を示しているが、これに限られない。概念辞書112は、文書検索システム100に備えられてもよい。
 以上が、文書検索システム100の構成についての説明である。本発明の一態様である文書検索システムを用いることで、文章の概念を考慮して、当該文章に類似した文書を、複数の参照文書の中から検索することができる。また、当該文章に類似した文書の一覧を、複数の参照文書から作成することができる。例えば、文章に類似した文書とは、使用される単語が異なっていても、当該文書が有する(大まかな)意味が同じであると判断される文書のことである。また、言語の異なる2つの文章において、文章の概念が同じである場合、当該2つの文章のそれぞれから作成されるグラフは同じになる。よって、本発明の一態様である文書検索システムを用いることで、異なる言語間での文書の検索を容易にすることができる。
 本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。
<文書を検索する方法>
 図2は、文書検索システム100が実行する処理の流れを説明するフローチャートである。つまり、図2は、本発明の一態様である文書を検索する方法の一例を示すフローチャートでもある。
 本発明の一態様の、文書を検索する方法について説明する。当該方法では、文章から作成したグラフを基に、参照文書の解析および評価を行う。文書を検索する方法について、図2を用いて説明する。
 文書を検索する方法は、図2に示すように、ステップS001乃至ステップS005を有する。
[ステップS001]
 ステップS001は、文章20を取得する工程である。文章20は、入力部101から処理部106に供給された文章である。文章20は、ユーザが検索用に指定する文章である。なお、文章20のデータが、テキストデータ以外のデータ(音声データまたは画像データ)である場合、ステップS002へ進む前に、音声データまたは画像データをテキストデータに変換する。音声データからテキストデータへの変換は、処理部106が有する音声データをテキストデータに変換する機能、または音声テキスト変換部を用いて行うとよい。画像データからテキストデータへの変換は、処理部106が有する光学文字認識(OCR)機能、または文字認識部を用いて行うとよい。
 文章20が特許請求の範囲である場合、ステップS002へ進む前に、文章20に対して、クリーニング処理を行ってもよい。当該クリーニング処理では、文章内に含まれるノイズを除去する。例えば、当該クリーニング処理とは、セミコロンを削除する、コロンをカンマに置き換える、などである。文章に対してクリーニング処理を行うことで、形態素解析の精度を高めることができる。また、文章20が請求項である場合も、ステップS002へ進む前に、文章20に対して、クリーニング処理を行ってもよい。
 なお、上記クリーニング処理は、文章20が特許請求の範囲または請求項以外の場合であっても、必要に応じて適宜行うとよい。また、文章20は、上記クリーニング処理が行われた後に、記憶部107に格納されてもよい。
[ステップS002]
 ステップS002は、文章20からグラフ21を作成する工程である。図3は、文章からグラフを作成する工程の一例を示すフローチャートである。ステップS002は、図3に示すステップS021乃至ステップS024を有する。ステップS002を説明するために、ステップS021乃至ステップS024を用いて説明する。
 ステップS021は、処理部106にて、文章に対して形態素解析を行う工程である。これにより、当該文章は、形態素(単語)に分割される。本明細書では、分割された形態素(単語)を、トークンと呼ぶ場合がある。
 ステップS021では、上記トークンのそれぞれに対して、トークンの品詞を判別し、品詞ラベルを関連付けしておくことが好ましい。トークンに品詞ラベルを関連付けしておくことで、係り受け解析の精度の向上を図ることができる。なお、本明細書等では、トークンと品詞ラベルを関連付けすることを、トークンに品詞を付与すると言い換えることができる。
 処理部106が、形態素解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた形態素解析プログラム(形態素解析器ともいう。)を用いて、文章に対して形態素解析を行ってもよい。このとき、ステップS021は、文章を当該装置に送信し、当該装置にて形態素解析を行い、形態素解析の結果を受信する工程となる。
 ステップS022は、処理部106にて、係り受け解析を行う工程である。つまり、トークンのそれぞれの係り受けに応じて、複数のトークンの一部を結合する工程である。例えば、トークンが特定の条件を満たす場合、条件を満たすトークン同士を結合して、新たなトークンを生成する。これにより、トークンの数が減り、以降の工程での処理数を減らすことができる。よって、中央演算装置およびメモリへの負荷低減、検索時間の短縮などを図ることができる。また、文書検索システム100を、ユーザが利用するパーソナルコンピュータなどの情報処理装置、または小規模のサーバに設けることができる。
 日本語が使用されている文章において、具体的には、第1のトークンが名詞であり、且つ、第1のトークンの直前に位置するトークンが形容詞である場合、第1のトークンの直前に位置するトークンと、第1のトークンとを結合して、新たなトークンを生成する。また、第1のトークンが名詞であり、且つ、第1のトークンの直後に位置するトークンが名詞である場合、第1のトークンと、第1のトークンの直後に位置するトークンとを結合して、新たなトークンを生成する。
 なお、上記の条件は、文章に使用される言語に合わせて、適宜設定するとよい。
 上記係り受け解析には、複合語解析が含まれることが好ましい。当該係り受け解析を行うことで、複数のトークンの一部を結合し、新たなトークンとして、複合語を生成することができる。これにより、概念辞書112に登録されていない複合語が文章に含まれていても、当該文章のトークンへの分割を高い精度で行うことができる。なお、生成された複合語を、概念辞書112に追加してもよい。これにより、当該文章のトークンへの分割の効率を向上させることができる。
 また、ステップS022は、上述した複数のトークンの一部を結合する工程に加えて、トークン間の連結関係を評価する工程を含む。なお、トークン間の連結関係を評価する工程は、上述した複数のトークンの一部を結合する工程の後に実施されるとよい。
 トークン間の連結関係を評価する工程は、例えば、文中に主語、目的語、および述語が含まれるかを探索する。
 例えば、文章に日本語が使用されている場合、文は、主語、目的語、述語(動詞、形容詞、形容動詞、名詞と助詞の組み合わせ、など)の順に記述される。そこで、主語であるトークン、目的語であるトークン、述語であるトークンを順に探索する。これらのトークンが当該文に含まれる場合、主語であるトークン、および目的語であるトークンをノードとし、述語であるトークンをエッジとして抽出するとよい。
 例えば、文章に英語が使用されている場合、文は、主語、述語(動詞)、目的語の順に記述される。そこで、主語であるトークン、述語(動詞)であるトークン、目的語であるトークンを順に探索する。これらのトークンが当該文に含まれる場合、主語であるトークン、および目的語であるトークンをノードとし、述語(動詞)であるトークンをエッジとして抽出するとよい。
 上述したように、文章に使用されている言語によって、主語、目的語、および述語の記載される順序が異なるため、言語によって適宜調整するとよい。
 また、例えば、第1のトークンと、第2のトークンとの間に含まれる、前置詞であるトークンを探索してもよい。前置詞であるトークンが当該文に含まれる場合、第1のトークン、および第2のトークンをノードとし、前置詞であるトークンをエッジとして抽出するとよい。
 また、例えば、限定詞であるトークンも探索するとよい。限定詞は、名詞の前に置かれ、当該名詞が示すものを明確にする。よって、限定詞であるトークンを探索することで、当該限定詞の直後にある名詞と、当該限定詞の前までに記述される名詞との関係を結び付けることができる。これにより、これらの名詞が同一のノードであるかを判断することができる。
 なお、言語によっては、存在しない品詞がある。よって、上記の条件は、文章に使用されている言語によって適宜設定するとよい。
 なお、処理部106が、係り受け解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた係り受け解析プログラム(係り受け解析器ともいう。)を用いて、係り受け解析を行ってもよい。このとき、ステップS022は、トークンを当該装置に送信し、当該装置にて係り受け解析を行い、係り受け解析の結果を受信する工程となる。
 ステップS023は、処理部106にて、トークンを抽象化する工程である。当該トークンは、ステップS022で抽出された、ノードおよびエッジとなるトークンである。例えば、トークンに含まれる単語を解析して、代表語を取得する。また、当該代表語に上位語があれば、当該上位語を取得する。そして、当該トークンを、取得された当該代表語または当該上位語に置き換える。ここで、代表語とは、同義語群のグループの見出し語(レンマともいう。)である。また、上位語とは、代表語の上位概念に該当する代表語である。つまり、トークンの抽象化とは、トークンを代表語または上位語に置き換えることを指す。なお、トークンが代表語または上位語である場合、当該トークンは置き換えなくてもよい。
 置き換える上位語の階層の上限は、1階層以上2階層以下であることが好ましく、1階層であることがより好ましい。なお、置き換える上位語の階層の上限は、指定できるようにしてもよい。これにより、トークンが過剰に上位概念化されるのを抑制し、文章の概念から逸れるのを抑制することができる。また、トークンを抽象化する工程における処理数を減らすことができる。よって、中央演算装置およびメモリへの負荷低減、検索時間の短縮などを図ることができる。また、文書検索システム100を、ユーザが利用するパーソナルコンピュータなどの情報処理装置、または小規模のサーバに設けることができる。
 トークンの適切な抽象度合いは、分野によって異なる。そこで、分野に応じた機械学習によって、トークンの抽象化を行うことが好ましい。トークンの抽象化は、例えば、当該トークンをベクトル化、または、当該トークンを再び分割して得られるトークンの1つをベクトル化して、分類器によって分類することで実施される。なお、当該分類器として、決定木、サポートベクターマシン、ランダムフォレスト、多層パーセプトロンなどのアルゴリズムを用いてもよい。具体的には、「酸化物半導体」、「アモルファス半導体」、「シリコン半導体」、および「GaAs半導体」を「半導体」に分類するとよい。また、「酸化物半導体層」、および「酸化物半導体膜」、「アモルファス半導体層」、「アモルファス半導体膜」、「シリコン半導体層」、「シリコン半導体膜」、「GaAs半導体層」および「GaAs半導体膜」も「半導体」に分類するとよい。
 また、分類器を用いて、トークンを再び分割して得られる複数のトークンを基に、当該トークンを分類させてもよい。例えば、「酸化物半導体層」というトークンを抽象化する場合、当該トークンを形態素に再び分割して得られるトークン(「酸化」、「物」、「半導体」、および「層」)を分類器に入力する。分類器に入力した結果、「半導体」に分類される場合、当該トークンを「半導体」に置き換える。これにより、当該トークンを抽象化することができる。
 上記機械学習アルゴリズムのほかに、条件付き確率場(Conditional random field:CRF)を用いてもよい。または、CRFと上記の方法とを組み合わせてもよい。
 トークンを抽象化することで、文章の概念を把握することができる。したがって、文章を検索する際、文章の構成および表現の影響を受けにくい。つまり、文章の概念を基に検索を行うことができる。
 代表語および上位語の取得は、概念辞書を利用してもよいし、機械学習による分類を行ってもよい。当該概念辞書として、文書検索システム100とは異なる装置に設けられている概念辞書112を用いてもよいし、文書検索システム100に備えられた概念辞書を用いてもよい。
 ステップS024は、処理部106にて、グラフを構築する工程である。つまり、ステップS023までに用意されたトークンを用いて、グラフを構築する工程である。例えば、文章中に、名詞句である第1のトークンおよび第2のトークンと、第1のトークンおよび第2のトークンの連結関係を表す第3のトークンと、がある場合、第1のトークンと第2のトークンのそれぞれを、ノードおよび当該ノードのラベルとし、第3のトークンを、エッジおよび当該エッジのラベルとするグラフを構築する。つまり、ノードのラベルおよびエッジのラベルは、ステップS023までに用意されたトークンから構成される。以降では、単にノードと記載した場合には、ノードのラベルを指す場合がある。また、単にエッジと記載した場合には、エッジのラベルを指す場合がある。
 例えば、文章20が特許請求の範囲または請求項である場合、グラフのノードは構成要素であり、グラフのエッジは構成要素間の関係である。また、文章20が契約文書などである場合、グラフのノードは甲および乙であり、グラフのエッジは契約の内容および条件である。
 グラフは、トークン同士の係り受けの関係から、ルールに基づいて構築してもよい。また、CRFを用いて、トークンのリストを基に、ノードおよびエッジにラベルを付与する機械学習を行ってもよい。これにより、トークンのリストを元に、ノードおよびエッジにラベルを付与することができる。また、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)、長期短期記憶(Long short−term memory:LSTM)などを用いて、トークンのリストを入力して、ノードとエッジの向きを出力させるSeq2Seqモデルの学習を行ってもよい。これにより、トークンのリストから、ノードとエッジの向きを出力することができる。
 処理部106は、エッジの向きを反転させ、かつ、当該エッジのラベルを当該エッジのラベルの対義語に置き換える機能を有してもよい。例えば、グラフが、第1のエッジと、第1のエッジのラベルと対義語の関係にあるラベルが付与された第2のエッジと、を有するとする。このとき、当該機能を用いて、第2のエッジの向きを反転させ、かつ、第2のエッジのラベルを第2のエッジのラベルの対義語(つまり、第1のエッジのラベル)に置き換える。これにより、当該グラフが再構築される。再構築されたグラフを用いることで、実質的に同じ構造を網羅することができる。したがって、文章を検索する際、文章の構成および表現の影響を受けにくい。つまり、文章の概念を基に検索を行うことができる。
 なお、上記処理は、文章中の出現頻度が低い方のエッジに対して行うとよい。つまり、第2のエッジの出現頻度が、第1のエッジの出現頻度よりも低いまたは同じである場合、第2のエッジの向きを反転させ、かつ、第2のエッジのラベルを第2のエッジのラベルの対義語(つまり、第1のエッジのラベル)に置き換える処理を行うとよい。これにより、上記処理を行う頻度を減らし、文書の検索に要する時間を短縮することができる。
 ステップS023およびステップS024の順序は入れ替えてもよい。ステップS023およびステップS024の順序を入れ替える場合、グラフが構築された後、当該グラフに含まれるノードおよびエッジが抽象化される。よって、ステップS023およびステップS024の順序を入れ替えても、文章から、抽象化されたグラフを作成することができる。
 ステップS021乃至ステップS024により、文章20からグラフ21を作成することができる。
 なお、ステップS002を行った後にグラフ21を出力してもよい。または、ステップS002を行った後にグラフ21を構成するノードおよびエッジを出力し、ステップS004またはステップS005を行う前に、当該ノードおよび/または当該エッジのそれぞれに重みを設定するステップを設けてもよい。
<<文章からグラフを作成するまでの実例>>
 ここでは、文章からグラフを作成するまでの実例について、図4A乃至図4C、図5A乃至図5C、図6A乃至図6D、図7A乃至図7Cを用いて説明する。
 はじめに、「酸化物半導体層は絶縁体層の上方にある(SANKABUTSUHANDOUTAISOU HA ZETSUENTAISOU NO JOUHOU NI ARU)」(図4A参照。)という、日本語が使用された文章を例に挙げて説明する。なお、図4B、図4C、および図5Aに示す角丸四角形はトークンであり、角丸四角形の下方には当該トークンに付与された品詞を記載している。
 まず、上記文章に対して形態素解析を行うことで、上記文章をトークンに分割する。なお、各トークンに品詞を付与してもよい(図3に示すステップS021)。その結果、図4Bに示すような結果が得られる。具体的には、上記文章は、「“酸化(SANKA)”(名詞)|“物(BUTSU)”(名詞)|“半導体(HANDOUTAI)”(名詞)|“層(SOU)”(名詞)|“は(HA)”(助詞)|“絶縁(ZETSUEN)”(名詞)|“体(TAI)”(名詞)|“層(SOU)”(名詞)|“の(NO)”(助詞)|“上方(JOUHOU)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」のように、トークンに分割され、トークンのそれぞれに品詞が付与される。
 次に、係り受け解析を行う(図3に示すステップS022)。具体的には、“酸化(SANKA)”および“物(BUTSU)”、“物(BUTSU)”および“半導体(HANDOUTAI)”、ならびに、“半導体(HANDOUTAI)”および“層(SOU)”は、ステップS022で説明した条件を満たす。したがって、4つのトークン(“酸化(SANKA)”、“物(BUTSU)”、“半導体(HANDOUTAI)”、“層(SOU)”)は結合され、1つのトークン(“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”)に置き換えることができる。また、“絶縁(ZETSUEN)”および“体(TAI)”、ならびに、“体(TAI)”および“層(SOU)”は、ステップS022で説明した条件を満たす。したがって、3つのトークン(“絶縁(ZETSUEN)”、“体(TAI)”、“層(SOU)”)は結合され、1つのトークン(“絶縁体層(ZETSUENTAISOU)”)に置き換えることができる。これにより、上記文章は、「“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”(名詞)|“は(HA)”(助詞)|“絶縁体層(ZETSUENTAISOU)”(名詞)|“の(NO)”(助詞)|“上方(JOUHOU)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」となる(図4C参照)。
 次に、トークンの抽象化を行う(図3に示すステップS023)。具体的には、“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”は、“半導体(HANDOUTAI)”という上位語に置き換えられる。また、“絶縁体層(ZETSUENTAISOU)”は、“絶縁体(ZETSUENTAI)”という上位語に置き換えられる。また、“上方(JOUHOU)”は、“上(UE)”という代表語に置き換えられる。これにより、上記文章は、「“半導体(HANDOUTAI)”(名詞)|“は(HA)”(助詞)|“絶縁体(ZETSUENTAI)”(名詞)|“の(NO)”(助詞)|“上(UE)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」と抽象化される(図5A参照)。
 次に、グラフを構築する(図3に示すステップS024)。具体的には、“半導体(HANDOUTAI)”、および“絶縁体(ZETSUENTAI)”のそれぞれは、グラフのノードおよび当該ノードのラベルとなり、“上(UE)”は、グラフのエッジおよび当該エッジのラベルとなる。その結果、上記文章から、図5Bに示すグラフが得られる。
 ここで、“上(UE)”の対義語は“下(SHITA)”である。そこで、図5Bに示すグラフのエッジの向き(矢印の向き)を反転させ、かつ、図5Bに示すグラフのエッジおよび当該エッジのラベルである“上(UE)”を“下(SHITA)”に置き換えることで、図5Cに示すグラフを再構築してもよい。これにより、実質的に同じ構造を網羅することができる。
 図5Bに示すエッジの向き(矢印の向き)は、文章内で先に出現するノード(上記文章の場合、“半導体(HANDOUTAI)”)から、後に出現するノード(上記文章の場合、“絶縁体(ZETSUENTAI)”)に向かうように図示されている。つまり、エッジの始点(矢印の始点)を、先に出現するノードとし、エッジの終点(矢印の終点)を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、エッジの向き(矢印の向き)を決定してもよい。具体的には、エッジの始点(矢印の始点)を、ラベルが“絶縁体(ZETSUENTAI)”であるノードとし、エッジの終点(矢印の終点)を、ラベルが“半導体(HANDOUTAI)”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“上(UE)”とするグラフを作成してもよい。これにより、グラフを直感的に理解することができる。ただし、エッジの向き(矢印の向き)の決定方法は、文書を検索する方法において、統一する必要がある。
 以上より、上記文章から、抽象化されたグラフを作成することができる。
 次に、「A semiconductor device comprising:an oxide semiconductor layer over an insulator layer.」(図6A参照。)という、英語が使用された文章を例に挙げて説明する。なお、図6C、図6D、および図7Aに示す角丸四角形はトークンである。なお、ここでは、トークンに品詞を付与していない例を示すが、トークンに品詞を付与してもよい。
 まず、上記文章に対して、クリーニング処理を行う。ここでは、セミコロンを削除する。その結果、図6Bに示すような結果が得られる。
 次に、上記文章に対して形態素解析を行うことで、上記文章をトークンに分割する(図3に示すステップS021)。その結果、上記文章は、「A|semiconductor|device|comprising|an|oxide|semiconductor|layer|over|an|insulator|layer」となる(図6C参照)。
 次に、係り受け解析を行う(図3に示すステップS022)。具体的には、3つのトークン(“A”、“semiconductor”、“device”)は結合され、1つのトークン(“A semiconductor device”)に置き換えることができる。また、4つのトークン(“an”、“oxide”、“semiconductor”、“layer”)は結合され、1つのトークン(“an oxide semiconductor layer”)に置き換えることができる。また、3つのトークン(“an”、“insulator”、“layer”)は結合され、1つのトークン(“an insulator layer”)に置き換えることができる。これにより、上記文章は、「A semiconductor device|comprising|an oxide semiconductor layer|over|an insulator layer」となる(図6D参照)。
 次に、トークンの抽象化を行う(図3に示すステップS023)。具体的には、“A semiconductor device”は、“device”という上位語に置き換えられる。また、“an oxide semiconductor layer”は、“a semiconductor”という上位語に置き換えられる。また、“an insulator layer”は、“an insulator”という上位語に置き換えられる。これにより、上記文章は、「device|comprising|a semiconductor|over|an insulator」と抽象化される(図7A参照)。
 次に、グラフを構築する(図3に示すステップS024)。具体的には、“deveice”、“semiconductor”、および“insulator”のそれぞれは、グラフのノードおよび当該ノードのラベルとなり、“comprising”、および“over”のそれぞれは、グラフのエッジおよび当該エッジのラベルとなる。その結果、上記文章から、図7Bに示すグラフが得られる。
 ここで、“over”の対義語は“under”である。そこで、図7Bに示すグラフのエッジの向き(矢印)を反転させ、かつ、図7Bに示すグラフのエッジおよび当該エッジのラベルである“over”を“under”に置き換えることで、図7Cに示すグラフを再構築してもよい。これにより、実質的に同じ構造を網羅することができる。
 図7Bに示すエッジの向き(矢印の向き)は、文章中に先に出現するノード(上記文章の場合、“semiconductor”)から、後に出現するノード(上記文章の場合、“insulator”)に向かうように図示されている。つまり、エッジの始点(矢印の始点)を、先に出現するノードとし、エッジの終点(矢印の終点)を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、エッジの向き(矢印の向き)を決定してもよい。具体的には、エッジの始点(矢印の始点)を、ラベルが“insulator”であるノードとし、エッジの終点(矢印の終点)を、ラベルが“semiconductor”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“over”とするグラフを作成してもよい。これにより、グラフを直感的に理解することができる。ただし、エッジの向き(矢印の向き)の決定方法は、文書を検索する方法において、統一する必要がある。
 以上より、上記文章から、抽象化されたグラフを作成することができる。
 ここまで、文章からグラフを作成するまでの工程を、日本語が使用された文章、および英語が使用された文章を例に挙げて説明したが、文章の言語は、日本語および英語に限られない。中国語、韓国語、ドイツ語、フランス語、ロシア語、ヒンディー語などの言語が使用された文章においても、同様の工程を経ることで、文章からグラフを作成することができる。
[ステップS003]
 ステップS003は、1または複数の参照文書を取得する工程である。1または複数の参照文書は、検索対象となる文書であり、記憶部107に格納されている。
 参照文書が特許請求の範囲または請求項である場合、ステップS004へ進む前に、参照文書に含まれる文章に対して、上述したクリーニング処理を行ってもよい。当該クリーニング処理を行うことで、形態素解析の精度を高めることができる。なお、当該クリーニング処理は、参照文書が特許請求の範囲または請求項以外の場合であっても、必要に応じて適宜行うとよい。
 ここで、以降の説明を容易にするため、グラフ21の一例を図8に示す。
 図8に示すグラフ21は、有向グラフである。グラフ21は、ノード群(ノード22_1乃至ノード22_n(nは2以上の整数))、およびエッジ群(エッジ23_1乃至エッジ23_m(mは1以上、nより小さい整数))から構成される。なお、ノード22_1乃至ノード22_nのそれぞれは、入次数と出次数との和が1以上であることが好ましい。
 エッジ23_1の始点はノード22_1であり、エッジ23_1の終点はノード22_2である。また、エッジ23_2の始点はノード22_2であり、エッジ23_2の終点はノード22_3である。また、エッジ23_mの始点はノード22_n−1であり、エッジ23_mの終点はノード22_nである。また、エッジ23_3乃至エッジ23_m−1のそれぞれは、上記ノード群の1つと、上記ノード群の他の1つと、のエッジである。
 なお、図8では、ノード22_1とノード22_n−1との間に、1つ以上のノードを介した道(path)が存在することを図示している。別言すると、図8では、ノード22_1とノード22_n−1との間に存在する、1つ以上のノードおよび関連するエッジを省略している。
 なお、グラフ21は、集合を用いて表現してもよい。例えば、グラフ21(G)は、頂点集合Vおよび辺集合Eから構成されるとする。このとき、頂点集合V、および辺集合Eは、それぞれ以下で表される(数1を参照)。
Figure JPOXMLDOC01-appb-M000001
 なお、頂点集合Vの要素数はn個であり、辺集合Eの要素数はm個である。
 上記では、グラフ21(G)を、集合(頂点集合V、および辺集合E)を用いて表現したが、これに限られない。グラフ21は、行列を用いて表現してもよい。当該行列として、例えば、隣接行列、接続行列、次数行列などが挙げられる。なお、グラフ21の隣接行列は、n×n行列で表される。また、グラフ21の接続行列は、n×m行列で表される。
 本明細書等では、エッジ23_1乃至エッジ23_mのいずれか一のエッジと、当該エッジの始点となるノードと、当該エッジの終点となるノードと、から構成されるグラフを、グラフ21の局所グラフと呼ぶ場合がある。グラフ21の局所グラフはエッジの数だけ作成される。つまり、グラフ21の局所グラフは、m個存在する。以降では、m個の、グラフ21の局所グラフを、グラフ21の局所グラフ群と表記する場合がある。または、局所グラフ24_1乃至局所グラフ24_mと表記する場合がある。また、グラフ21の局所グラフを、検索用局所グラフ、クエリ局所グラフなどと表記する場合がある。
[ステップS004]
 ステップS004は、処理部106にて、参照文書を解析する工程である。以下では、参照文書を解析する工程の一例を示すフローチャートを、図9を用いて説明する。なお、参照文書は、文41_1乃至文41_p(pは1以上の整数)で構成されるとする。
 参照文書を解析する工程は、図9に示すステップS031乃至ステップS034を有する。なお、参照文書の解析は、文41_1から開始するとよい。
[ステップS031]
 ステップS031は、文41_pp(ppは1以上p以下の整数)が、条件Aを満たすかの判断を行う工程である。ここで、条件Aを満たすとは、文41_ppが、単語32A_1乃至単語32A_nのうちの2つを含む場合である。ここで、単語32A_i(iは1以上n以下の整数)とは、グラフ21を構成するノード22_i、ノード22_iの関連語、またはノード22_iの下位語を指す。つまり、単語32A_iが、ノード22_iの関連語、またはノード22_iの下位語である場合、抽象化された単語32A_iは、ノード22_iと一致する。
 関連語として、同義語、類義語、対義語、代表語、上位語、下位語などが挙げられる。なお、本明細書では、関連語は、同義語、類義語、対義語、代表語などとする。また、下位語とは、代表語の下位概念に該当する代表語である。関連語および下位語は、概念辞書などを参照するとよい。
 例えば、図4Cおよび図5Aを参照して説明すると、「半導体」を上位語とする場合、「半導体」の下位語として、「酸化物半導体」、「シリコン半導体」などがある。また、「酸化物半導体」の関連語として、「酸化物半導体層」、「酸化物半導体膜」、「結晶性酸化物半導体」、「多結晶酸化物半導体」などがある。また、「シリコン半導体」として、「シリコン半導体層」、「シリコン半導体膜」、「単結晶シリコン」、「水素化アモルファスシリコン(a−Si:Hと表記される場合がある)」などがある。また、「酸化物半導体」の下位語として、「インジウム、ガリウム、および亜鉛を含む酸化物(IGZOなどと表記される場合がある)」、「インジウム、および亜鉛を含む酸化物(IZOなどと表記される場合がある)」などがある。
 文41_ppが、単語32A_1乃至単語32A_nのうちの1つを含む場合、または、単語32A_1乃至単語32A_nのいずれも含まない場合、文41_ppは、条件Aを満たさないと判断される。このとき、次の文(文41_pp+1)の解析へ進む。
 文41_ppが、単語32A_i1(i1は、1以上n以下の整数)、および単語32A_i2(i2は、i1を除く、1以上n以下の整数)を含む場合、文41_ppは、条件Aを満たすと判断される。このとき、文41_ppから、単語32A_i1と、単語32A_i2とを取得することができる。文41_ppが条件Aを満たすと判断される場合、ステップS032へ進む。
[ステップS032]
 ステップS032は、文41_ppから、単語32A_i1および単語32A_i2のエッジとなる単語の取得が可能であるかを判断する工程である。以降では、単語32A_i1と単語32A_i2とのエッジとなる単語を、単語33Aと表記する。単語33Aの取得が可能である場合、単語32A_i1、単語32A_i2、および単語33Aを取得した後、ステップS033へ進む。なお、単語32A_i1、単語32A_i2、および単語33Aは、ステップS021、およびステップS022を行うことで取得するとよい。文41_ppに対して、ステップS021およびステップS022を行うことで、文41_ppからトークンを用意し、当該トークン間の関係を知ることができる。なお、文41_ppから単語33Aの取得ができない場合、次の文(文41_pp+1)の解析へ進む。
[ステップS033]
 ステップS033は、単語32A_i1、単語32A_i2、および単語33Aを抽象化する工程である。なお、単語32A_i1、単語32A_i2、および単語33Aを抽象化する工程は、ステップS023と同様の工程である。よって、単語32A_i1、単語32A_i2、および単語33Aを抽象化する工程は、ステップS023の説明を参酌することができる。ここで、抽象化した単語32A_i1、抽象化した単語32A_i2、および抽象化した単語33Aを、それぞれ、ノード32_i1、ノード32_i2、およびエッジ33と表記する。ノード32_i1およびノード32_i2は、それぞれ、ノード22_i1およびノード22_i2と一致する。単語32A_i1、単語32A_i2、および単語33Aを抽象化した後、ステップS034へ進む。
[ステップS034]
 ステップS034は、エッジ33が、条件Bを満たすかの判断を行う工程である。ここで、条件Bを満たすとは、エッジ33が、グラフ21を構成するノード22_i1とノード22_i2とのエッジと一致する場合である。別言すると、条件Bを満たすとは、文41_ppから抽出された、ノード32_i1、ノード32_i2およびエッジ33から構成されるグラフが、グラフ21の局所グラフまたは誘導部分グラフとなる場合である。
 なお、文41_ppに、フラグを設けてもよい。例えば、条件Bを満たすと判断された場合、文41_ppのフラグを立てるとよい。他方、条件Bを満たさないと判断された場合、文41_ppのフラグを下すとよい。
 以上により、条件Bを満たすかの判断を終了する。当該判断を行った後、次の文(文41_pp+1)の解析へ進む。
 条件Aを満たすかを判断する工程から条件Bを満たすかを判断する工程までを、文41_1乃至文41_pのすべてに対して実施する。文41_pまでの解析が終了したら、次の参照文書の解析へ進む。
 参照文書を解析する工程は、図9に示すフローチャートに限られない。例えば、図10に示すフローチャートでもよい。図10に示すフローチャートでは、参照文書から、局所グラフ24_1乃至局所グラフ24_mを作成しうる文の検索を行う。
 局所グラフ24_mm(mmは1以上m以下の整数)は、2つのノードと、当該2つのノードの間のエッジとから構成される。ここで、当該2つのノードの一方、当該2つのノードの一方の関連語、および当該2つのノードの一方の下位語をまとめて、単語群22A_m1(m1は1以上n以下の整数)と表記する。また、当該2つのノードの他方、当該2つのノードの他方の関連語、および当該2つのノードの他方の下位語をまとめて、単語群22A_m2(m2は、m1を除く、1以上n以下の整数)と表記する。また、当該エッジ、当該エッジの関連語、および当該エッジの下位語をまとめて、単語群23A_mmと表記する。つまり、局所グラフ24_mmを作成しうる文は、少なくとも、単語群22A_m1のいずれか一、単語群22A_m2のいずれか一、および単語群23A_mmのいずれか一を有する。
 図10に示す参照文書を解析する工程は、ステップS041を有する。なお、参照文書の解析は、局所グラフ24_1から開始するとよい。
[ステップS041]
 ステップS041は、文41_ppが、条件Dを満たすかの判断を行う工程である。ここで、条件Dを満たすとは、文41_ppが、単語群22A_m1のいずれか一、単語群22A_m2のいずれか一、および単語群23A_mmのいずれか一を有する場合である。
 文41_ppが条件Dを満たすと判断された場合は、次の局所グラフ(局所グラフ24_mm+1)に進む。
 他方、文41_ppが条件Dを満たさないと判断された場合は、文41_pp+1に対して、同様の判断を行う。なお、文41_1乃至文41_pの全てに対して、条件Dを満たさないと判断された場合、次の局所グラフ(局所グラフ24_mm+1)に進む。
 なお、文41_ppに、フラグを設けてもよい。例えば、条件Dを満たすと判断された場合、文41_ppのフラグを立てるとよい。他方、条件Dを満たさないと判断された場合、文41_ppのフラグを下すとよい。
 局所グラフ24_1乃至局所グラフ24_mのすべてに対して実施する。局所グラフ24_mまでの判断が終了したら、次の参照文書の解析へ進む。
 以上が、図9に示すフローチャートとは異なる、参照文書の解析の一例を示すフローチャートの説明である。
 なお、上記参照文書から、頂点集合Vr、および辺集合Erを作成してもよい。例えば、条件Bを満たすエッジ、および当該エッジと接続するノードを、それぞれ、辺集合Er、および頂点集合Vrに追加するとよい。なお、当該エッジが辺集合Erにすでに含まれている場合は、当該エッジを追加しなくてもよい。また、当該ノードが頂点集合Vrにすでに含まれている場合は、当該ノードを追加しなくてもよい。これにより、辺集合Erは、条件Bを満たすエッジの和集合となる。また、頂点集合Vrは、条件Bを満たすエッジと接続するノードの和集合となる。
 上記の一例について説明する。参照文書において、条件Bを満たす文が2つ確認されたとする。2つの文の一方からは、ノード22_1と一致するノード、ノード22_2と一致するノード、およびエッジ23_1と一致するエッジが抽出されるとする。また、2つの文の他方からは、ノード22_n−1と一致するノード、ノード22_nと一致するノード、およびエッジ23_mと一致するエッジが抽出されるとする。このとき、頂点集合Vrは、ノード22_1、ノード22_2、ノード22_n−1、およびノード22_nから構成される。また、辺集合Erは、エッジ23_1、およびエッジ23_mから構成される。
 以上より、参照文書を解析することができる。全ての参照文書に対して上記解析が終了した後、ステップS005へ進む。
[ステップS005]
 ステップS005は、処理部106にて、参照文書を評価する工程である。具体的には、文章20と参照文書との類似性に基づいて当該参照文書のスコアに点数を付与し、当該参照文書のスコアを算出する工程である。
 以下では、参照文書のスコアに点数を付与する基準、および、当該基準に基づいて参照文書のスコアに付与する点数の一例について、説明する。
<<点数を付与する基準1>>
 参照文書から抽出しうるノードおよびエッジが、グラフ21を構成するノードおよびエッジを包含するほど、当該参照文書のスコアに高い点数を付与する。ここでは、基準1を基に、参照文書のスコアに付与される点数を、点数61と表記する。
 例えば、点数61は、グラフ21の局所グラフ群(局所グラフ24_1乃至局所グラフ24_m)に含まれる、参照文書から作成しうる部分グラフの数から算出するとよい。具体的には、グラフ21の局所グラフ群の数mに対する、局所グラフ24_1乃至局所グラフ24_mのそれぞれを作成しうるm個の文のうち参照文書に含まれる文の数sの比(包含率と表記する)から算出してもよい。ここで、包含率を(s/m)とする。
 なお、sは、参照文書に含まれる文41_1乃至文41_pのうち、上述した条件Bを満たす文の数であってもよいし、参照文書に含まれる文41_1乃至文41_pのうち、上述した条件Dを満たす文の数であってもよい。
 このとき、局所グラフ24_1乃至局所グラフ24_mのそれぞれを作成しうるm個の文が全て参照文書に含まれる場合、当該包含率は1となる。また、局所グラフ24_1乃至局所グラフ24_mのそれぞれを作成しうるm個の文のいずれも参照文書に含まれない場合、当該包含率は0となる。よって、当該包含率と重みX1との積を点数61として、参照文書のスコアに付与するとよい。
 また、例えば、点数61は、グラフ21を構成するエッジに対する、参照文書から抽出しうるエッジの一致率から算出してもよい。具体的には、辺集合Eの要素の数に対する、辺集合Erとグラフ21の辺集合Eとの共通部分の数の比(一致率と表記する)から算出してもよい。ここで、一致率を(t/m)とする。
 ここで、tは、ステップS004にて作成される辺集合Erと、グラフ21の辺集合Eとの共通部分の数である。また、mは、辺集合Eの要素数|E|である。このとき、当該一致率の最大値は1となり、最小値は0となる。よって、当該一致率と重みX2との積を点数61として、参照文書のスコアに付与するとよい。
 重みX1または重みX2はあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが重みX1または重みX2を指定するタイミングは、ステップS005を行う前までであればよい。例えば、文章20を入力するタイミングでもよいし、ステップS002を行った後でもよい。
 なお、上記包含率または上記一致率を用いて、点数61を算出する例を示しているが、これに限られない。例えば、点数61は、グラフ21の隣接行列と、頂点集合Vrから作成される隣接行列とのフロベニウス積(フロベニウス内積ともいう)から算出してもよいし、グラフ21の接続行列と、頂点集合Vrおよび辺集合Erから作成される接続行列との内積から算出してもよい。
<<点数を付与する基準2>>
 参照文書において、グラフ21が有するノードおよびエッジが現れた文の距離が近いほど、当該参照文書のスコアに高い点数を付与する。例えば、当該点数は、グラフ21が有するノードおよびエッジが現れた文と、グラフ21が有するノードおよびエッジが現れた他の文との距離から算出するとよい。なお、当該距離は、ステップS004で設定したフラグを用いて算出するとよい。ここでは、基準2を基に、参照文書のスコアに付与される点数を、点数62と表記する。
 グラフ21が有するノードおよびエッジが現れた文を、文41_p1(p1は、1以上p以下の整数)とし、グラフ21が有するノードおよびエッジが現れた他の文を、文41_p2(p2は、p1を除く1以上p以下の整数)とする。具体的には、文41_p1と文41_p2との距離rを、(|p1−p2|−1)とする。つまり、文41_p1と文41_p2とが隣り合う場合、rはゼロとなる。また、文41_p1と文41_p2とが最も離れている場合、rは(p−2)となる。
 そこで、値(p−2−r)/(p−2)を算出する。文41_p1と文41_p2とが隣り合う場合、値(p−2−r)/(p−2)は1となり、文41_p1と文41_p2が最も離れている場合、値(p−2−r)/(p−2)はゼロとなる。よって、値(p−2−r)/(p−2)と重みYとの積を点数62として、参照文書のスコアに付与するとよい。
 重みYはあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが重みYを指定するタイミングは、ステップS005を行う前までであればよい。例えば、文章20を入力するタイミングでもよいし、ステップS002を行った後でもよい。
 なお、ノードおよびエッジが現れた文と、ノードおよびエッジが現れた他の文との距離の算出方法は、上記に限られない。例えば、グラフ21が有向グラフである場合、入次数と出次数との和が2以上であるノードにおいて、当該ノードおよび当該ノードに隣接するノードの間のエッジを抽出しうる文と、当該ノードおよび当該ノードに隣接する別のノードの間のエッジを抽出しうる文との距離を算出してもよい。
<<点数を付与する基準3>>
 参照文書に含まれる文章から取得される、抽象化される前のノードとエッジが、グラフ21を構成する、抽象化される前のノードとエッジに近いほど、当該参照文書のスコアに高い点数を付与する。例えば、参照文書に含まれる文章から取得される、抽象される前のノード(エッジ)と、グラフ21を構成する、抽象化される前のノード(エッジ)との関係を評価して、付与する点数を決定するとよい。ここでは、基準3を基に、参照文書のスコアに付与される点数を、点数63と表記する。
 上述したように、抽象化とは、トークンを代表語または上位語に置き換える作業である。つまり、抽象化される前のノードとは、上位語または代表語に置き換えられる前のトークンであり、ステップS023を実施する前のトークンである。別言すると、抽象化される前のノードは、上記参照文書に含まれる文章に現れる単語そのものである。
 ここでは、参照文書に含まれる文章から、単語32A_i3(i3は、1以上n以下の整数)が取得される場合について説明する。なお、単語32A_i3を抽象化することで得られるノード32_i3は、グラフ21のノード22_i3と一致する。また、抽象化される前のノード22_i3を、単語22A_i3と表記する。単語22A_i3は、文章20に現れる単語である。
 例えば、単語32A_i3と、単語22A_i3とが一致する場合、当該参照文書と文章20とは類似している可能性が高い。よって、当該参照文書は、文章20の概念に近いとみなすことができる。このとき、当該参照文書のスコアに付与する点数63を高くする。
 単語32A_i3と、単語22A_i3とが一致しない場合、当該参照文書と文章20とは類似している可能性が低い。よって、当該参照文書は、文章20の概念から遠いとみなすことができる。このとき、当該参照文書のスコアに付与する点数63を低くする、またはゼロにする。なお、単語32A_i3と、単語22A_i3との関係によって、当該参照文書のスコアに付与する点数63を調整するとよい。
 ここで、単語32A_i3と、単語22A_i3との関係を表す値をr2とする。値r2は、単語22A_i3を基準としたときの、単語32A_i3の位置から算出する。ここで、値r2の算出方法の一例を、図11を用いて説明する。
 図11は、単語の関連を説明する図である。図11に示すように、単語A1および単語A2は、単語A0の下位語である。単語A1と単語A2とは、互いの関連語である。単語A11および単語A12は、単語A1の下位語である。単語A11と単語A12とは、互いの関連語である。単語A21および単語A22は、単語A2の下位語である。単語A21と単語A22とは、互いの関連語である。
 ここで、図11に示すように、単語と、当該単語の上位語とを連結する。また、単語と、当該単語の下位語とを連結する。このとき、図11に示す単語(単語A0、単語A1、単語A2、単語A11、単語A12、単語A21、および単語A22)を、グラフのノードとみなすことができる。また、単語間を結ぶ線を、当該グラフのエッジとみなすことができる。
 単語A0と単語A1との距離を、w1とする。単語A0と単語A2との距離を、w2とする。単語A1と単語A11との距離を、w11とする。単語A1と単語A12との距離を、w12とする。単語A2と単語A21との距離を、w21とする。単語A2と単語A22との距離を、w22とする。
 単語22A_i3が、図11に示す単語A1であるとする。また、単語32A_i3から単語22A_i3への最短経路の距離をWとする。単語32A_i3から単語22A_i3への最短経路とは、単語32A_i3と単語22A_i3とを結ぶ経路の中で、エッジの数が最小となる経路を指す。つまり、当該最短経路の距離とは、当該最短経路に存在するエッジに相当する距離の和となる。
 単語32A_i3が、単語22A_i3と一致する場合、Wはゼロとなる。単語32A_i3が、単語22A_i3の上位語(図11に示す単語A0)である場合、Wはw1となる。単語32A_i3が、単語22A_i3の下位語(図11に示す単語A11または単語A12)である場合、Wはw11またはw12となる。単語32A_i3が、単語22A_i3の関連語(図11に示す単語A2)である場合、Wをw1+w2とする。単語32A_i3が、単語22A_i3の関連語の下位語(図11に示す単語A21またはA22)である場合、Wをw1+w2+w21またはw1+w2+w22とする。
 値r2は、1/(1+W)として算出するとよい。これにより、単語32A_i3と単語22A_i3とが一致する場合、値r2は1となり、単語32A_i3から単語22A_i3への最短経路の距離が最大である場合、値r2は最小値となる。
 または、値r2は、(Wmax−W)/Wmaxとして算出してもよい。ここで、Wmaxは、単語32A_i3から単語22A_i3への最短経路の距離の最大値である。これにより、単語32A_i3と単語22A_i3とが一致する場合、値r2は1となり、単語32A_i3から単語22A_i3への最短経路の距離が最大である場合、値r2はゼロとなる。
 上記の方法で算出した値r2と、重みZ1と、の積を点数63として、参照文書のスコアに付与するとよい。
 単語間距離(距離w1、距離w2、距離w11、距離w12、距離w21、および距離w22)はあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが単語間距離を指定するタイミングは、ステップS005を行う前までであればよい。例えば、文章20を入力するタイミングでもよいし、ステップS002を行った後でもよい。
 エッジに関しても、上記と同様の方法で、参照文書のスコアに付与する点数63を決定するとよい。例えば、点数63は、値r2と、重みZ2との積とするとよい。
 なお、グラフ21が有向グラフである場合、エッジは向きを有する。よって、参照文書に含まれる文から取得されるエッジの向きが、グラフ21のエッジの向きと同じである場合、当該エッジは、抽象化される前のグラフ21の概念に近いとみなすことができる。このとき、当該参照文書のスコアに付与する点数63を高くするとよい。他方、参照文書に含まれる文から抽出されるエッジの向きが、グラフ21のエッジの向きと逆である場合、当該エッジは、抽象化される前のグラフ21の概念から遠いとみなすことができる。このとき、当該参照文書のスコアに付与する点数63を低くする、またはゼロにするとよい。
 重みZ1および重みZ2はあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが重みZ1および重みZ2を指定するタイミングは、ステップS005を行う前までであればよい。例えば、文章20を入力するタイミングでもよいし、ステップS002を行った後でもよい。
<<点数を付与する基準4>>
 検索の条件に応じて、ノードとエッジがグラフ21の上位概念または下位概念であれば、参照文書のスコアに点数を付与する。例えば、図11に示す単語間距離(距離w1、距離w2、距離w11、距離w12、距離w21、および距離w22)の値を調整するとよい。ここでは、基準4を基に、参照文書のスコアに付与される点数を、点数64と表記する。
 グラフ21の上位概念となる文書を検索したい場合、距離w11、および距離w12を無限大、または他の単語間距離(例えば、距離w1)の値と比べて非常に大きな値とする。これにより、グラフ21の下位概念である参照文書のスコアに付与する点数64をゼロに近い値とすることができる。よって、グラフ21の上位概念の参照文書の検索性を向上させることができる。なお、距離w2、または、距離w21および距離w22を無限大、または他の単語間距離(例えば、距離w1)の値と比べて非常に大きな値としてもよい。これにより、グラフ21の上位概念の参照文書の検索性をさらに向上させることができる。
 グラフ21の下位概念となる文書を検索したい場合、距離w1を無限大、または他の単語間距離(例えば、距離w11)の値と比べて非常に大きな値とする。これにより、グラフ21の上位概念である参照文書のスコアに付与する点数64をゼロに近い値とすることができる。よって、グラフ21の下位概念の参照文書の検索性を向上させることができる。
 以上より、検索の条件に応じて、文書を効率よく検索することができる。
 以上が、参照文書のスコアに点数を付与する基準、および、当該基準に基づいて参照文書のスコアに付与する点数の一例である。なお、参照文書のスコアに付与する点数は、上記した基準1乃至基準4の1つまたは複数を適宜組み合わせるとよい。また、参照文書のスコアに付与する点数の基準は上記に限られず、適宜条件を設けて参照文書のスコアを算出するとよい。
<<参照文書のスコアを算出する例>>
 ここでは、参照文書のスコアを算出する例について、図12A、図12B、図13A、および図13Bを用いて説明する。なお、説明を容易にするため、本項では、図12Aに示す構成を有するグラフ21Aを用いる。また、検索対象となる参照文書は4つ(参照文書40a、参照文書40b、参照文書40c、および参照文書40d)とする。
 参照文書40a乃至参照文書40dは、いずれも10個の文から構成されるとする。つまり、参照文書40a乃至参照文書40dのpは、いずれも10とする。このとき、参照文書40aは、文41a_1乃至文41a_10から構成され、参照文書40bは、文41b_1乃至文41b_10から構成され、参照文書40cは、文41c_1乃至文41c_10から構成され、参照文書40dは、文41d_1乃至文41d_10から構成される。
 図12Aに示すグラフ21Aは、グラフ21の他の一例である。グラフ21Aは、ノード22_1乃至ノード22_4、ならびに、エッジ23_1乃至エッジ23_3から構成される。エッジ23_1の始点はノード22_1であり、エッジ23_1の終点はノード22_2である。エッジ23_2の始点はノード22_2であり、エッジ23_2の終点はノード22_3である。エッジ23_3の始点はノード22_1であり、エッジ23_3の終点はノード22_4である。
 また、図12Aに示す局所グラフ24_1、局所グラフ24_2、および局所グラフ24_3は、グラフ21Aの局所グラフであり、グラフ21Aの部分グラフでもある。局所グラフ24_1は、ノード22_1、ノード22_2、およびエッジ23_1から構成される。局所グラフ24_2は、ノード22_2、ノード22_3、およびエッジ23_2から構成される。局所グラフ24_3は、ノード22_1、ノード22_4、およびエッジ23_3から構成される。
 また、局所グラフ24_1を形成しうる文を、文30_1とする。つまり、文30_1から抽出される単語から、局所グラフ24_1を形成することができる。また、局所グラフ24_2を形成しうる文を、文30_2とする。つまり、文30_2から抽出される単語から、局所グラフ24_2を形成することができる。また、局所グラフ24_3を形成しうる文を、文30_3とする。つまり、文30_3から抽出される単語から、局所グラフ24_3を形成することができる。
 図12Bに示すように、参照文書40aは、文30_1乃至文30_3を含むとする。参照文書40aに含まれる文のうち、文41a_5が文30_1に該当し、文41a_6が文30_2に該当し、文41a_8が文30_3に該当する。
 また、図12Bに示すように、参照文書40bは、文30_1および文30_2を含み、文30_3を含まないとする。参照文書40bに含まれる文のうち、文41b_5が文30_1に該当し、文41b_6が文30_2に該当する。
 また、図12Bに示すように、参照文書40cは、文30_1および文30_2を含み、文30_3を含まないとする。参照文書40cに含まれる文のうち、文41c_2が文30_1に該当し、文41c_6が文30_2に該当する。
 また、図12Bに示すように、参照文書40dは、文30_1を含み、文30_2および文30_3を含まないとする。参照文書40dに含まれる文のうち、文41d_2が文30_1に該当する。
 また、各基準を元に算出する値(包含率、値(p−2−r)/(p−2)、値r2など)、重み(重みX1、重みY1、および重みZ1)、付与する点数などの有効数字(有効数字の最終桁)は、評価する参照文書の数に合わせて適宜調整するとよい。例えば、評価する参照文書の数が多いほど、当該有効数字を大きくする、または、当該有効数字の最終桁を小さくするとよい。なお、ここでは、当該有効数字の最終桁を小数点第2位とする。
 はじめに、上述した基準1を基に、参照文書40a乃至参照文書40dのそれぞれのスコアに点数61を付与する例を、図12Bを用いて説明する。なお、重みX1は1.00とする。
 参照文書40aにおける上記包含率(および付与する点数61)は、1.00となる。また、参照文書40bおよび参照文書40cにおける上記包含率(および付与する点数61)は、0.67(=2/3)となる。また、参照文書40dにおける上記包含率(および付与する点数61)は、0.33(=1/3)となる。よって、4つの参照文書において、参照文書40aのスコアに付与する点数61が最も高く、参照文書40bおよび参照文書40cのスコアに付与する点数61が次に高く、参照文書40dのスコアに付与する点数61が最も低い。
 次に、上述した基準2を基に、参照文書40a乃至参照文書40dのそれぞれのスコアに点数62を付与する例を、図13Aを用いて説明する。なお、重みYは1.00とする。
 参照文書40a、および参照文書40bにおいて、文30_1と文30_2との距離rはゼロである。よって、値(p−2−r)/(p−2)(および付与する点数62)は、1.00となる。また、参照文書40cにおいて、文30_1と文30_2との距離rは3である。よって、値(p−2−r)/(p−2)(および付与する点数62)は、0.63(=5/8)となる。したがって、参照文書40bのスコアに付与する点数62は、参照文書40cのスコアに付与する点数62よりも高い。なお、参照文書40dにおいては、文30_1と文30_2との距離rを算出することができないため、値(p−2−r)/(p−2)(および付与する点数62)は、0.00とする。
 次に、上述した基準3および基準4を基に、参照文書40a乃至参照文書40dのそれぞれのスコアに点数63および点数64(点数64Aまたは点数64B)を付与する例を、図13Bを用いて説明する。具体的には、参照文書40a乃至参照文書40dのそれぞれが有する文30_1から、参照文書のスコアに付与する点数63および点数64を算出する方法について説明する。なお、重みZ1は1.00とする。また、値r2は、1/(1+W)として算出する。
 ここで、文30_1から単語32A_1が抽出されるとする。抽象化された単語32A_1は、ノード22_1と一致するものとする。ここで、抽象化される前のノード22_1を、単語22A_1とする。単語22A_1は、文章20に現れる単語である。なお、単語22A_1は、図11に示す単語A1とする。
 図13Bに示すように、参照文書40aから取得される単語32A_1は、図11に示す単語A1とする。参照文書40bから取得される単語32A_1は、図11に示す単語A11とする。参照文書40cから取得される単語32A_1は、図11に示す単語A0とする。参照文書40dから取得される単語32A_1は、図11に示す単語A22とする。
 上記の場合、参照文書40aにおけるWはゼロであり、参照文書40bにおけるWはw11であり、参照文書40cにおけるWはw1であり、参照文書40dにおけるWはw1+w2+w22である。
 はじめに、図11に示す単語間距離(距離w1、距離w2、距離w11、距離w12、距離w21、および距離w22)を全て1.00とする。ここで、参照文書に付与する点数は、点数63である。
 このとき、参照文書40aにおける値r2は1.00であり、参照文書40bにおける値r2は0.50(=1/2)であり、参照文書40cにおける値r2は0.50(=1/2)であり、参照文書40dにおける値r2は0.25(=1/4)である。
 以上より、4つの参照文書において、参照文書40aのスコアに付与する点数63が最も高く、参照文書40bおよび参照文書40cのスコアに付与する点数63が次に高く、参照文書40dのスコアに付与する点数63が最も低い。
 単語間距離を全て1にすることで、文章20の概念に近い参照文書のスコアを高くすることができる。
 次に、距離w1、距離w21、および距離w22を1.00とし、距離w2、距離w11、および距離w12を無限大とする。ここで、参照文書に付与する点数を、点数64Aとする。
 このとき、参照文書40aにおける値r2は1.00であり、参照文書40bにおける値r2は実質0であり、参照文書40cにおける値r2は0.50(=1/2)であり、参照文書40dにおける値r2は実質0である。
 以上より、4つの参照文書において、参照文書40aのスコアに付与する点数64Aが最も高く、参照文書40cのスコアに付与する点数64Aが次に高く、参照文書40bおよび参照文書40dのスコアに付与する点数64Aが最も低い。
 単語間距離を上記の設定にすることで、文章20の上位概念に近い参照文書のスコアを高くすることができる。
 次に、距離w2、距離w11、距離w12、距離w21、および距離w22を1.00とし、距離w1を無限大とする。ここで、参照文書に付与する点数を、点数64Bとする。
 このとき、参照文書40aにおける値r2は1.00であり、参照文書40bにおける値r2は0.50(=1/2)であり、参照文書40cにおける値r2は実質0であり、参照文書40dにおける値r2は実質0である。
 以上より、4つの参照文書において、参照文書40aのスコアに付与する点数64Bが最も高く、参照文書40bのスコアに付与する点数64Bが次に高く、参照文書40cおよび参照文書40dのスコアに付与する点数64Bが最も低い。
 単語間距離を上記の設定にすることで、文章20の下位概念に近い参照文書のスコアを高くすることができる。
 以上のようにして、参照文書のスコアを算出することができる。
 なお、ここでは、重みX1、重みY、および重みZ1を全て1.00であるとして説明したが、これに限られない。例えば、文章20に使われている単語に注目して文書の検索を行いたい場合は、重みZ1の値を、重みX1および重みYの値よりも大きくするとよい。また、例えば、グラフ21Aのエッジに注目して文書の検索を行いたい場合は、重みX1および/または重みYの値を、重みZ1の値よりも大きくするとよい。
 以上が、ステップS005についての説明である。ステップS005を行うことで、文章20と参照文書との類似性に基づいて、当該参照文書のスコアに点数が付与される。よって、参照文書のスコアが高いほど、当該参照文書と文章20との類似性が高くなる。したがって、文章20と類似した文書を検索することができる。
 以上の方法により、文書を検索することができる。なお、文書を検索する方法は上記に限られない。例えば、図14に示すように、文書を検索する方法は、ステップS001乃至ステップS005に加えて、ステップS011、およびステップS012を有してもよい。
[ステップS011]
 ステップS011は、参照文書を絞り込む工程であり、ステップS003とステップS004との間に行われる。以下では、ステップS003で取得した複数の参照文書(参照文書40_1乃至参照文書40_q(qは1以上の整数))を絞り込むフローチャートを、図15を用いて説明する。
 ステップS011は、参照文書40_1から開始するとよい。
 参照文書40_qq(qqは1以上q以下の整数)が、条件Cを満たすかの判断を行う。ここで、条件Cを満たすとは、参照文書40_qqが、ステップS004で説明した、単語32A_1乃至単語32A_nの全てを含む場合である。
 参照文書40_qqが、条件Cを満たすと判断された場合、参照文書40_qqを抽出する。また、参照文書40_qqが、条件Cを満たさないと判断された場合、参照文書40_qqを抽出しない。
 なお、条件Cは上記に限られない。例えば、条件Cを満たすとは、参照文書40_qqが、ステップS004で説明した、単語32A_1乃至単語32A_nの一部を含む場合であってもよい。これにより、当該単語32A_1乃至単語32A_nの一部を基に、類似した文書の検索を行うことができる。
 以上により、条件Cを満たすかの判断を終了する。当該判断を行った後、次の参照文書(参照文書40_qq+1)の解析へ進む。
 条件Cを満たすかの判断を行う工程を、参照文書40_1乃至参照文書40_qのすべてに対して実施する。参照文書40_qまでの絞り込みが終了したら、ステップS004へ進む。
 ステップS011を行うことで、複数の参照文書の中から、文章20と類似した参照文書のみを抽出することができる。これにより、文章20と比較する参照文書を絞り込むことができ、文書を検索するのに要する時間を短縮することができる。
[ステップS012]
 ステップS012は、出力部104にて、情報を出力する工程である。当該情報とは、処理部106にて算出された結果に関する情報である。例えば、当該情報は、参照文書のスコアである。または、当該情報は、スコアが最も高い参照文書である。または、当該情報は、スコアに基づいて順位づけられたランキングデータである。
 上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして、出力部104に出力される。また、上記情報は、記憶部107、処理部106が有するメモリなどに出力されてもよい。
 以上が、文書を検索する方法についての説明である。本発明の一態様である文書を検索する方法を用いることで、検索用に指定する文章の概念を考慮して、当該文章と類似した文書を検索することができる。また、検索用に指定する文章と類似した文書を順位付けされた状態で検索することができる。また、文章の構成や表現に影響を受けにくく、文章の概念を元に検索を行うことができる。また、言語の異なる2つの文章において、文章の概念が同じである場合、当該2つの文章のそれぞれから作成されるグラフは同じになる。よって、本発明の一態様である文書を検索する方法を用いることで、異なる言語間での文書の検索を容易にすることができる。
 本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
(実施の形態2)
 本実施の形態では、本発明の一態様の文書検索システムについて図16及び図17を用いて説明する。
 本実施の形態の文書検索システムは、実施の形態1に示す、文書を検索する方法を用いて、文書を容易に検索することができる。
<文書検索システムの構成例1>
 図16に、文書検索システム200のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部202で行われる処理は、処理によって異なるサーバで実行されることがある。
 文書検索システム200は、少なくとも、処理部202を有する。図16に示す文書検索システム200は、さらに、入力部201、記憶部203、データベース204、表示部205、及び伝送路206を有する。
[入力部201]
 入力部201には、文書検索システム200の外部から文章が供給される。当該文章は、検索用文章であり、実施の形態1に示す文章20に相当する。また、入力部201には、文書検索システム200の外部から複数の参照文書が供給されてもよい。当該複数の参照文書は、上記文章の比較対象となる文書であり、実施の形態1に示す複数の参照文書に相当する。入力部201に供給された上記複数の参照文書及び上記文章は、それぞれ、伝送路206を介して、処理部202、記憶部203、またはデータベース204に供給される。
 上記複数の参照文書及び上記文章は、例えば、テキストデータ、音声データ、または画像データとして入力される。上記複数の参照文書のそれぞれに含まれる文章は、テキストデータとして入力されることが好ましい。
 上記文章の入力方法としては、例えば、キーボード、タッチパネルなどを用いたキー入力、マイクを用いた音声入力、記録媒体からの読み込み、スキャナ、カメラなどを用いた画像入力、通信を用いた取得等が挙げられる。
 文書検索システム200は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部202が当該機能を有していてもよい。または、文書検索システム200が、さらに、当該機能を有する音声変換部を有していてもよい。
 文書検索システム200は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部202が当該機能を有していてもよい。または、文書検索システム200が、さらに、当該機能を有する文字認識部を有していてもよい。
[処理部202]
 処理部202は、入力部201、記憶部203、データベース204などから供給されたデータを用いて、処理を行う機能を有する。処理部202は、処理結果を、記憶部203、データベース204、表示部205などに供給することができる。
 処理部202は、実施の形態1に示す処理部106を含む。すなわち、処理部202は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフを作成する機能を有する。また、処理部202は、参照文書を解析する機能、および参照文書を評価する機能を有する。
 処理部202には、チャネル形成領域に金属酸化物を有するトランジスタを用いてもよい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部202が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部202を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部202をオフ状態にすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。
 なお、本明細書等において、チャネル形成領域に酸化物半導体を用いたトランジスタをOxide Semiconductorトランジスタ(OSトランジスタ)と呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
 チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含むことが好ましい。元素Mは、アルミニウム(Al)、ガリウム(Ga)、またはスズ(Sn)であることが好ましい。元素Mに適用可能な他の元素としては、ホウ素(B)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、タングステン(W)などがある。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
 チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。チャネル形成領域が有する金属酸化物は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
 また、処理部202には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。
 また、処理部202には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いてもよい。
 処理部202は、例えば、演算回路または中央演算装置(CPU:Central Processing Unit)等を有する。
 処理部202は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部202は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部203のうち少なくとも一方に格納される。
 処理部202はメインメモリを有していてもよい。メインメモリは、RAM等の揮発性メモリ、及びROM等の不揮発性メモリのうち少なくとも一方を有する。
 RAMとしては、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等が用いられ、処理部202の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部203に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部202に直接アクセスされ、操作される。
 ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
[記憶部203]
 記憶部203は、処理部202が実行するプログラムを記憶する機能を有する。また、記憶部203は、例えば、処理部202が生成した処理結果、及び、入力部201に入力されたデータを記憶する機能を有していてもよい。具体的には、記憶部203は、処理部202で生成したグラフ(例えば、実施の形態1に示すグラフ21)、算出されたスコアの結果などを記憶する機能を有することが好ましい。
 記憶部203は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部203は、例えば、DRAM、SRAMなどの揮発性メモリを有していてもよい。記憶部203は、例えば、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase−change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部203は、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブを有していてもよい。
[データベース204]
 文書検索システム200は、データベース204を有していてもよい。例えば、データベース204は、複数の参照文書を記憶する機能を有する。例えば、データベース204に記憶された当該複数の参照文書を対象として、本発明の一態様の文書を検索する方法を用いてもよい。また、データベース204には、概念辞書が格納されてもよい。
 なお、記憶部203及びデータベース204は互いに分離されていなくてもよい。例えば、文書検索システム200は、記憶部203及びデータベース204の双方の機能を有する記憶ユニットを有していてもよい。
 なお、処理部202、記憶部203、及びデータベース204が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。
[表示部205]
 表示部205は、処理部202における処理結果を表示する機能を有する。また、表示部205は、参照文書および当該参照文書に対して算出されたスコアの結果を表示する機能を有する。また、表示部205は、検索用文章を表示する機能を有していてもよい。
 なお、文書検索システム200は、出力部を有していてもよい。出力部は、外部にデータを供給する機能を有する。
[伝送路206]
 伝送路206は、各種データを伝達する機能を有する。入力部201、処理部202、記憶部203、データベース204、及び表示部205の間のデータの送受信は、伝送路206を介して行うことができる。例えば、検索用文章、当該文章の比較対象となる参照文書などのデータが、伝送路206を介して、送受信される。
<文書検索システムの構成例2>
 図17に、文書検索システム210のブロック図を示す。文書検索システム210は、サーバ220と、端末230(パーソナルコンピュータなど)と、を有する。
 サーバ220は、処理部202、伝送路212、記憶部213、及び通信部217aを有する。図17では図示しないが、サーバ220は、さらに、入出力部などを有していてもよい。
 端末230は、入力部201、記憶部203、表示部205、伝送路216、通信部217b、及び処理部218を有する。図17では図示しないが、端末230は、さらに、データベースなどを有していてもよい。
 文書検索システム210のユーザは、端末230の入力部201に、文章を入力する。当該文章は、検索用文章であり、実施の形態1に示す文章20に相当する。当該文章は、端末230の通信部217bからサーバ220の通信部217aに送信される。
 通信部217aが受信した上記文章は、伝送路212を介して、記憶部213に保存される。または、上記文章は、通信部217aから、直接、処理部202に供給されてもよい。
 実施の形態1で説明した、グラフの作成、ならびに、参照文書の解析および評価は、高い処理能力が求められる。サーバ220が有する処理部202は、端末230が有する処理部218に比べて処理能力が高い。したがって、グラフの作成、ならびに、参照文書の解析および評価は、処理部202で行われることが好ましい。
 そして、処理部202によりスコアが算出される。スコアは、伝送路212を介して、記憶部213に保存される。または、スコアは、処理部202から、直接、通信部217aに供給されてもよい。スコアは、サーバ220の通信部217aから端末230の通信部217bに送信される。スコアは、端末230の表示部205に表示される。
[伝送路212及び伝送路216]
 伝送路212及び伝送路216は、データを伝達する機能を有する。処理部202、記憶部213、及び通信部217aの間のデータの送受信は、伝送路212を介して行うことができる。入力部201、記憶部203、表示部205、通信部217b、及び処理部218の間のデータの送受信は、伝送路216を介して行うことができる。
[処理部202及び処理部218]
 処理部202は、記憶部213及び通信部217aなどから供給されたデータを用いて、処理を行う機能を有する。処理部218は、入力部201、記憶部203、表示部205、及び通信部217bなどから供給されたデータを用いて、処理を行う機能を有する。処理部202及び処理部218は、処理部202の説明を参照できる。処理部202は、処理部218に比べて処理能力が高いことが好ましい。
[記憶部203]
 記憶部203は、処理部218が実行するプログラムを記憶する機能を有する。また、記憶部203は、処理部218が生成した演算結果、通信部217bに入力されたデータ、及び入力部201に入力されたデータなどを記憶する機能を有する。
[記憶部213]
 記憶部213は、複数の参照文書、処理部202が生成した処理結果、及び通信部217aに入力されたデータなどを記憶する機能を有する。
[通信部217a及び通信部217b]
 通信部217a及び通信部217bを用いて、サーバ220と端末230との間で、データの送受信を行うことができる。通信部217a及び通信部217bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
 なお、サーバ220と端末230との通信は、World Wide Web(WWW)の基盤であるインターネット、イントラネット、エクストラネット、PAN(Personal Area Network)、LAN(Local Area Network)、CAN(Campus Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、GAN(Global Area Network)等のコンピュータネットワークに接続することで行ってもよい。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。
A0:単語、A1:単語、A2:単語、A11:単語、A12:単語、A21:単語、A22:単語、r2:値、w1:距離、w2:距離、w11:距離、w12:距離、w21:距離、w22:距離、20:文章、21:グラフ、21A:グラフ、22_i:ノード、22_i1:ノード、22_i2:ノード、22_i3:ノード、22_n:ノード、22_n−1:ノード、22_1:ノード、22_2:ノード、22_3:ノード、22_4:ノード、22A_i3:単語、22A_m1:単語群、22A_m2:単語群、22A_1:単語、23_m:エッジ、23_m−1:エッジ、23_1:エッジ、23_2:エッジ、23_3:エッジ、23A_mm:単語群、24_m:局所グラフ、24_mm:局所グラフ、24_1:局所グラフ、24_2:局所グラフ、24_3:局所グラフ、30_1:文、30_2:文、30_3:文、32_i1:ノード、32_i2:ノード、32_i3:ノード、32A_i:単語、32A_i1:単語、32A_i2:単語、32A_i3:単語、32A_n:単語、32A_1:単語、33:エッジ、33A:単語、40_q:参照文書、40_qq:参照文書、40_1:参照文書、40a:参照文書、40b:参照文書、40c:参照文書、40d:参照文書、41_p:文、41_p1:文、41_p2:文、41_pp:文、41_1:文、41a_1:文、41a_5:文、41a_6:文、41a_8:文、41a_10:文、41b_1:文、41b_5:文、41b_6:文、41b_10:文、41c_1:文、41c_2:文、41c_6:文、41c_10:文、41d_1:文、41d_2:文、41d_10:文、61:点数、62:点数、63:点数、64:点数、64A:点数、64B:点数、100:文書検索システム、101:入力部、104:出力部、106:処理部、107:記憶部、112:概念辞書、200:文書検索システム、201:入力部、202:処理部、203:記憶部、204:データベース、205:表示部、206:伝送路、210:文書検索システム、212:伝送路、213:記憶部、216:伝送路、217a:通信部、217b:通信部、218:処理部、220:サーバ、230:端末

Claims (8)

  1.  処理部を有し、
     前記処理部は、文章からグラフを作成する機能を有し、
     検索用グラフは、検索用文章から作成され、
     前記検索用グラフは、第1乃至第m(mは1以上の整数)の検索用局所グラフを有し、
     前記第1乃至第mの検索用局所グラフは、それぞれ、2つのノードと、前記2つのノードの間のエッジから構成され、
     前記処理部は、さらに、参照文書から第1乃至第mの文の検索を行う機能を有し、
     第i(iは1以上m以下の整数)の文は、第(3i−2)の単語、第(3i−1)の単語、及び、第3iの単語を有し、
     前記第(3i−2)の単語は、前記第iの検索用局所グラフにおける前記2つのノードの一方、前記2つのノードの一方の関連語、または前記2つのノードの一方の下位語であり、
     前記第(3i−1)の単語は、前記第iの検索用局所グラフにおける前記2つのノードの他方、前記2つのノードの他方の関連語、または前記2つのノードの他方の下位語であり、
     前記第3iの単語は、前記第iの検索用局所グラフにおける前記エッジ、前記エッジの関連語、または前記エッジの下位語であり、
     前記処理部は、さらに、前記第1乃至第mの文のうち、前記参照文書に含まれる文の数に基づいて、前記参照文書のスコアに第1の点数を付与する機能を有する、
     文書検索システム。
  2.  請求項1において、
     前記処理部は、
     前記参照文書が、第j(jは1以上m以下の整数)の文、および第k(kはjを除く、1以上m以下の整数)の文を含む場合、前記第jの文と、前記第kの文との距離に基づいて、前記参照文書のスコアに第2の点数を付与する機能と、
     前記参照文書のスコアに付与された点数に基づいて、前記参照文書のスコアを算出する機能と、
     を有する、
     文書検索システム。
  3.  請求項2において、
     前記処理部は、前記第jの文に含まれる第(3j−2)の単語と、前記第jの検索用局所グラフにおける前記2つのノードの一方の元となる単語と、の概念の近さに基づいて、前記参照文書のスコアに第3の点数を付与する機能を有する、
     文書検索システム。
  4.  請求項1乃至請求項3のいずれか一において、
     前記処理部は、複数の参照文書から、第l(lは1以上m以下の整数)の文に含まれる第(3l−2)の単語および第(3l−1)の単語を含む参照文書を抽出する機能を有する、
     文書検索システム。
  5.  請求項1乃至請求項4のいずれか一において、
     前記処理部が有する、文章からグラフを作成する機能は、
     前記文章を複数のトークンに分割する機能と、
     係り受け解析を行う機能と、
     前記係り受け解析の結果に応じて、トークンの一部を連結する機能と、
     前記係り受け解析の結果に応じて、トークン間の連結関係を評価する機能と、
     前記トークン間の連結関係から、前記グラフを構築する機能と、
     を有する、
     文書検索システム。
  6.  請求項5において、
     前記処理部が有する、前記文章からグラフを作成する機能は、さらに、代表語または上位語が存在するトークンを、前記代表語または前記上位語に置き換える機能を有する、
     文書検索システム。
  7.  請求項1乃至請求項6のいずれか一において、
     前記処理部に加えて、入力部を有し、
     前記入力部は、前記検索用文章を前記処理部に供給する機能を有する、
     文書検索システム。
  8.  請求項7において、
     前記処理部、および前記入力部に加えて、出力部を有し、
     前記出力部は、前記参照文書のスコアを供給する機能を有する、
     文書検索システム。
PCT/IB2020/062467 2020-01-10 2020-12-28 文書検索システム、文書を検索する方法 WO2021140406A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021569602A JPWO2021140406A1 (ja) 2020-01-10 2020-12-28
US17/791,316 US20230350949A1 (en) 2020-01-10 2020-12-28 Document Retrieval System and Method For Retrieving Document
CN202080091469.4A CN114902206A (zh) 2020-01-10 2020-12-28 文档检索系统、文档检索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-003074 2020-01-10
JP2020003074 2020-01-10

Publications (1)

Publication Number Publication Date
WO2021140406A1 true WO2021140406A1 (ja) 2021-07-15

Family

ID=76788504

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2020/062467 WO2021140406A1 (ja) 2020-01-10 2020-12-28 文書検索システム、文書を検索する方法

Country Status (4)

Country Link
US (1) US20230350949A1 (ja)
JP (1) JPWO2021140406A1 (ja)
CN (1) CN114902206A (ja)
WO (1) WO2021140406A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230267159A1 (en) * 2022-02-18 2023-08-24 Microsoft Technology Licensing, Llc Input-output searching

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844763A (ja) * 1994-08-02 1996-02-16 Ricoh Co Ltd キーワード自動抽出装置
JP2010205265A (ja) * 2009-03-05 2010-09-16 Nhn Corp オントロジを用いたコンテンツ検索システムおよび方法
WO2016067334A1 (ja) * 2014-10-27 2016-05-06 株式会社日立製作所 文書検索システム、ディベートシステム、文書検索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012842A1 (en) * 2007-04-25 2009-01-08 Counsyl, Inc., A Delaware Corporation Methods and Systems of Automatic Ontology Population
US8676815B2 (en) * 2008-05-07 2014-03-18 City University Of Hong Kong Suffix tree similarity measure for document clustering
WO2010077714A2 (en) * 2008-12-09 2010-07-08 University Of Houston System Word sense disambiguation
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844763A (ja) * 1994-08-02 1996-02-16 Ricoh Co Ltd キーワード自動抽出装置
JP2010205265A (ja) * 2009-03-05 2010-09-16 Nhn Corp オントロジを用いたコンテンツ検索システムおよび方法
WO2016067334A1 (ja) * 2014-10-27 2016-05-06 株式会社日立製作所 文書検索システム、ディベートシステム、文書検索方法

Also Published As

Publication number Publication date
CN114902206A (zh) 2022-08-12
JPWO2021140406A1 (ja) 2021-07-15
US20230350949A1 (en) 2023-11-02

Similar Documents

Publication Publication Date Title
US10606946B2 (en) Learning word embedding using morphological knowledge
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
Wang et al. Common sense knowledge for handwritten chinese text recognition
US20130007020A1 (en) Method and system of extracting concepts and relationships from texts
Syed et al. Lexicon based sentiment analysis of Urdu text using SentiUnits
CN110990532A (zh) 一种处理文本的方法和装置
US11183175B2 (en) Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: a case of Hindi, Odia and Bhojpuri
Banik et al. Gru based named entity recognition system for bangla online newspapers
JP2023134810A (ja) 文書検索方法
WO2021079230A1 (ja) 文書検索システム
Al Omari et al. Hybrid CNNs-LSTM deep analyzer for arabic opinion mining
US20230282018A1 (en) Generating weighted contextual themes to guide unsupervised keyphrase relevance models
WO2021140406A1 (ja) 文書検索システム、文書を検索する方法
Barteld et al. Token-based spelling variant detection in Middle Low German texts
CN116804998A (zh) 基于医学语义理解的医学术语检索方法和系统
Khaing et al. Stock trend extraction using rule-based and syntactic feature-based relationships between named entities
Kosmajac et al. Automatic text summarization of news articles in serbian language
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
Kim et al. Detection of document modification based on deep neural networks
WO2022090849A1 (ja) 読解支援システム及び読解支援方法
Ma et al. Study of Tibetan text classification based on fastText
JP7453987B2 (ja) 文書データ処理方法、及び、文書データ処理システム
WO2021005433A1 (ja) 読解支援システム及び読解支援方法
Bruttan et al. Research of approaches to the recognition of semantic images of scientific publications based on neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912904

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021569602

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912904

Country of ref document: EP

Kind code of ref document: A1