WO2021079230A1 - 文書検索システム - Google Patents

文書検索システム Download PDF

Info

Publication number
WO2021079230A1
WO2021079230A1 PCT/IB2020/059619 IB2020059619W WO2021079230A1 WO 2021079230 A1 WO2021079230 A1 WO 2021079230A1 IB 2020059619 W IB2020059619 W IB 2020059619W WO 2021079230 A1 WO2021079230 A1 WO 2021079230A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
graph structure
function
processing unit
token
Prior art date
Application number
PCT/IB2020/059619
Other languages
English (en)
French (fr)
Inventor
桃純平
郷戸宏充
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to CN202080074162.3A priority Critical patent/CN114600096A/zh
Priority to US17/766,557 priority patent/US20230026321A1/en
Priority to JP2021553167A priority patent/JPWO2021079230A1/ja
Publication of WO2021079230A1 publication Critical patent/WO2021079230A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • One aspect of the present invention relates to a document retrieval system. Also, one aspect of the present invention relates to a method of retrieving a document.
  • a word (character string) search is mainly used.
  • a page rank or the like is used in a web page, and a thesaurus is used in the patent field.
  • Patent Document 1 discloses a language processing apparatus that compares whether sentences are similar by converting a structural unit constituting a sentence into a string structure and calculating a distance between the string structures.
  • one aspect of the present invention is to provide a document retrieval system in consideration of the concept of a document.
  • Another object of the present invention is to provide a method for searching a document in consideration of the concept of the document.
  • One aspect of the present invention is a document retrieval system having an input unit, a first processing unit, a storage unit, a second processing unit, and an output unit.
  • the input unit has a function of inputting a first document
  • the first processing unit has a function of creating a first graph structure from the first document
  • the storage unit has a second graph.
  • the second processing unit has a function of storing the structure
  • the second processing unit has a function of calculating the similarity between the first graph structure and the second graph structure
  • the output unit has a function of supplying information.
  • the first processing unit has a function of dividing the first document into a plurality of tokens, the nodes and edges of the first graph structure have a label, and the label has a plurality of tokens. Consists of.
  • the first processing unit has a function of giving a part of speech to a token.
  • the first processing unit has a function of performing dependency analysis, and the first processing unit has a function of concatenating a part of tokens according to the result of the dependency analysis. It is preferable to have.
  • the first processing unit has a function of replacing a token in which a representative word or a hypernym exists with a representative word or a hypernym.
  • the second graph structure is created from the second document in the first processing unit.
  • the first processing unit when the edge label of the graph structure has an antonym, the first processing unit reverses the direction of the edge of the graph structure and replaces the edge label with the antonym. , It is preferable to have a function of generating a new graph structure.
  • the second processing unit vectorizes the first graph structure and the second graph structure into a vectorized first graph structure and a vectorized second graph structure. It preferably has a function of evaluating the similarity between the graph structure and the vector.
  • the second processing unit has a function of vectorizing the first graph structure and the second graph structure by the Weisfiler-Lehman kernel.
  • the processing unit of the above has a function of connecting the second token and the first token.
  • the first processing unit Preferably has a function of linking the third token and the fourth token.
  • the present invention it is possible to provide a document retrieval system in consideration of the concept of a document. Further, according to one aspect of the present invention, it is possible to provide a method for searching a document in consideration of the concept of the document.
  • the effect of one aspect of the present invention is not limited to the effects listed above.
  • the effects listed above do not preclude the existence of other effects.
  • the other effects are the effects not mentioned in this item, which are described below. Effects not mentioned in this item can be derived from those described in the specification, drawings, etc. by those skilled in the art, and can be appropriately extracted from these descriptions.
  • one aspect of the present invention has at least one of the above-listed effects and / or other effects. Therefore, one aspect of the present invention may not have the effects listed above in some cases.
  • FIG. 1 is a diagram showing an example of a document retrieval system.
  • FIG. 2 is a flowchart showing an example of a method of searching a document.
  • 3A to 3C are diagrams showing the results obtained in each step.
  • 4A to 4C are diagrams showing the results obtained in each step.
  • 5A to 5D are diagrams showing the results obtained in each step.
  • 6A to 6C are diagrams showing the results obtained in each step.
  • FIG. 7 is a diagram showing an example of the hardware of the document retrieval system.
  • FIG. 8 is a diagram showing an example of hardware of a document retrieval system.
  • FIG. 1 is a diagram showing a configuration of a document retrieval system 100. That is, it can be said that FIG. 1 is also an example of the configuration of the document retrieval system which is one aspect of the present invention.
  • the document retrieval system 100 may be provided in an information processing device such as a personal computer used by the user.
  • the server may be provided with a processing unit of the document retrieval system 100, and may be accessed and used from the client PC via the network.
  • the document retrieval system 100 includes an input unit 101, a graph structure creation unit 102, a similarity calculation unit 103, an output unit 104, and a storage unit 105.
  • the processing unit includes a graph structure creation unit 102 and a similarity calculation unit 103.
  • the input unit 101 inputs the document 20.
  • Document 20 is a document designated by the user for search.
  • Document 20 is text data, voice data, or image data.
  • the input unit 101 includes input devices such as a keyboard, a mouse, a touch sensor, a microphone, a scanner, and a camera.
  • the document retrieval system 100 may have a function of converting voice data into text data.
  • the graph structure creation unit 102 may have the function.
  • the document retrieval system 100 may further have a voice-to-text conversion unit having the function.
  • the document retrieval system 100 may have an optical character recognition (OCR) function. As a result, the characters included in the image data can be recognized and the text data can be created.
  • OCR optical character recognition
  • the graph structure creation unit 102 may have the function.
  • the document retrieval system 100 may further have a character recognition unit having the function.
  • the storage unit 105 stores documents 10_1 to 10_n (n is an integer of 2 or more). Documents 10_1 to 10_n are documents to be compared with the document 20. Hereinafter, the documents 10_1 to 10_n may be collectively referred to as a plurality of documents 10. The plurality of documents 10 are stored in the storage unit 105 via the input unit 101, the storage medium, communication, and the like.
  • the plurality of documents 10 stored in the storage unit 105 are preferably text data.
  • the data size can be reduced and the load on the storage unit 105 can be reduced.
  • the storage unit 105 stores the graph structure 11_1 to the graph structure 11_n.
  • the graph structures 11_1 to 11_n are graph structures for documents 10_1 to 10_n, respectively.
  • the graph structures 11_1 to 11_n are created by the graph structure creation unit 102 from the documents 10_1 to 10_n, respectively.
  • the graph structures 11_1 to 11_n may be collectively referred to as a plurality of graph structures 11.
  • the same ID is assigned to the document 10_i (i is an integer of 1 or more and n or less) and the graph structure 11_i.
  • the document 10_i and the graph structure 11_i can be associated with each other.
  • the document 20 may be stored in the storage unit 105. Further, the graph structure 21 for the document 20 may be stored. The graph structure 21 is created from the document 20 by the graph structure creation unit 102.
  • the graph structure creation unit 102 has a function of creating a graph structure from a document. Therefore, it is preferable that the graph structure creating unit 102 has a function of performing morphological analysis, a function of performing dependency analysis, a function of abstracting, and a function of creating a graph structure. Further, the graph structure creation unit 102 has a function of referring to the concept dictionary 112. With reference to the concept dictionary 112, the graph structure creation unit 102 creates a graph structure for the document.
  • the documents are the document 20 and the plurality of documents 10.
  • the graph structure is preferably a directed graph.
  • a directed graph is a graph composed of nodes and edges with orientations. Further, it is more preferable that the graph structure is a directed graph in which the nodes and edges are labeled. By using the graph structure of the labeled directed graph, the similarity and the accuracy of the search can be improved.
  • FIG. 1 shows a configuration in which the concept dictionary 112 is provided in a device different from the document retrieval system 100, but the present invention is not limited to this.
  • the concept dictionary 112 may be provided in the document retrieval system 100.
  • the function of performing morphological analysis and the function of performing dependency analysis may be provided in a device different from the document retrieval system 100.
  • the document retrieval system 100 transmits the above document to the device, receives the data of the results of the morphological analysis and the dependency analysis performed by the device, and transmits the received data to the graph structure creation unit 102. It is good to do.
  • the similarity calculation unit 103 has a function of calculating the similarity between the first graph structure and the second graph structure.
  • the first graph structure is the graph structure 21.
  • the second graph structure is one or more of the plurality of graph structures 11. That is, the similarity calculation unit 103 evaluates the similarity between the first document and the second document.
  • the first document is document 20.
  • the second document is one or more of the plurality of documents 10.
  • the output unit 104 has a function of supplying information.
  • the information is information regarding the result of the similarity calculated by the similarity calculation unit 103.
  • the information is the document having the highest degree of similarity to the document 20 among the plurality of documents 10.
  • the information is the result of rearranging the pairs of the document 10_i and the similarity between the document 20 and the document 10_i in descending order of similarity. At this time, the number of the pairs is 2 or more and n or less.
  • the above information is supplied as, for example, visual information such as character strings, numerical values, graphs, audio information, and the like.
  • the output unit 104 includes an output device such as a display and a speaker.
  • the document retrieval system 100 may have a function of converting text data into voice data.
  • the document retrieval system 100 may further have a text-to-speech conversion unit having the function.
  • a document conceptually similar to the document 20 can be searched from among a plurality of documents 10. Further, a list of documents conceptually similar to the document 20 can be searched from among the plurality of documents 10.
  • FIG. 2 is a flowchart illustrating a flow of processing executed by the document retrieval system 100. That is, it can be said that FIG. 2 is also a flowchart showing an example of a method for searching a document, which is one aspect of the present invention.
  • the document is searched by analyzing the document into a graph structure and then comparing the similarity of the graph structure with a Weisfiler-Lehman (WL) kernel or the like. ..
  • Step S001 is a step of acquiring a plurality of documents 10.
  • the plurality of documents 10 are documents stored in the storage unit 105.
  • the plurality of documents 10 are stored in the storage unit 105 via the input unit 101, the storage medium, communication, and the like.
  • the documents may be cleaned for each of the plurality of documents 10 before proceeding to step S002.
  • Cleaning a document is, for example, removing a semicolon, replacing a colon with a comma, and so on. By cleaning the document, the accuracy of morphological analysis can be improved.
  • the cleaning of the above-mentioned documents may be appropriately performed as necessary even when the plurality of documents 10 are outside the scope of claims (claims). Further, the plurality of documents 10 may be stored in the storage unit 105 after the above documents have been cleaned.
  • Step S002 is a step in which the graph structure creation unit 102 performs morphological analysis on each of the plurality of documents 10.
  • each of the plurality of documents 10 is divided into morphemes.
  • the divided morpheme may be referred to as a token.
  • step S002 it is preferable to determine the part of speech of the morpheme (token) and associate the part of speech label with each of the divided morphemes (tokens).
  • the accuracy of dependency analysis can be improved.
  • associating a morpheme (token) with a part of speech label can be paraphrased as giving a part of speech to the morpheme (token).
  • step S002 is a step of transmitting a plurality of documents 10 to the device, performing morphological analysis on the device, and receiving data as a result of the morphological analysis.
  • Step S003 is a step in which the graph structure creation unit 102 performs dependency analysis. That is, it is a process of combining a part of a plurality of tokens according to the dependency of each of the divided morphemes (tokens). For example, when tokens satisfy a specific condition, tokens satisfying the conditions are combined to generate a new token.
  • the token of the jth (j is an integer of 2 or more) is a noun, and the token located immediately before the token of the jth (the first).
  • the token of (j-1) is an adjective
  • the token of the (j-1) th and the token of the jth (j-1) are combined to generate a new token.
  • the j-th token is a noun and the token located immediately after the j-th token (referred to as the (j + 1) token) is a noun
  • the j-th token and the (j + 1) th (j + 1) Combine with the token of to generate a new token.
  • the dependency analysis includes compound word analysis.
  • the dependency analysis it is possible to combine a part of a plurality of tokens and generate a compound word as a new token. As a result, even if the document contains compound words that are not registered in the concept dictionary 112, the document can be divided into tokens with high accuracy.
  • step S003 is a step of transmitting the divided morpheme (token) to the device, performing the dependency analysis on the device, and receiving the data of the result of the dependency analysis.
  • Step S004 is a step of abstracting the token in the graph structure creation unit 102.
  • the word contained in the token is analyzed to obtain the representative word. If the representative word has a hypernym, the hypernym is acquired. Then, the token is replaced with the acquired representative word or the hypernym.
  • the representative word is a headword (also referred to as a lemma) of a group of synonyms.
  • the hypernym is a representative word that corresponds to the superordinate concept of the representative word.
  • token abstraction refers to replacing a token with a representative word or a hypernym. If the token is a representative word or a hypernym, the token does not have to be replaced.
  • the upper limit of the hierarchy of hypernyms to be replaced is preferably 1 or more and 2 or less, and more preferably 1.
  • the upper limit of the hierarchy of hypernyms to be replaced may be specified. As a result, it is possible to prevent the token from being over-conceptualized.
  • the appropriate level of abstraction of tokens varies from field to field. Therefore, it is preferable to abstract the token by machine learning according to the field.
  • the token abstraction is implemented, for example, by vectorizing the token with the morphemes contained in the token and classifying it by a classifier.
  • a classifier an algorithm such as a decision tree, a support vector machine, a random forest, or a multi-layer perceptron may be used. Specifically, "oxide semiconductor”, “amorphous semiconductor”, “silicon semiconductor”, and “GaAs semiconductor” may be classified into “semiconductor".
  • oxide semiconductor layer may also be classified as “semiconductor”.
  • a classifier may be used to classify whether or not the morpheme contained in the token should be extracted. For example, when abstracting a token called “oxide semiconductor layer”, the token is decomposed into morphemes again, and the decomposed morphemes “oxidation”, "object”, “semiconductor”, and “layer” are classified. Enter in. If it is classified as “semiconductor” as a result of inputting to the classifier, the token is replaced with "semiconductor". This makes it possible to abstract the token.
  • conditional random field may be used.
  • the CRF may be combined with the above method.
  • the document By abstracting the token, the document can be grasped conceptually. Therefore, it is not easily affected by the structure and expression of the document, and the search can be performed by the conceptual factor of the document.
  • the representative words and hypernyms may be acquired by using a concept dictionary or by machine learning.
  • a concept dictionary 112 provided in a device different from the document retrieval system 100 may be used, or a concept dictionary provided in the document retrieval system 100 may be used.
  • Step S005 is a step of creating a plurality of graph structures 11 by the graph structure creation unit 102. That is, it is a step of creating a graph structure using the tokens prepared up to step S004 as nodes or edges. Specifically, if the document contains a first token and a second token that are noun phrases and a third token that represents the relationship between the first token and the second token, the first token. A graph structure is created in which the first and second tokens are used as labels for the node and the node, and the third token is used as the edge and the label for the edge. That is, the node label and the edge label are composed of the tokens prepared up to step S004.
  • the nodes of the graph structure are the components, and the edges of the graph structure are the relationships between the components.
  • the nodes of the graph structure are A and B, and the edge of the graph structure is a detailed condition.
  • the graph structure may be created based on the rules due to the dependency between tokens.
  • CRF may be used to perform machine learning to label nodes and edges based on a list of tokens. This allows you to label nodes and edges based on the list of tokens.
  • a Seq2Seq model that inputs a list of tokens and outputs the orientation of nodes and edges using a recurrent neural network (RNN), long short-term memory (LSTM), etc. You may study. This makes it possible to output the orientation of nodes and edges from the list of tokens.
  • RNN recurrent neural network
  • LSTM long short-term memory
  • the graph structure creation unit 102 may have a function of reversing the direction of the edge and replacing the label of the edge with a synonym of the label of the edge. For example, if the graph structure has a first edge and a second edge labeled with a label that is synonymous with the label of the first edge, the orientation of the second edge is reversed and , The graph structure may be newly created by performing the process of replacing the label of the second edge with the antonym of the label of the second edge (that is, the label of the first edge). This makes it possible to cover the same conceptual structure. Therefore, it is not easily affected by the structure and expression of the document, and the search can be performed by the conceptual factor of the document.
  • the above processing should be performed on the edge that appears less frequently in the document. That is, when the appearance frequency of the second edge is lower than or the same as the appearance frequency of the first edge, the direction of the second edge is reversed and the label of the second edge is changed to the second edge. It is advisable to perform the process of replacing the label with the antonym of the label (that is, the label of the first edge). This makes it possible to reduce the frequency of creating new graph structures.
  • steps S004 and step S005 may be changed.
  • the order of steps S004 and S005 is changed, the nodes and edges included in the graph structure are abstracted after the graph structure is created. Therefore, even if the order of step S004 and step S005 is changed, an abstract graph structure can be created from the document.
  • step S001 to step S005 a plurality of graph structures 11 can be created from a plurality of documents 10. It is preferable that steps S001 to S005 are performed before the similarity is calculated. By creating a plurality of graph structures 11 in advance, the time required to search the document can be shortened.
  • Step S011 is a step of acquiring the document 20.
  • the document 20 is a document input by the input unit 101.
  • the document 20 is converted into text data before proceeding to step S012.
  • the conversion to text data is the function of converting the voice data of the graph structure creation unit 102 into text data, the voice text conversion unit, the optical character recognition (OCR) function of the graph structure creation unit 102, or character recognition. It is good to use the part.
  • the document 20 When the document 20 is within the scope of claims (claims), the document 20 may be cleaned as described above before proceeding to step S012. By cleaning the document, the accuracy of morphological analysis can be improved. Even if the document 20 is outside the scope of claims (claims), the cleaning of the document may be appropriately performed as necessary.
  • Step S012 is a step in which the graph structure creation unit 102 performs morphological analysis on the document 20. Since step S012 is the same process as step S002, the description of step S002 can be taken into consideration.
  • Step S013 is a step of performing dependency analysis in the graph structure creation unit 102. Since step S013 is the same process as step S003, the description of step S003 can be taken into consideration.
  • Step S014 is a step of abstracting the token in the graph structure creation unit 102. Since step S014 is the same process as step S004, the description of step S004 can be taken into consideration.
  • Step S015 is a step of creating the graph structure 21 by the graph structure creating unit 102. Since step S015 is the same process as step S005, the description of step S005 can be taken into consideration.
  • Step S016 is a step in which the similarity calculation unit 103 evaluates the similarity between the document 20 and each of the plurality of documents 10. Specifically, the graph structure 21 and the plurality of graph structures 11 are vectorized by the WL kernel, and the degree of vector similarity between the vectorized graph structure 21 and each of the plurality of vectorized graph structures 11 is determined. evaluate.
  • Step S017 is a step of outputting information by the output unit 104.
  • the information is information regarding the result of the similarity calculated by the similarity calculation unit 103.
  • the oxide semiconductor layer is above the insulator layer (SANKABUTSUHANDOUTAISOU HA ZETSUENTAISOU NO JOUHOU NI ARU)" (see Fig. 3A) will be described as an example.
  • the rounded quadrangle shown in FIGS. 3B, 3C, and 4A is a token, and the part of speech given to the token is described below the rounded quadrangle.
  • the above document is divided into tokens, and a part of speech is given to each token (step S002 and step S012 shown in FIG. 2). As a result, the result shown in FIG. 3B is obtained.
  • step S003 and step S013 shown in FIG. 2 the dependency analysis is performed (step S003 and step S013 shown in FIG. 2).
  • step S003 the result shown in FIG. 3C is obtained.
  • oxidation (SANKA) and "object (BUTSU)”, “object (BUTSU)” and “semiconductor (HANDOUTAI)”, and “semiconductor (HANDOUTAI)” and “layer (SOU)” are The condition described in step S003 is satisfied. Therefore, the four tokens (“oxidation (SANKA)”, “object (BUTSU)”, “semiconductor (HANDOUTAI)”, “layer (SOU)”) are combined into one token (“oxide semiconductor layer (SANKABUTSUHANDOUTAISOU)). Can be replaced with ").
  • step S004 and step S014 shown in FIG. 2 the token is abstracted (step S004 and step S014 shown in FIG. 2).
  • step S004 and step S014 shown in FIG. 2 the result shown in FIG. 4A is obtained.
  • oxide semiconductor layer SANKABUTSUHANDOUTAISOU
  • hypernym semiconductor layer
  • insulator layer ZTSUENTAISOU
  • ZTSUENTAI hypernym
  • JOUHOU is replaced with the representative word "UE”.
  • step S005 and step S015 shown in FIG. 2 As a result, the result shown in FIG. 4B is obtained.
  • semiconductor (HANDOUTAI)” and “insulator (ZETSUENTAI)” are the nodes of the graph structure and the labels of the nodes
  • top (UE) is the edges of the graph structure and the labels of the edges. It becomes.
  • the antonym of "upper (UE)” is “lower (SHITA)”. Therefore, by inverting the arrow of the graph structure shown in FIG. 4B and replacing the edge of the graph structure shown in FIG. 4B and the label “top (UE)” of the edge with “bottom (SHITA)”, the figure is shown.
  • the graph structure shown in 4C may be newly generated. This makes it possible to cover the same conceptual structure.
  • the arrows shown in FIGS. 4B and 4C indicate the nodes appearing first in the document (“HANDOUTAI” in the case of the above document) and the nodes appearing later (“ZETSUENTAI” in the case of the above document). ) Is shown. That is, the start point of the arrow is the node that appears first, and the end point of the arrow is the node that appears later.
  • the present embodiment is not limited to this.
  • the direction of the arrow may be determined based on the semantic relationship between words such as the positional relationship.
  • the start point of the arrow is a node whose label is "insulator (ZETSUENTAI)"
  • the end point of the arrow is a node whose label is “semiconductor (HANDOUTAI)”.
  • the method of determining the direction of the arrow needs to be unified in the method of searching the document.
  • FIGS. 5C, 5D, and 6A The rounded quadrangle shown in FIGS. 5C, 5D, and 6A is a token. Although an example in which a part of speech is not given to the token is shown here, a part of speech may be given to the token.
  • the document is divided into tokens by performing morphological analysis on the document (step S002 and step S012 shown in FIG. 2).
  • the result shown in FIG. 5C is obtained.
  • the above document describes "A”
  • step S003 and step S013 shown in FIG. 2 the dependency analysis is performed (step S003 and step S013 shown in FIG. 2).
  • the result shown in FIG. 5D is obtained.
  • three tokens (“A”, “semiconductor device”, “device”) can be combined and replaced with one token (“A semiconductor device”).
  • four tokens (“an”, “oxide”, “semiconductor”, “layer”) can be combined and replaced with one token (“an oxide semiconductor layer”).
  • three tokens (“an”, “insulator”, “layer”) can be combined and replaced with one token (“an insulator”).
  • the above document becomes "A semiconductor device”
  • step S004 and step S014 shown in FIG. 2 the token is abstracted (step S004 and step S014 shown in FIG. 2).
  • step S004 and step S014 shown in FIG. 2 the result shown in FIG. 6A is obtained.
  • a semiconductor device is replaced with the hypernym “device”.
  • an oxide semiconductor layer is replaced with the hypernym “a semiconductor controller”.
  • an insulator layer is replaced with the hypernym "an insulator”.
  • step S005 and step S015 shown in FIG. 2 a graph structure is created (step S005 and step S015 shown in FIG. 2).
  • step S005 and step S015 shown in FIG. 2 the result shown in FIG. 6B is obtained.
  • device “semiconductor”, and “insulator” are the nodes of the graph structure and the labels of the nodes, respectively, and “comprising” and “over” are the edges of the graph structure and the relevant nodes, respectively. It becomes the label of the edge.
  • the antonym of "over” is "under”. Therefore, by inverting the arrow of the graph structure shown in FIG. 6B and replacing the edge of the graph structure shown in FIG. 6B and the label “over” of the edge with “under”, the graph structure shown in FIG. 6C can be obtained. It may be newly generated. This makes it possible to cover the same conceptual structure.
  • the arrows shown in FIGS. 6B and 6C are shown so as to go from the node that appears first in the document (“semiconductor” in the case of the above document) to the node that appears later (“insulator” in the case of the above document). ing. That is, the start point of the arrow is the node that appears first, and the end point of the arrow is the node that appears later.
  • the present embodiment is not limited to this.
  • the direction of the arrow may be determined based on the semantic relationship between words such as the positional relationship.
  • the start point of the arrow is a node whose label is "insulator”
  • the end point of the arrow is a node whose label is “semiconductor”
  • the edge between these nodes and the label of the edge are "over”.
  • the document retrieval system of the present embodiment can easily search for a document by using the method of searching for a document shown in the first embodiment.
  • FIG. 7 shows a block diagram of the document retrieval system 200.
  • the components are classified by function and the block diagram is shown as blocks independent of each other.
  • a component may be involved in multiple functions.
  • one function may be related to a plurality of components.
  • the processing performed by the processing unit 202 may be executed by different servers depending on the processing.
  • the document retrieval system 200 has at least a processing unit 202.
  • the document retrieval system 200 shown in FIG. 7 further includes an input unit 201, a storage unit 203, a database 204, a display unit 205, and a transmission line 206.
  • a document is supplied to the input unit 201 from the outside of the document retrieval system 200.
  • the document is a document designated by the user for searching, and corresponds to the document 20 shown in the first embodiment.
  • a plurality of documents may be supplied to the input unit 201 from the outside of the document retrieval system 200.
  • the plurality of documents are documents to be compared with the above-mentioned documents, and correspond to the plurality of documents 10 shown in the first embodiment.
  • the plurality of documents supplied to the input unit 201 and the documents are supplied to the processing unit 202, the storage unit 203, or the database 204, respectively, via the transmission line 206.
  • the plurality of documents and the above documents are input as, for example, text data, voice data, or image data.
  • the plurality of documents are preferably input as text data.
  • Examples of the input method of the above document include key input using a keyboard, touch panel, etc., voice input using a microphone, reading from a recording medium, image input using a scanner, a camera, etc., acquisition using communication, and the like. Can be mentioned.
  • the document retrieval system 200 may have a function of converting voice data into text data.
  • the processing unit 202 may have the function.
  • the document retrieval system 200 may further have a voice conversion unit having the function.
  • the document retrieval system 200 may have an optical character recognition (OCR) function. As a result, the characters included in the image data can be recognized and the text data can be created.
  • OCR optical character recognition
  • the processing unit 202 may have the function.
  • the document retrieval system 200 may further have a character recognition unit having the function.
  • the processing unit 202 has a function of performing an operation using data supplied from the input unit 201, the storage unit 203, the database 204, and the like.
  • the processing unit 202 can supply the calculation result to the storage unit 203, the database 204, the display unit 205, and the like.
  • the processing unit 202 includes the graph structure creation unit 102 and the similarity calculation unit 103 shown in the first embodiment. That is, the processing unit 202 has a function of performing morphological analysis, a function of performing dependency analysis, a function of abstracting, and a function of creating a graph structure.
  • a transistor having a metal oxide in the channel forming region may be used for the processing unit 202. Since the transistor has an extremely small off-current, the data retention period can be secured for a long period of time by using the transistor as a switch for holding the electric charge (data) that has flowed into the capacitive element that functions as a storage element. ..
  • the processing unit 202 is operated only when necessary, and in other cases, the information of the immediately preceding processing is saved in the storage element. This makes it possible to turn off the processing unit 202. That is, normally off-computing becomes possible, and the power consumption of the document retrieval system 200 can be reduced.
  • a transistor using an oxide semiconductor in the channel forming region is referred to as an Oxide Semiconductor transistor (OS transistor).
  • OS transistor Oxide Semiconductor transistor
  • the channel forming region of the OS transistor preferably has a metal oxide.
  • the metal oxide contained in the channel forming region preferably contains indium (In).
  • the metal oxide contained in the channel forming region is a metal oxide containing indium, the carrier mobility (electron mobility) of the OS transistor becomes high.
  • the metal oxide contained in the channel forming region preferably contains the element M.
  • the element M is preferably aluminum (Al), gallium (Ga), or tin (Sn).
  • Other elements applicable to element M include boron (B), titanium (Ti), iron (Fe), nickel (Ni), germanium (Ge), yttrium (Y), zirconium (Zr), and molybdenum (Mo).
  • the element M a plurality of the above-mentioned elements may be combined in some cases.
  • the element M is, for example, an element having a high binding energy with oxygen.
  • it is an element whose binding energy with oxygen is higher than that of indium.
  • the metal oxide contained in the channel forming region preferably contains zinc (Zn). Metal oxides containing zinc may be more likely to crystallize.
  • the metal oxide contained in the channel forming region is not limited to the metal oxide containing indium.
  • the metal oxide contained in the channel forming region is, for example, a metal oxide containing zinc, a metal oxide containing zinc, a metal oxide containing gallium, a metal oxide containing tin, and the like, such as zinc tin oxide and gallium tin oxide. It doesn't matter if there is.
  • processing unit 202 may use a transistor containing silicon in the channel forming region.
  • processing unit 202 may use a transistor containing an oxide semiconductor in the channel forming region and a transistor containing silicon in the channel forming region in combination.
  • the processing unit 202 has, for example, an arithmetic circuit or a central processing unit (CPU: Central Processing Unit) or the like.
  • the processing unit 202 may have a microprocessor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit).
  • the microprocessor may have a configuration realized by a PLD (Programmable Logic Device) such as FPGA (Field Programmable Gate Array) or FPAA (Field Programmable Analog Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • FPAA Field Programmable Analog Array
  • the processing unit 202 can perform various data processing and program control by interpreting and executing instructions from various programs by the processor.
  • the program that can be executed by the processor is stored in at least one of the memory area and the storage unit 203 of the processor.
  • the processing unit 202 may have a main memory.
  • the main memory has at least one of a volatile memory such as RAM and a non-volatile memory such as ROM.
  • the RAM for example, a DRAM (Dynamic Random Access Memory), a SRAM (Static Random Access Memory), or the like is used, and a memory space is virtually allocated and used as a work space of the processing unit 202.
  • the operating system, application program, program module, program data, lookup table, and the like stored in the storage unit 203 are loaded into the RAM for execution. These data, programs, and program modules loaded into the RAM are each directly accessed and operated by the processing unit 202.
  • the ROM can store BIOS (Basic Input / Output System), firmware, etc. that do not require rewriting.
  • BIOS Basic Input / Output System
  • Examples of the ROM include a mask ROM, an OTPROM (One Time Program Read Only Memory), an EPROM (Erasable Program Read Only Memory), and the like.
  • Examples of EPROM include UV-EPROM (Ultra-Violet Erasable Program Read Only Memory), EEPROM (Electrical Lyl Erasable Program Memory), etc., which enable erasure of stored data by irradiation with ultraviolet rays.
  • the storage unit 203 has a function of storing a program executed by the processing unit 202. Further, the storage unit 203 may have, for example, a function of storing the calculation result generated by the processing unit 202 and the data input to the input unit 201. Specifically, it is preferable that the storage unit 203 has a function of storing the graph structure generated by the processing unit 202 (for example, the graph structure 21 shown in the first embodiment), the calculated result of similarity, and the like.
  • the storage unit 203 has at least one of a volatile memory and a non-volatile memory.
  • the storage unit 203 may have, for example, a volatile memory such as a DRAM or SRAM.
  • the storage unit 203 includes, for example, ReRAM (Resistive Random Access Memory, also referred to as resistance change type memory), PRAM (Phase change Random Access Memory), FeRAM (Ferroelectric Random Access Memory), FeRAM (Ferroelectric Random Access Memory) Also referred to as), or may have a non-volatile memory such as a flash memory.
  • the storage unit 203 may have a recording media drive such as a hard disk drive (Hard Disk Drive: HDD) and a solid state drive (Solid State Drive: SSD).
  • the document retrieval system 200 may have a database 204.
  • the database 204 has a function of storing a plurality of documents and a plurality of graph structures for each of the plurality of documents.
  • a method of searching for a document of one aspect of the present invention may be used for the plurality of documents stored in the database 204.
  • the concept dictionary may be stored in the database 204.
  • the storage unit 203 and the database 204 do not have to be separated from each other.
  • the document retrieval system 200 may have a storage unit having both functions of the storage unit 203 and the database 204.
  • the memories of the processing unit 202, the storage unit 203, and the database 204 can be said to be examples of non-temporary computer-readable storage media, respectively.
  • the display unit 205 has a function of displaying the calculation result of the processing unit 202.
  • the display unit 205 has a function of displaying the compared documents and the result of the similarity.
  • the display unit 205 may have a function of displaying a document designated for search.
  • the document retrieval system 200 may have an output unit.
  • the output unit has a function of supplying data to the outside.
  • the transmission line 206 has a function of transmitting various data. Data can be transmitted / received between the input unit 201, the processing unit 202, the storage unit 203, the database 204, and the display unit 205 via the transmission line 206. For example, data such as a document designated by the user for search and a graph structure for a document to be compared with the document is transmitted and received via the transmission line 206.
  • FIG. 8 shows a block diagram of the document retrieval system 210.
  • the document retrieval system 210 includes a server 220 and a terminal 230 (such as a personal computer).
  • the server 220 has a processing unit 202, a transmission line 212, a storage unit 213, and a communication unit 217a. Although not shown in FIG. 8, the server 220 may further include an input / output unit and the like.
  • the terminal 230 has an input unit 201, a storage unit 203, a display unit 205, a transmission line 216, a communication unit 217b, and a processing unit 218. Although not shown in FIG. 8, the terminal 230 may further have a database or the like.
  • the user of the document retrieval system 210 inputs a document into the input unit 201 of the terminal 230.
  • the document is a document designated by the user for searching, and corresponds to the document 20 shown in the first embodiment.
  • the document is transmitted from the communication unit 217b of the terminal 230 to the communication unit 217a of the server 220.
  • the above-mentioned document received by the communication unit 217a is stored in the storage unit 213 via the transmission line 212.
  • the above document may be directly supplied from the communication unit 217a to the processing unit 202.
  • the processing unit 202 included in the server 220 has a higher processing capacity than the processing unit 218 included in the terminal 230. Therefore, it is preferable that the graph structure is created and the similarity is calculated by the processing unit 202.
  • the degree of similarity is calculated by the processing unit 202.
  • the similarity is stored in the storage unit 213 via the transmission line 212.
  • the similarity may be directly supplied from the processing unit 202 to the communication unit 217a.
  • the similarity is transmitted from the communication unit 217a of the server 220 to the communication unit 217b of the terminal 230.
  • the similarity is displayed on the display unit 205 of the terminal 230.
  • Transmission line 212 and transmission line 216 have a function of transmitting data. Data can be transmitted and received between the processing unit 202, the storage unit 213, and the communication unit 217a via the transmission line 212. Data can be transmitted and received between the input unit 201, the storage unit 203, the display unit 205, the communication unit 217b, and the processing unit 218 via the transmission line 216.
  • the processing unit 202 has a function of performing an operation using data supplied from the storage unit 213, the communication unit 217a, and the like.
  • the processing unit 218 has a function of performing an operation using data supplied from the input unit 201, the storage unit 203, the display unit 205, the communication unit 217b, and the like.
  • the processing unit 202 and the processing unit 218 can refer to the description of the processing unit 202.
  • the processing unit 202 preferably has a higher processing capacity than the processing unit 218.
  • the storage unit 203 has a function of storing a program executed by the processing unit 218. Further, the storage unit 203 has a function of storing the calculation result generated by the processing unit 218, the data input to the communication unit 217b, the data input to the input unit 201, and the like.
  • the storage unit 213 has a function of storing a plurality of documents, a graph structure for each of the plurality of documents, a calculation result generated by the processing unit 202, data input to the communication unit 217a, and the like.
  • Communication unit 217a and communication unit 217b Data can be transmitted and received between the server 220 and the terminal 230 by using the communication unit 217a and the communication unit 217b.
  • a hub, a router, a modem, or the like can be used as the communication unit 217a and the communication unit 217b.
  • Wired or wireless for example, radio waves, infrared rays, etc. may be used for transmitting and receiving data.
  • the communication between the server 220 and the terminal 230 is performed on the Internet, intranet, extranet, PAN (Personal Area Network), LAN (Local Area Network), CAN (Campus Area Network), which are the foundations of the World Wide Web (WWW). This may be done by connecting to a computer network such as MAN (Metropolitan Area Network), WAN (Wide Area Network), and GAN (Global Area Network).
  • MAN Micropolitan Area Network
  • WAN Wide Area Network
  • GAN Global Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書の概念を考慮して、文書を検索する文書検索システムを提供する。 文書検索システム(100)は、入力部(101)と、第1の処理部(102)と、格納部(105)と、第2の処理部(103)と、出力部(104)と、を有し、入力部(101)は、第1の文書(20)を入力する機能を有し、第1の処理部(102)は、第1の文書(20)から、第1のグラフ構造(21)を作成する機能を有し、格納部(105)は、第2のグラフ構造(11)を格納する機能を有し、第2の処理部(103)は、第1のグラフ構造(21)と、第2のグラフ構造(11)と、の類似度を算出する機能を有し、出力部(104)は、情報を供給する機能を有し、第1の処理部(102)は、第1の文書(20)を、複数のトークンに分割する機能を有し、第1のグラフ構造(21)のノードおよびエッジは、ラベルを有し、ラベルは、複数のトークンから構成される。

Description

文書検索システム
 本発明の一態様は、文書検索システムに関する。また、本発明の一態様は、文書を検索する方法に関する。
 文書を検索するための、様々な検索技術が提供されている。従来の文書の検索では、単語(文字列)の検索が主に用いられる。例えば、webページではページランクなどが利用され、特許分野ではシソーラスが利用されている。また、単語の集合を取ってJaccard係数、Dice係数、Simpson係数などを用いて、文書の類似度を表現する方法がある。また、tf−idf、Bag of Words(BoW)、Doc2Vecなどを用いて、文書をベクトル化し、コサイン類似度を比較するといった手法がある。また、ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離などを用いて、文章の文字列の類似度を評価して所望の文書を探す方法がある。また、特許文献1では、文を構成する構成単位をストリング構造に変換し、ストリング構造間の距離を算出することで、文が類似しているかを比較する言語処理装置が開示されている。
特開2005−258624号公報
 様々な分野の文書を検索するには、より精度の高い文書検索方法が求められる。例えば、特許書類(明細書、特許請求の範囲など)や契約書などの文書では、似通った単語が多用されることが多い。よって、文書に使われている単語のみならず、文書の概念を考慮した検索技術が重要となる。
 そこで、本発明の一態様は、文書の概念を考慮した、文書検索システムを提供することを課題の一とする。また、本発明の一態様は、文書の概念を考慮した、文書を検索する方法を提供することを課題の一とする。
 なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から、自ずと明らかとなるものであり、明細書、図面、請求項などの記載から、これら以外の課題を抽出することが可能である。
 本発明の一態様は、入力部と、第1の処理部と、格納部と、第2の処理部と、出力部と、を有する文書検索システムである。入力部は、第1の文書を入力する機能を有し、第1の処理部は、第1の文書から、第1のグラフ構造を作成する機能を有し、格納部は、第2のグラフ構造を格納する機能を有し、第2の処理部は、第1のグラフ構造と、第2のグラフ構造と、の類似度を算出する機能を有し、出力部は、情報を供給する機能を有し、第1の処理部は、第1の文書を、複数のトークンに分割する機能を有し、第1のグラフ構造のノードおよびエッジは、ラベルを有し、ラベルは、複数のトークンから構成される。
 上記文書検索システムにおいて、第1の処理部は、トークンに品詞を付与する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第1の処理部は、係り受け解析を行う機能を有し、第1の処理部は、係り受け解析の結果に応じて、トークンの一部を連結する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第1の処理部は、代表語または上位語が存在するトークンを、代表語または上位語に置き換える機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第2のグラフ構造は、第1の処理部にて、第2の文書から、作成される、ことが好ましい。
 また、上記文書検索システムにおいて、グラフ構造が有するエッジのラベルが、対義語を有する場合、第1の処理部は、グラフ構造のエッジの向きを反転させ、かつ、エッジのラベルを対義語に置き換えることで、新たなグラフ構造を生成する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第2の処理部は、第1のグラフ構造、および第2のグラフ構造を、ベクトル化し、ベクトル化された第1のグラフ構造と、ベクトル化された第2のグラフ構造と、のベクトルの類似度を評価する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第2の処理部は、第1のグラフ構造、および第2のグラフ構造を、Weisfeiler−Lehmanカーネルによりベクトル化する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第1のトークンに付与された品詞が名詞であり、かつ、第1のトークンの直前に位置する第2のトークンに付与された品詞が形容詞である場合、第1の処理部は、第2のトークンと、第1のトークンと、を連結する機能を有する、ことが好ましい。
 また、上記文書検索システムにおいて、第3のトークンに付与された品詞、および第3のトークンの直後に位置する第4のトークンに付与された品詞がいずれも名詞である場合、第1の処理部は、第3のトークンと、第4のトークンと、を連結する機能を有する、ことが好ましい。
 本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。また、本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。
 文書の各文を解析して概念的なグラフ構造を取得し、グラフ構造の類似度を算出することで、概念的に近い文書の検索を可能とする。また、従来の検索方法を組み合わせることで、順位付けなどの精度を上げることができる。
 なお、本発明の一態様の効果は、上記列挙した効果に限定されない。上記列挙した効果は、他の効果の存在を妨げるものではない。なお、他の効果は、以下の記載で述べる、本項目で言及していない効果である。本項目で言及していない効果は、当業者であれば、明細書、図面などの記載から導き出せるものであり、これらの記載から適宜抽出することができる。なお、本発明の一態様は、上記列挙した効果、及び/又は他の効果のうち、少なくとも一つの効果を有するものである。したがって本発明の一態様は、場合によっては、上記列挙した効果を有さない場合もある。
図1は、文書検索システムの一例を示す図である。
図2は、文書を検索する方法の一例を示すフローチャートである。
図3A乃至図3Cは、各工程で得られる結果を示す図である。
図4A乃至図4Cは、各工程で得られる結果を示す図である。
図5A乃至図5Dは、各工程で得られる結果を示す図である。
図6A乃至図6Cは、各工程で得られる結果を示す図である、
図7は、文書検索システムのハードウェアの一例を示す図である。
図8は、文書検索システムのハードウェアの一例を示す図である。
 実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨およびその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。したがって、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
 なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
 また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。
 また、本明細書にて用いる「第1」、「第2」、「第3」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではないことを付記する。
(実施の形態1)
 本実施の形態では、本発明の一態様の、文書検索システム、および文書を検索する方法について、図1乃至図4Cを用いて説明する。
<文書検索システム>
 図1は、文書検索システム100の構成を示す図である。つまり、図1は、本発明の一態様である文書検索システムの構成の一例でもあるといえる。
 文書検索システム100は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。または、サーバに文書検索システム100の処理部を設け、クライアントPCからネットワーク経由でアクセスして利用する構成としてもよい。
 文書検索システム100は、図1に示すように、入力部101、グラフ構造作成部102、類似度算出部103、出力部104、および格納部105を備える。なお、上記処理部は、グラフ構造作成部102、および類似度算出部103を含む。
 入力部101は、文書20を入力する。文書20は、ユーザが検索用に指定する文書である。文書20は、テキストデータ、音声データ、または画像データである。入力部101として、キーボード、マウス、タッチセンサ、マイク、スキャナ、カメラなどの入力デバイスがある。
 文書検索システム100は、音声データをテキストデータに変換する機能を有していてもよい。例えば、グラフ構造作成部102が当該機能を有していてもよい。または、文書検索システム100が、さらに、当該機能を有する音声テキスト変換部を有していてもよい。
 文書検索システム100は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、グラフ構造作成部102が当該機能を有していてもよい。または、文書検索システム100が、さらに、当該機能を有する文字認識部を有していてもよい。
 格納部105は、文書10_1乃至文書10_n(nは2以上の整数である。)を格納する。文書10_1乃至文書10_nは、文書20の比較対象となる文書である。以降では、文書10_1乃至文書10_nをまとめて、複数の文書10と表記する場合がある。複数の文書10は、入力部101、記憶媒体、通信などを介して、格納部105に格納される。
 格納部105に格納されている複数の文書10は、テキストデータであることが好ましい。例えば、音声データ、または画像データをテキストデータに変換することで、データサイズを小さくすることができ、格納部105への負荷を小さくすることができる。
 また、格納部105は、グラフ構造11_1乃至グラフ構造11_nを格納する。グラフ構造11_1乃至グラフ構造11_nは、それぞれ、文書10_1乃至文書10_nに対するグラフ構造である。なお、グラフ構造11_1乃至グラフ構造11_nは、それぞれ、文書10_1乃至文書10_nから、グラフ構造作成部102にて作成される。以降では、グラフ構造11_1乃至グラフ構造11_nをまとめて、複数のグラフ構造11と表記する場合がある。
 文書10_i(iは1以上n以下の整数である)と、グラフ構造11_iとには、同一のIDが割り振られていることが好ましい。これにより、文書10_iと、グラフ構造11_iとを、関連付けることができる。グラフ構造11_1乃至グラフ構造11_nを予め作成しておくことで、文書を検索するのに要する時間を短縮することができる。
 なお、格納部105には、文書20が格納されてもよい。また、文書20に対するグラフ構造21が格納されてもよい。なお、グラフ構造21は、文書20から、グラフ構造作成部102にて作成される。
 グラフ構造作成部102は、文書からグラフ構造を作成する機能を有する。よって、グラフ構造作成部102は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフ構造を作成する機能を有することが好ましい。また、グラフ構造作成部102は、概念辞書112を参照する機能を有する。概念辞書112を参照し、グラフ構造作成部102にて、文書に対するグラフ構造が作成される。当該文書は、文書20、および複数の文書10である。
 グラフ構造は、有向グラフであることが好ましい。有向グラフとは、ノードと、向きを持つエッジと、により構成されたグラフである。また、グラフ構造は、ノードおよびエッジにラベルが付与された有向グラフであることがより好ましい。ラベルが付与された有向グラフのグラフ構造を用いることで、類似度および検索の精度を向上させることができる。
 なお、図1では、概念辞書112が、文書検索システム100とは異なる装置に設けられている構成を示しているが、これに限られない。概念辞書112は、文書検索システム100に備えられてもよい。
 また、形態素解析を行う機能、および係り受け解析を行う機能は、文書検索システム100とは異なる装置に備えられてもよい。このとき、文書検索システム100は、上記文書を当該装置に送信し、当該装置で行われた形態素解析、および係り受け解析の結果のデータを受信し、受信したデータをグラフ構造作成部102に送信するとよい。
 類似度算出部103は、第1のグラフ構造と、第2のグラフ構造との類似度を算出する機能を有する。第1のグラフ構造は、グラフ構造21である。第2のグラフ構造は、複数のグラフ構造11のうちの一または複数である。つまり、類似度算出部103にて、第1の文書と、第2の文書との類似度が評価される。第1の文書は、文書20である。第2の文書は、複数の文書10のうちの一または複数である。
 出力部104は、情報を供給する機能を有する。当該情報とは、類似度算出部103で算出された類似度の結果に関する情報である。例えば、当該情報は、複数の文書10のうち、文書20との類似度が最も高い文書である。または、当該情報は、文書10_iと、文書20および文書10_iの類似度と、の組を、類似度の高い順に並び変えられた結果である。このとき、当該組の数は、2以上n以下である。
 上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして供給される。出力部104として、ディスプレイ、スピーカーなどの出力デバイスがある。
 文書検索システム100は、テキストデータを音声データに変換する機能を有していてもよい。例えば、文書検索システム100が、さらに、当該機能を有するテキスト音声変換部を有していてもよい。
 以上が、文書検索システム100の構成についての説明である。本発明の一態様である文書検索システムを用いることで、文書20と概念的に類似した文書を、複数の文書10の中から検索することができる。また、文書20と概念的に類似した文書の一覧を、複数の文書10の中から検索することができる。
 本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。
<文書を検索する方法>
 図2は、文書検索システム100が実行する処理の流れを説明するフローチャートである。つまり、図2は、本発明の一態様である文書を検索する方法の一例を示すフローチャートでもあるといえる。
 本発明の一態様の文書を検索する方法では、文書を解析してグラフ構造にしたのちに、グラフ構造の類似度をWeisfeiler−Lehman(WL)カーネルなどによって比較することで、文書の検索を行う。
 ステップS001は、複数の文書10を取得する工程である。複数の文書10は、格納部105に格納されている文書である。複数の文書10は、入力部101、記憶媒体、通信などを介して、格納部105に格納される。
 複数の文書10が特許請求の範囲(クレーム)である場合、ステップS002へ進む前に、複数の文書10のそれぞれに対して、文書のクリーニングを行ってもよい。文書のクリーニングとは、例えば、セミコロンを削除する、コロンをカンマに置き換える、などである。文書のクリーニングを行うことで、形態素解析の精度を高めることができる。
 なお、上記文書のクリーニングは、複数の文書10が特許請求の範囲(クレーム)以外の場合であっても、必要に応じて適宜行うとよい。また、複数の文書10は、上記文書のクリーニングが行われた後に、格納部105に格納されてもよい。
 ステップS002は、グラフ構造作成部102にて、複数の文書10のそれぞれに対して形態素解析を行う工程である。これにより、複数の文書10のそれぞれは、形態素に分割される。本明細書では、分割された形態素を、トークンと呼ぶ場合がある。
 ステップS002では、上記分割された形態素(トークン)のそれぞれに対して、形態素(トークン)の品詞を判別し、品詞ラベルを関連付けしておくことが好ましい。形態素(トークン)に品詞ラベルを関連付けしておくことで、係り受け解析の精度の向上を図ることができる。なお、本明細書等では、形態素(トークン)と品詞ラベルを関連付けすることを、形態素(トークン)に品詞を付与すると言い換えることができる。
 グラフ構造作成部102が、形態素解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた形態素解析プログラム(形態素解析器ともいう。)を用いて、複数の文書10のそれぞれに対して形態素解析を行ってもよい。このとき、ステップS002は、複数の文書10を当該装置に送信し、当該装置にて形態素解析を行い、形態素解析の結果のデータを受信する工程となる。
 ステップS003は、グラフ構造作成部102にて、係り受け解析を行う工程である。つまり、分割された形態素(トークン)のそれぞれの係り受けに応じて、複数のトークンの一部を結合する工程である。例えば、トークンが特定の条件を満たす場合、条件を満たすトークン同士を結合して、新たなトークンを生成する。
 文書に日本語が使用されている場合、具体的には、第j(jは2以上の整数である。)のトークンが名詞であり、且つ、第jのトークンの直前に位置するトークン(第(j−1)のトークンと呼ぶ。)が形容詞である場合、第(j−1)のトークンと、第jのトークンとを結合して、新たなトークンを生成する。また、第jのトークンが名詞であり、且つ、第jのトークンの直後に位置するトークン(第(j+1)のトークンと呼ぶ。)が名詞である場合、第jのトークンと、第(j+1)のトークンとを結合して、新たなトークンを生成する。
 なお、上記の条件は、文書に使用される言語に合わせて、適宜設定するとよい。
 上記係り受け解析には、複合語解析が含まれることが好ましい。当該係り受け解析を行うことで、複数のトークンの一部を結合し、新たなトークンとして、複合語を生成することができる。これにより、概念辞書112に登録されていない複合語が文書に含まれていても、当該文書のトークンへの分割を高い精度で行うことができる。
 グラフ構造作成部102が、係り受け解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた係り受け解析プログラム(係り受け解析器ともいう。)を用いて、係り受け解析を行ってもよい。このとき、ステップS003は、分割された形態素(トークン)を当該装置に送信し、当該装置にて係り受け解析を行い、係り受け解析の結果のデータを受信する工程となる。
 ステップS004は、グラフ構造作成部102にて、トークンを抽象化する工程である。例えば、トークンに含まれる単語を解析して、代表語を取得する。また、当該代表語に上位語があれば、当該上位語を取得する。そして、当該トークンを、取得された当該代表語または当該上位語に置き換える。ここで、代表語とは、同義語群のグループの見出し語(レンマともいう。)である。また、上位語とは、代表語の上位概念に該当する代表語である。つまり、トークンの抽象化とは、トークンを代表語または上位語に置き換えることを指す。なお、トークンが代表語または上位語である場合、当該トークンは置き換えなくてもよい。
 置き換える上位語の階層の上限は、1以上2以下であることが好ましく、1であることがより好ましい。なお、置き換える上位語の階層の上限は、指定できるようにしてもよい。これにより、トークンが過剰に上位概念化されるのを抑制することができる。
 トークンの適切な抽象度合いは、分野によって異なる。そこで、分野に応じた機械学習によって、トークンの抽象化を行うことが好ましい。トークンの抽象化は、例えば、トークンを、当該トークンに含まれる形態素でベクトル化して、分類器によって分類することで実施される。なお、当該分類器として、決定木、サポートベクターマシン、ランダムフォレスト、多層パーセプトロンなどのアルゴリズムを用いてもよい。具体的には、「酸化物半導体」、「アモルファス半導体」、「シリコン半導体」、および「GaAs半導体」を「半導体」に分類するとよい。また、「酸化物半導体層」、および「酸化物半導体膜」、「アモルファス半導体層」、「アモルファス半導体膜」、「シリコン半導体層」、「シリコン半導体膜」、「GaAs半導体層」および「GaAs半導体膜」も「半導体」に分類するとよい。
 また、分類器を用いて、トークンに含まれる形態素を抽出するべきか否かを分類させてもよい。例えば、「酸化物半導体層」というトークンを抽象化する場合、当該トークンを形態素に再び分解し、分解された形態素である「酸化」、「物」、「半導体」、および「層」を分類器に入力する。分類器に入力した結果、「半導体」に分類される場合、当該トークンを「半導体」に置き換える。これにより、当該トークンを抽象化することができる。
 上記機械学習アルゴリズムのほかに、条件付き確率場(Conditional random field:CRF)を用いてもよい。または、CRFと上記の方法とを組み合わせてもよい。
 トークンを抽象化することで、文書を概念的に把握することができる。したがって、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。
 代表語および上位語の取得は、概念辞書を利用してもよいし、機械学習による分類を行ってもよい。当該概念辞書として、文書検索システム100とは異なる装置に設けられている概念辞書112を用いてもよいし、文書検索システム100に備えられた概念辞書を用いてもよい。
 ステップS005は、グラフ構造作成部102にて、複数のグラフ構造11を作成する工程である。つまり、ステップS004までに用意されたトークンを、ノードまたはエッジとして、グラフ構造を作成する工程である。具体的には、文書中に、名詞句である第1のトークンおよび第2のトークンと、第1のトークンおよび第2のトークンの関係を表す第3のトークンとがある場合、第1のトークンと第2のトークンのそれぞれを、ノードおよび当該ノードのラベルとし、第3のトークンを、エッジおよび当該エッジのラベルとするグラフ構造を作成する。つまり、ノードのラベルおよびエッジのラベルは、ステップS004までに用意されたトークンから構成される。
 例えば、文書が特許請求の範囲(クレーム)である場合、グラフ構造のノードは構成要素であり、グラフ構造のエッジは構成要素間の関係である。また、文書が契約文書などである場合、グラフ構造のノードは甲および乙であり、グラフ構造のエッジは子細な条件である。
 グラフ構造は、トークン同士の係り受けの関係から、ルールに基づいて作成してもよい。また、CRFを用いて、トークンのリストを元に、ノードおよびエッジにラベルを付与する機械学習を行ってもよい。これにより、トークンのリストを元に、ノードおよびエッジにラベルを付与することができる。また、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)、長期短期記憶(Long short−term memory:LSTM)などを用いて、トークンのリストを入力して、ノードとエッジの向きを出力させるSeq2Seqモデルの学習を行ってもよい。これにより、トークンのリストから、ノードとエッジの向きを出力することができる。
 グラフ構造作成部102は、エッジの向きを反転させ、かつ、当該エッジのラベルを当該エッジのラベルの対義語に置き換える機能を有してもよい。例えば、グラフ構造が、第1のエッジと、第1のエッジのラベルと対義語の関係にあるラベルが付与された第2のエッジと、を有する場合、第2のエッジの向きを反転させ、かつ、第2のエッジのラベルを第2のエッジのラベルの対義語(つまり、第1のエッジのラベル)に置き換える処理を行うことで、新たにグラフ構造を作成してもよい。これにより、概念上同じ構造を網羅することができる。したがって、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。
 なお、上記処理は、文書中の出現頻度が低い方のエッジに対して行うとよい。つまり、第2のエッジの出現頻度が、第1のエッジの出現頻度よりも低いまたは同じである場合、第2のエッジの向きを反転させ、かつ、第2のエッジのラベルを第2のエッジのラベルの対義語(つまり、第1のエッジのラベル)に置き換える処理を行うとよい。これにより、新たなグラフ構造を作成する頻度を減らすことができる。
 ステップS004およびステップS005の順序は入れ替えてもよい。ステップS004およびステップS005の順序を入れ替える場合、グラフ構造が作成された後、当該グラフ構造に含まれるノードおよびエッジが抽象化される。よって、ステップS004およびステップS005の順序を入れ替えても、文書から、抽象化されたグラフ構造を作成することができる。
 ステップS001乃至ステップS005により、複数の文書10から、複数のグラフ構造11を作成することができる。なお、ステップS001乃至ステップS005は、類似度を算出する前までに実施されることが好ましい。複数のグラフ構造11を予め作成しておくことで、文書を検索するのに要する時間を短縮することができる。
 ステップS011は、文書20を取得する工程である。文書20は、入力部101にて入力された文書である。なお、文書20が、音声データまたは画像データの、テキストデータ以外のデータである場合、ステップS012へ進む前に、文書20をテキストデータに変換する。テキストデータへの変換は、グラフ構造作成部102が有する音声データをテキストデータに変換する機能、もしくは音声テキスト変換部、または、グラフ構造作成部102が有する光学文字認識(OCR)機能、もしくは文字認識部を用いるとよい。
 文書20が特許請求の範囲(クレーム)である場合、ステップS012へ進む前に、文書20に対して、上述した文書のクリーニングを行ってもよい。文書のクリーニングを行うことで、形態素解析の精度を高めることができる。なお、当該文書のクリーニングは、文書20が特許請求の範囲(クレーム)以外の場合であっても、必要に応じて適宜行うとよい。
 ステップS012は、グラフ構造作成部102にて、文書20に対して形態素解析を行う工程である。なお、ステップS012は、ステップS002と同様の工程であるため、ステップS002の説明を参酌することができる。
 ステップS013は、グラフ構造作成部102にて、係り受け解析を行う工程である。なお、ステップS013は、ステップS003と同様の工程であるため、ステップS003の説明を参酌することができる。
 ステップS014は、グラフ構造作成部102にて、トークンを抽象化する工程である。なお、ステップS014は、ステップS004と同様の工程であるため、ステップS004の説明を参酌することができる。
 ステップS015は、グラフ構造作成部102にて、グラフ構造21を作成する工程である。なお、ステップS015は、ステップS005と同様の工程であるため、ステップS005の説明を参酌することができる。
 ステップS016は、類似度算出部103にて、文書20と、複数の文書10のそれぞれとの類似度を評価する工程である。具体的には、グラフ構造21、および複数のグラフ構造11をWLカーネルによりベクトル化し、ベクトル化されたグラフ構造21と、ベクトル化された複数のグラフ構造11のそれぞれと、のベクトルの類似度を評価する。
 ステップS017は、出力部104にて、情報を出力する工程である。当該情報とは、類似度算出部103にて算出された類似度の結果に関する情報である。
 以上が、文書を検索する方法についての説明である。本発明の一態様である文書を検索する方法を用いることで、検索用に指定する文書と概念的に近い文書を検索することができる。また、検索用に指定する文書と概念的に近い文書を順位付けされた状態で検索することができる。また、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。
 本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。
<<文書からグラフ構造を作成するまでの実例>>
 上述した文書を検索する方法のうち、文書からグラフ構造を作成するまでの実例について、図3A乃至図6Cを用いて説明する。
 はじめに、「酸化物半導体層は絶縁体層の上方にある(SANKABUTSUHANDOUTAISOU HA ZETSUENTAISOU NO JOUHOU NI ARU)」(図3A参照。)という、日本語が使用された文書を例に挙げて説明する。なお、図3B、図3C、および図4Aに示す角丸四角形はトークンであり、角丸四角形の下方には当該トークンに付与された品詞を記載している。
 まず、上記文書に対して形態素解析を行うことで、上記文書をトークンに分割し、各トークンに品詞を付与する(図2に示す、ステップS002およびステップS012)。その結果、図3Bに示すような結果が得られる。具体的には、上記文書は、「“酸化(SANKA)”(名詞)|“物(BUTSU)”(名詞)|“半導体(HANDOUTAI)”(名詞)|“層(SOU)”(名詞)|“は(HA)”(助詞)|“絶縁(ZETSUEN)”(名詞)|“体(TAI)”(名詞)|“層(SOU)”(名詞)|“の(NO)”(助詞)|“上方(JOUHOU)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」のように、トークンに分割され、トークンのそれぞれに品詞が付与される。
 次に、係り受け解析を行う(図2に示す、ステップS003およびステップS013)。その結果、図3Cに示すような結果が得られる。具体的には、“酸化(SANKA)”および“物(BUTSU)”、“物(BUTSU)”および“半導体(HANDOUTAI)”、ならびに、“半導体(HANDOUTAI)”および“層(SOU)”は、ステップS003で説明した条件を満たす。したがって、4つのトークン(“酸化(SANKA)”、“物(BUTSU)”、“半導体(HANDOUTAI)”、“層(SOU)”)は結合され、1つのトークン(“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”)に置き換えることができる。また、“絶縁(ZETSUEN)”および“体(TAI)”、ならびに、“体(TAI)”および“層(SOU)”は、ステップS003で説明した条件を満たす。したがって、3つのトークン(“絶縁(ZETSUEN)”、“体(TAI)”、“層(SOU)”)は結合され、1つのトークン(“絶縁体層(ZETSUENTAISOU)”)に置き換えることができる。これにより、上記文書は、「“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”(名詞)|“は(HA)”(助詞)|“絶縁体層(ZETSUENTAISOU)”(名詞)|“の(NO)”(助詞)|“上方(JOUHOU)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」となる。
 次に、トークンの抽象化を行う(図2に示す、ステップS004およびステップS014)。その結果、図4Aに示すような結果が得られる。具体的には、“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”は、“半導体(HANDOUTAI)”という上位語に置き換えられる。また、“絶縁体層(ZETSUENTAISOU)”は、“絶縁体(ZETSUENTAI)”という上位語に置き換えられる。また、“上方(JOUHOU)”は、“上(UE)”という代表語に置き換えられる。これにより、上記文書は、「“半導体(HANDOUTAI)”(名詞)|“は(HA)”(助詞)|“絶縁体(ZETSUENTAI)”(名詞)|“の(NO)”(助詞)|“上(UE)”(名詞)|“に(NI)”(助詞)|“ある(ARU)”(動詞)」と抽象化される。
 次に、グラフ構造を作成する(図2に示す、ステップS005およびステップS015)。その結果、図4Bに示すような結果が得られる。具体的には、“半導体(HANDOUTAI)”、および“絶縁体(ZETSUENTAI)”は、グラフ構造のノードおよび当該ノードのラベルとなり、“上(UE)”は、グラフ構造のエッジおよび当該エッジのラベルとなる。
 ここで、“上(UE)”の対義語は“下(SHITA)”である。そこで、図4Bに示すグラフ構造の矢印を反転させ、かつ、図4Bに示すグラフ構造のエッジおよび当該エッジのラベルである“上(UE)”を“下(SHITA)”に置き換えることで、図4Cに示すグラフ構造を新たに生成してもよい。これにより、概念上同じ構造を網羅することができる。
 図4B、図4Cに示す矢印は、文書中に先に出現するノード(上記文書の場合、“半導体(HANDOUTAI)”)から、後に出現するノード(上記文書の場合、“絶縁体(ZETSUENTAI)”)に向かうように図示されている。つまり、矢印の始点を、先に出現するノードとし、矢印の終点を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、矢印の向きを決定してもよい。具体的には、矢印の始点を、ラベルが“絶縁体(ZETSUENTAI)”であるノードとし、矢印の終点を、ラベルが“半導体(HANDOUTAI)”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“上(UE)”とするグラフ構造を作成してもよい。これにより、グラフ構造を直感的に理解することができる。ただし、矢印の向きの決定方法は、文書を検索する方法において、統一する必要がある。
 以上より、上記文書から、抽象化されたグラフ構造を作成することができる。
 次に、「A semiconductor device comprising:an oxide semiconductor layer over an insulator layer.」(図5A参照。)という、英語が使用された文書を例に挙げて説明する。なお、図5C、図5D、および図6Aに示す角丸四角形はトークンである。なお、ここでは、トークンに品詞を付与していない例を示すが、トークンに品詞を付与してもよい。
 まず、上記文書に対して、文書のクリーニングを行う。ここでは、セミコロンを削除する。その結果、図5Bに示すような結果が得られる。
 次に、上記文書に対して、形態素解析を行うことで、上記文書をトークンに分割する(図2に示す、ステップS002およびステップS012)。その結果、図5Cに示すような結果が得られる。具体的には、上記文書は、「“A”|“semiconductor”|“device”|“comprising”|“an”|“oxide”|“semiconductor”|“layer”|“over”|“an”|“insulator”|“layer”」となる。
 次に、係り受け解析を行う(図2に示す、ステップS003およびステップS013)。その結果、図5Dに示すような結果が得られる。具体的には、3つのトークン(“A”、“semiconductor”、“device”)は結合され、1つのトークン(“A semiconductor device”)に置き換えることができる。また、4つのトークン(“an”、“oxide”、“semiconductor”、“layer”)は結合され、1つのトークン(“an oxide semiconductor layer”)に置き換えることができる。また、3つのトークン(“an”、“insulator”、“layer”)は結合され、1つのトークン(“an insulator layer”)に置き換えることができる。これにより、上記文書は、「“A semiconductor device”|“comprising”|“an oxide semiconductor layer”|“over”|“an insulator layer”」となる。
 次に、トークンの抽象化を行う(図2に示す、ステップS004およびステップS014)。その結果、図6Aに示すような結果が得られる。具体的には、“A semiconductor device”は、“device”という上位語に置き換えられる。また、“an oxide semiconductor layer”は、“a semiconductor”という上位語に置き換えられる。また、“an insulator layer”は、“an insulator”という上位語に置き換えられる。これにより、上記文書は、「“device”|“comprising”|“a semiconductor”|“over”|“an insulator”」と抽象化される。
 次に、グラフ構造を作成する(図2に示す、ステップS005およびステップS015)。その結果、図6Bに示すような結果が得られる。具体的には、“deveice”、“semiconductor”、および“insulator”のそれぞれは、グラフ構造のノードおよび当該ノードのラベルとなり、“comprising”、および“over”のそれぞれは、グラフ構造のエッジおよび当該エッジのラベルとなる。
 ここで、“over”の対義語は“under”である。そこで、図6Bに示すグラフ構造の矢印を反転させ、かつ、図6Bに示すグラフ構造のエッジおよび当該エッジのラベルである“over”を“under”に置き換えることで、図6Cに示すグラフ構造を新たに生成してもよい。これにより、概念上同じ構造を網羅することができる。
 図6B、図6Cに示す矢印は、文書中に先に出現するノード(上記文書の場合、“semiconductor”)から、後に出現するノード(上記文書の場合、“insulator”)に向かうように図示されている。つまり、矢印の始点を、先に出現するノードとし、矢印の終点を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、矢印の向きを決定してもよい。具体的には、矢印の始点を、ラベルが“insulator”であるノードとし、矢印の終点を、ラベルが“semiconductor”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“over”とするグラフ構造を作成してもよい。これにより、グラフ構造を直感的に理解することができる。ただし、矢印の向きの決定方法は、文書を検索する方法において、統一する必要がある。
 以上より、上記文書から、抽象化されたグラフ構造を作成することができる。
 なお、文書からグラフ構造を作成するまでの工程を、日本語が使用された文書、および英語が使用された文書を例に挙げて説明したが、文書の言語は、日本語および英語に限られない。中国語、韓国語、ドイツ語、フランス語、ロシア語、ヒンディー語などの言語が使用された文書においても、同様の工程を経ることで、文書からグラフ構造を作成することができる。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
(実施の形態2)
 本実施の形態では、本発明の一態様の文書検索システムについて図7及び図8を用いて説明する。
 本実施の形態の文書検索システムは、実施の形態1に示す、文書を検索する方法を用いて、文書を容易に検索することができる。
<文書検索システムの構成例1>
 図7に、文書検索システム200のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部202で行われる処理は、処理によって異なるサーバで実行されることがある。
 文書検索システム200は、少なくとも、処理部202を有する。図7に示す文書検索システム200は、さらに、入力部201、記憶部203、データベース204、表示部205、及び伝送路206を有する。
[入力部201]
 入力部201には、文書検索システム200の外部から文書が供給される。当該文書は、ユーザが検索用に指定する文書であり、実施の形態1に示す文書20に相当する。また、入力部201には、文書検索システム200の外部から複数の文書が供給されてもよい。当該複数の文書は、上記文書の比較対象となる文書であり、実施の形態1に示す複数の文書10に相当する。入力部201に供給された上記複数の文書及び上記文書は、それぞれ、伝送路206を介して、処理部202、記憶部203、またはデータベース204に供給される。
 上記複数の文書及び上記文書は、例えば、テキストデータ、音声データ、または画像データとして入力される。上記複数の文書は、テキストデータとして入力されることが好ましい。
 上記文書の入力方法としては、例えば、キーボード、タッチパネルなどを用いたキー入力、マイクを用いた音声入力、記録媒体からの読み込み、スキャナ、カメラなどを用いた画像入力、通信を用いた取得等が挙げられる。
 文書検索システム200は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部202が当該機能を有していてもよい。または、文書検索システム200が、さらに、当該機能を有する音声変換部を有していてもよい。
 文書検索システム200は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部202が当該機能を有していてもよい。または、文書検索システム200が、さらに、当該機能を有する文字認識部を有していてもよい。
[処理部202]
 処理部202は、入力部201、記憶部203、データベース204などから供給されたデータを用いて、演算を行う機能を有する。処理部202は、演算結果を、記憶部203、データベース204、表示部205などに供給することができる。
 処理部202は、実施の形態1に示すグラフ構造作成部102、および類似度算出部103を含む。すなわち、処理部202は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフ構造を作成する機能を有する。
 処理部202には、チャネル形成領域に金属酸化物を有するトランジスタを用いてもよい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部202が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部202を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部202をオフ状態にすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システム200の低消費電力化を図ることができる。
 なお、本明細書等において、チャネル形成領域に酸化物半導体を用いたトランジスタをOxide Semiconductorトランジスタ(OSトランジスタ)と呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
 チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含むことが好ましい。元素Mは、アルミニウム(Al)、ガリウム(Ga)、またはスズ(Sn)であることが好ましい。元素Mに適用可能な他の元素としては、ホウ素(B)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、タングステン(W)などがある。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
 チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。チャネル形成領域が有する金属酸化物は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
 また、処理部202には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。
 また、処理部202には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いてもよい。
 処理部202は、例えば、演算回路または中央演算装置(CPU:Central Processing Unit)等を有する。
 処理部202は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部202は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部203のうち少なくとも一方に格納される。
 処理部202はメインメモリを有していてもよい。メインメモリは、RAM等の揮発性メモリ、及びROM等の不揮発性メモリのうち少なくとも一方を有する。
 RAMとしては、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等が用いられ、処理部202の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部203に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部202に直接アクセスされ、操作される。
 ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet Erasable Programmable Read Only Memory)、EEPROM(Electricallyl Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
[記憶部203]
 記憶部203は、処理部202が実行するプログラムを記憶する機能を有する。また、記憶部203は、例えば、処理部202が生成した演算結果、及び、入力部201に入力されたデータを記憶する機能を有していてもよい。具体的には、記憶部203は、処理部202で生成したグラフ構造(例えば、実施の形態1に示すグラフ構造21)、算出された類似度の結果などを記憶する機能を有することが好ましい。
 記憶部203は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部203は、例えば、DRAM、SRAMなどの揮発性メモリを有していてもよい。記憶部203は、例えば、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部203は、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブを有していてもよい。
[データベース204]
 文書検索システム200は、データベース204を有していてもよい。例えば、データベース204は、複数の文書、および当該複数の文書のそれぞれに対する複数のグラフ構造を記憶する機能を有する。例えば、データベース204に記憶された当該複数の文書を対象として、本発明の一態様の文書を検索する方法を用いてもよい。また、データベース204には、概念辞書が格納されてもよい。
 なお、記憶部203及びデータベース204は互いに分離されていなくてもよい。例えば、文書検索システム200は、記憶部203及びデータベース204の双方の機能を有する記憶ユニットを有していてもよい。
 なお、処理部202、記憶部203、及びデータベース204が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。
[表示部205]
 表示部205は、処理部202における演算結果を表示する機能を有する。また、表示部205は、比較された文書および類似度の結果を表示する機能を有する。また、表示部205は、検索用として指定する文書を表示する機能を有していてもよい。
 なお、文書検索システム200は、出力部を有していてもよい。出力部は、外部にデータを供給する機能を有する。
[伝送路206]
 伝送路206は、各種データを伝達する機能を有する。入力部201、処理部202、記憶部203、データベース204、及び表示部205の間のデータの送受信は、伝送路206を介して行うことができる。例えば、ユーザが検索用に指定する文書、当該文書の比較対象となる文書に対するグラフ構造などのデータが、伝送路206を介して、送受信される。
<文書検索システムの構成例2>
 図8に、文書検索システム210のブロック図を示す。文書検索システム210は、サーバ220と、端末230(パーソナルコンピュータなど)と、を有する。
 サーバ220は、処理部202、伝送路212、記憶部213、及び通信部217aを有する。図8では図示しないが、サーバ220は、さらに、入出力部などを有していてもよい。
 端末230は、入力部201、記憶部203、表示部205、伝送路216、通信部217b、及び処理部218を有する。図8では図示しないが、端末230は、さらに、データベースなどを有していてもよい。
 文書検索システム210のユーザは、端末230の入力部201に、文書を入力する。当該文書は、ユーザが検索用に指定する文書であり、実施の形態1に示す文書20に相当する。当該文書は、端末230の通信部217bからサーバ220の通信部217aに送信される。
 通信部217aが受信した上記文書は、伝送路212を介して、記憶部213に保存される。または、上記文書は、通信部217aから、直接、処理部202に供給されてもよい。
 実施の形態1で説明した、グラフ構造の作成、及び類似度の算出は、高い処理能力が求められる。サーバ220が有する処理部202は、端末230が有する処理部218に比べて処理能力が高い。したがって、グラフ構造の作成、及び類似度の算出は、処理部202で行われることが好ましい。
 そして、処理部202により類似度が算出される。類似度は、伝送路212を介して、記憶部213に保存される。または、類似度は、処理部202から、直接、通信部217aに供給されてもよい。類似度は、サーバ220の通信部217aから端末230の通信部217bに送信される。類似度は、端末230の表示部205に表示される。
[伝送路212及び伝送路216]
 伝送路212及び伝送路216は、データを伝達する機能を有する。処理部202、記憶部213、及び通信部217aの間のデータの送受信は、伝送路212を介して行うことができる。入力部201、記憶部203、表示部205、通信部217b、及び処理部218の間のデータの送受信は、伝送路216を介して行うことができる。
[処理部202及び処理部218]
 処理部202は、記憶部213及び通信部217aなどから供給されたデータを用いて、演算を行う機能を有する。処理部218は、入力部201、記憶部203、表示部205、及び通信部217bなどから供給されたデータを用いて、演算を行う機能を有する。処理部202及び処理部218は、処理部202の説明を参照できる。処理部202は、処理部218に比べて処理能力が高いことが好ましい。
[記憶部203]
 記憶部203は、処理部218が実行するプログラムを記憶する機能を有する。また、記憶部203は、処理部218が生成した演算結果、通信部217bに入力されたデータ、及び入力部201に入力されたデータなどを記憶する機能を有する。
[記憶部213]
 記憶部213は、複数の文書、複数の文書のそれぞれに対するグラフ構造、処理部202が生成した演算結果、及び通信部217aに入力されたデータなどを記憶する機能を有する。
[通信部217a及び通信部217b]
 通信部217a及び通信部217bを用いて、サーバ220と端末230との間で、データの送受信を行うことができる。通信部217a及び通信部217bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
 なお、サーバ220と端末230との通信は、World Wide Web(WWW)の基盤であるインターネット、イントラネット、エクストラネット、PAN(Personal Area Network)、LAN(Local Area Network)、CAN(Campus Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、GAN(Global Area Network)等のコンピュータネットワークに接続することで行ってもよい。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。
:10:複数の文書、10_1:文書、10_i:文書、10_n:文書、11:複数のグラフ構造、11_1:グラフ構造、11_i:グラフ構造、11_n:グラフ構造、20:文書、21:グラフ構造、100:文書検索システム、101:入力部、102:グラフ構造作成部、103:類似度算出部、104:出力部、105:格納部、112:概念辞書、200:文書検索システム、201:入力部、202:処理部、203:記憶部、204:データベース、205:表示部、206:伝送路、210:文書検索システム、212:伝送路、213:記憶部、216:伝送路、217a:通信部、217b:通信部、218:処理部、220:サーバ、230:端末

Claims (10)

  1.  入力部と、第1の処理部と、格納部と、第2の処理部と、出力部と、を有し、
     前記入力部は、第1の文書を入力する機能を有し、
     前記第1の処理部は、前記第1の文書から、第1のグラフ構造を作成する機能を有し、
     前記格納部は、第2のグラフ構造を格納する機能を有し、
     前記第2の処理部は、前記第1のグラフ構造と、前記第2のグラフ構造と、の類似度を算出する機能を有し、
     前記出力部は、情報を供給する機能を有し、
     前記第1の処理部は、前記第1の文書を、複数のトークンに分割する機能を有し、
     前記第1のグラフ構造のノードおよびエッジは、ラベルを有し、
     前記ラベルは、前記複数のトークンから構成される、
     文書検索システム。
  2.  請求項1において、
     前記第1の処理部は、トークンに品詞を付与する機能を有する、
     文書検索システム。
  3.  請求項1または請求項2において、
     前記第1の処理部は、係り受け解析を行う機能を有し、
     前記第1の処理部は、前記係り受け解析の結果に応じて、トークンの一部を連結する機能を有する、
     文書検索システム。
  4.  請求項1乃至請求項3のいずれか一において、
     前記第1の処理部は、代表語または上位語が存在するトークンを、前記代表語または前記上位語に置き換える機能を有する、
     文書検索システム。
  5.  請求項1乃至請求項4のいずれか一において、
     前記第2のグラフ構造は、前記第1の処理部にて、第2の文書から、作成される、
     文書検索システム。
  6.  請求項1乃至請求項4のいずれか一において、
     グラフ構造が有するエッジのラベルが、対義語を有する場合、前記第1の処理部は、前記グラフ構造の前記エッジの向きを反転させ、かつ、前記エッジのラベルを前記対義語に置き換えることで、新たなグラフ構造を生成する機能を有する、
     文書検索システム。
  7.  請求項1乃至請求項4のいずれか一において、
     前記第2の処理部は、前記第1のグラフ構造、および前記第2のグラフ構造を、ベクトル化し、ベクトル化された前記第1のグラフ構造と、ベクトル化された前記第2のグラフ構造と、のベクトルの類似度を評価する機能を有する、
     文書検索システム。
  8.  請求項7において、
     前記第2の処理部は、前記第1のグラフ構造、および前記第2のグラフ構造を、Weisfeiler−Lehmanカーネルによりベクトル化する機能を有する、
     文書検索システム。
  9.  請求項2において、
     第1のトークンに付与された品詞が名詞であり、かつ、前記第1のトークンの直前に位置する第2のトークンに付与された品詞が形容詞である場合、前記第1の処理部は、前記第2のトークンと、前記第1のトークンと、を連結する機能を有する、
     文書検索システム。
  10.  請求項2または請求項9において、
     第3のトークンに付与された品詞、および前記第3のトークンの直後に位置する第4のトークンに付与された品詞がいずれも名詞である場合、前記第1の処理部は、前記第3のトークンと、前記第4のトークンと、を連結する機能を有する、
     文書検索システム。
PCT/IB2020/059619 2019-10-25 2020-10-14 文書検索システム WO2021079230A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202080074162.3A CN114600096A (zh) 2019-10-25 2020-10-14 文档检索系统
US17/766,557 US20230026321A1 (en) 2019-10-25 2020-10-14 Document retrieval system
JP2021553167A JPWO2021079230A1 (ja) 2019-10-25 2020-10-14

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019194187 2019-10-25
JP2019-194187 2019-10-25

Publications (1)

Publication Number Publication Date
WO2021079230A1 true WO2021079230A1 (ja) 2021-04-29

Family

ID=75620025

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2020/059619 WO2021079230A1 (ja) 2019-10-25 2020-10-14 文書検索システム

Country Status (4)

Country Link
US (1) US20230026321A1 (ja)
JP (1) JPWO2021079230A1 (ja)
CN (1) CN114600096A (ja)
WO (1) WO2021079230A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011233023A (ja) * 2010-04-28 2011-11-17 International Business Maschines Corporation 文書の類似度を判定する方法、装置及びプログラム。
JP2014052863A (ja) * 2012-09-07 2014-03-20 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012340423B2 (en) * 2011-11-15 2017-02-09 Ab Initio Technology Llc Data clustering based on variant token networks
US20140278362A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Entity Recognition in Natural Language Processing Systems
WO2014169334A1 (en) * 2013-04-15 2014-10-23 Contextual Systems Pty Ltd Methods and systems for improved document comparison
JP6638480B2 (ja) * 2016-03-09 2020-01-29 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
US20180260474A1 (en) * 2017-03-13 2018-09-13 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
US11256770B2 (en) * 2019-05-01 2022-02-22 Go Daddy Operating Company, LLC Data-driven online business name generator

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011233023A (ja) * 2010-04-28 2011-11-17 International Business Maschines Corporation 文書の類似度を判定する方法、装置及びプログラム。
JP2014052863A (ja) * 2012-09-07 2014-03-20 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法

Also Published As

Publication number Publication date
JPWO2021079230A1 (ja) 2021-04-29
US20230026321A1 (en) 2023-01-26
CN114600096A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
US11734514B1 (en) Automated translation of subject matter specific documents
Gudivada et al. Big data driven natural language processing research and applications
JP7321143B2 (ja) 文書検索システム
US11183175B2 (en) Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
JP7499183B2 (ja) 翻訳用の文書検索システム
Liu et al. A hybrid neural network RBERT-C based on pre-trained RoBERTa and CNN for user intent classification
Yenigalla et al. Addressing unseen word problem in text classification
US11507760B2 (en) Machine translation method, machine translation system, program, and non-transitory computer-readable storage medium
Ács et al. Evaluating contextualized language models for hungarian
WO2021079230A1 (ja) 文書検索システム
WO2021140406A1 (ja) 文書検索システム、文書を検索する方法
Kaur Development of an approach for disambiguating ambiguous Hindi postposition
JP7453987B2 (ja) 文書データ処理方法、及び、文書データ処理システム
Wan et al. [Retracted] Text Mining Based on the Lexicon‐Constrained Network in the Context of Big Data
WO2021005433A1 (ja) 読解支援システム及び読解支援方法
WO2022090849A1 (ja) 読解支援システム及び読解支援方法
Torregrossa et al. How we achieved a production ready slot filling deep neural network without initial natural language data
Chiplunkar et al. Prediction of pos tagging for unknown words for specific Hindi and Marathi language
US12019636B2 (en) Document search system, document search method, program, and non-transitory computer readable storage medium
Kulkarni et al. A survey on Named Entity Recognition for South Indian Languages
WO2022074505A1 (ja) 情報検索システム、及び、情報検索方法
Nitsche et al. Scope and challenges of language modelling-an interrogative survey on context and embeddings
Yontar Aksoy et al. Intelligent Word Embedding Methods to Support Project Proposal Grouping for Project Selection
Xie et al. Generative Sentiment Transfer via Adaptive Masking
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20879948

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021553167

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20879948

Country of ref document: EP

Kind code of ref document: A1