WO2022090849A1 - 読解支援システム及び読解支援方法 - Google Patents

読解支援システム及び読解支援方法 Download PDF

Info

Publication number
WO2022090849A1
WO2022090849A1 PCT/IB2021/059488 IB2021059488W WO2022090849A1 WO 2022090849 A1 WO2022090849 A1 WO 2022090849A1 IB 2021059488 W IB2021059488 W IB 2021059488W WO 2022090849 A1 WO2022090849 A1 WO 2022090849A1
Authority
WO
WIPO (PCT)
Prior art keywords
designated
phrases
words
document
phrase
Prior art date
Application number
PCT/IB2021/059488
Other languages
English (en)
French (fr)
Inventor
桃純平
高瀬奈津子
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to CN202180073009.3A priority Critical patent/CN116457773A/zh
Priority to US18/031,392 priority patent/US20240012979A1/en
Priority to JP2022558370A priority patent/JPWO2022090849A1/ja
Priority to KR1020237017434A priority patent/KR20230091995A/ko
Publication of WO2022090849A1 publication Critical patent/WO2022090849A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Definitions

  • One aspect of the present invention relates to a document reading comprehension support system and a reading comprehension support method.
  • one aspect of the present invention is not limited to the above technical fields.
  • the technical fields of one aspect of the present invention include semiconductor devices, display devices, light emitting devices, power storage devices, storage devices, electronic devices, lighting devices, input devices (for example, touch sensors, etc.), input / output devices (for example, touch panels, etc.). ), Their driving method, or their manufacturing method can be given as an example.
  • Patent Document 1 When reading a document, how to read the document depends on the purpose of the reader or the type of document. In some cases, it is read throughout the document, and in other cases, it is sufficient to search the document for the necessary information and read only the relevant part for the purpose of finding the necessary information for the reader.
  • searching for necessary information in a document there is a method of using a table of contents or an index. If it is an electronic document, there is also a method of searching with a keyword word to find desired information. Further, a method of structurally analyzing a document according to a set rule has been proposed (Patent Document 1).
  • One aspect of the present invention is to provide a document reading comprehension support system or a document reading comprehension support method that accurately presents information necessary for a user.
  • One aspect of the present invention is to provide a reading comprehension support system or a reading comprehension support method for supporting a user to understand a document.
  • One aspect of the present invention is to provide a document reading comprehension support system or a document reading comprehension support method that is easy for a user to operate.
  • One aspect of the present invention is a reading comprehension support system having a reception unit, a processing unit, and an output unit.
  • the reception unit has a function of accepting a designated document and a function of accepting a plurality of designated words and phrases.
  • the processing unit has a function of creating a first graph showing the structure of the designated document using words and phrases included in the designated document, and a function of searching the first graph using a plurality of designated words and phrases.
  • the output unit has a function of outputting a plurality of words and phrases included in the first graph and a function of outputting the search result of the first graph.
  • the plurality of designated words / phrases are at least a part of the plurality of words / phrases included in the first graph.
  • the output unit preferably outputs at least a second graph showing the shortest path between any two of the plurality of designated words in the first graph. It is preferable that the output unit has a function of outputting a sentence including the designated phrase in a paragraph containing two or more designated phrases in the designated document.
  • the shortest path is a route connecting any two of the plurality of designated words and phrases via at least one complementary phrase, and the complementary phrase is preferably a phrase different from the plurality of designated words and phrases.
  • the output unit has a function of outputting a sentence including at least one of the designated phrase and the complementary phrase in the paragraph containing at least one of the plurality of designated phrases and at least one of the complementary phrases in the designated document. ..
  • the output unit preferably outputs, as a search result, at least a second graph showing the shortest path between each of the plurality of designated words in the first graph. It is preferable that the output unit has a function of outputting a sentence including the designated phrase in a paragraph containing two or more designated phrases in the designated document.
  • the shortest path connecting any two of a plurality of designated words is a route connecting the two designated words via at least one complementary phrase, and the complementary phrase may be a phrase different from the plurality of designated words.
  • the output unit has a function of outputting a sentence including at least one of the designated phrase and the complementary phrase in the paragraph containing at least one of the plurality of designated phrases and at least one of the complementary phrases in the designated document. ..
  • the reading comprehension support system of one aspect of the present invention preferably further has a storage unit for storing search results.
  • a designated document is accepted, a first graph showing the structure of the designated document is created using words and phrases contained in the designated document, and two or more words and phrases included in the first graph are output.
  • This is a reading comprehension support method that accepts a plurality of designated words and phrases from the output words and phrases, searches the first graph using the plurality of designated words and phrases, and outputs the search results.
  • the shortest path is a route connecting any two of the plurality of designated words and phrases via at least one complementary phrase
  • the complementary phrase is preferably a phrase different from the plurality of designated words and phrases. It is preferable to output a sentence including at least one of the designated phrase and the complementary phrase in the paragraph containing at least one of the plurality of designated phrases and at least one of the complementary phrases in the designated document together with the search result.
  • the search result it is preferable to output at least a second graph showing the shortest path between each of the plurality of designated words in the first graph. It is preferable to output the sentence including the designated phrase in the paragraph containing two or more designated phrases in the designated document together with the search result.
  • the shortest path connecting any two of a plurality of designated words is a route connecting the two designated words via at least one complementary phrase, and the complementary phrase may be a phrase different from the plurality of designated words. preferable. It is preferable to output a sentence including at least one of the designated phrase and the complementary phrase in the paragraph containing at least one of the plurality of designated phrases and at least one of the complementary phrases in the designated document together with the search result.
  • a document reading comprehension support system or a document reading comprehension support method that accurately presents information necessary for a user.
  • FIG. 1 is a diagram showing an example of a reading comprehension support system.
  • FIG. 2 is a diagram showing an example of a reading comprehension support method.
  • 3A to 3D are diagrams showing an example of a reading comprehension support method.
  • 4A to 4E are diagrams showing an example of a reading comprehension support method.
  • 5A to 5C are diagrams showing an example of a graph.
  • FIG. 6 is a diagram showing an example of output contents.
  • FIG. 7 is a diagram showing an example of a graph.
  • FIG. 8 is a diagram showing an example of a reading comprehension support system.
  • FIG. 9 is a diagram showing an example of a reading comprehension support system.
  • membrane and the word “layer” can be interchanged with each other in some cases or depending on the situation.
  • conductive layer can be changed to the term “conductive layer”.
  • insulating film can be changed to the term “insulating layer”.
  • a designated document is accepted, a first graph showing the structure of the designated document is created using words and phrases contained in the designated document, and two words and phrases included in the first graph are created. Output above. Then, a plurality of designated words / phrases are accepted from the output words / phrases, the first graph is searched using the plurality of designated words / phrases, and the search result is output.
  • the graph can also be referred to as a graph structure.
  • words and phrases that exist at close positions in a document can be directly connected to each other. For example, if two words and phrases exist in the same sentence, the two words and phrases can be directly connected. Also, for example, if two words and phrases exist in the same paragraph, the two words and phrases can be directly connected. Further, for example, when a sentence containing one phrase exists in the vicinity of a sentence containing the other phrase for two words (for example, it exists within n sentences before and after (n is an integer of 1 or more)), the two words are concerned. You can connect two words directly. In this way, it is possible to create a graph showing the structure of a document by connecting words and phrases that are close to each other in the document. By creating such a graph, it is possible to show the relevance of each word in the document.
  • the user of the reading comprehension support system specifies a document to be read as a designated document.
  • the user further specifies a plurality of keywords related to the information to be obtained as a designated phrase.
  • the reading comprehension support system accepts a designated document, creates a first graph, and then outputs words and phrases contained in the first graph.
  • the user of the reading comprehension support system can select a keyword from the output words and phrases. Therefore, it is easy to select a keyword, it is difficult for a difference in user's skill to occur, and it is possible to quickly find necessary information from a document.
  • each keyword is scattered in the document, and it may be difficult to understand the relationship between the selected multiple keywords.
  • the index of a book is used to refer to the description of a plurality of keywords, the contents may not be connected. Therefore, it may take time to search and read comprehension, such as increasing the number of keywords or reading between a plurality of referenced pages.
  • the reading comprehension support system of one aspect of the present invention can output a second graph showing the relevance of a plurality of designated words by searching the first graph using the received plurality of designated words. As a result, the user can easily grasp the relevance of the designated phrase. Further, the reading comprehension support system according to one aspect of the present invention can extract and output a sentence including a plurality of designated words and phrases designated by the user. The user can efficiently obtain the necessary information by reading the extracted sentence.
  • the reading comprehension support system of one aspect of the present invention can present the shortest path between each of the plurality of designated words in the first graph. For example, by outputting a second graph showing the shortest path, it is possible to present the user with the relevance of a plurality of designated words.
  • the shortest path between the first designated phrase and the second designated phrase may include other designated phrases.
  • the user can grasp the relevance of a plurality of designated words and deepen the understanding of the document.
  • the shortest path may include complementary words that are different from the plurality of designated words.
  • complementary words and phrases not specified by the user, it is possible to promote understanding and understanding of the contents of the document.
  • the user can deepen the understanding of the document by grasping the complementary phrase itself and the relationship between the complementary phrase and the designated phrase.
  • the complementary phrase is a phrase included in the designated document (that is, a phrase included in the first graph) and is different from the designated phrase.
  • the reading comprehension support system of one aspect of the present invention can output a sentence including a designated phrase in a designated document together with the second graph. At this time, for example, all the sentences including any of the designated words can be output. However, depending on the specified phrase, there are cases where too many sentences are output and it takes time to reach the information that the user wants.
  • the reading comprehension support system of one aspect of the present invention extracts and outputs a sentence from a document based on each shortest path.
  • a sentence including a designated phrase in a paragraph containing two or more designated phrases in a designated document it is possible to output a sentence including at least one of the designated phrase and the complementary phrase in a paragraph containing at least one of the plurality of designated phrases and at least one of the complementary phrases in the designated document.
  • the user can efficiently confirm the sentence necessary for grasping the relevance of a plurality of designated words. And the necessary information can be obtained quickly.
  • the reading comprehension support system of one aspect of the present invention presents at least the shortest path between any two of a plurality of designated words. That is, the reading comprehension support system of one aspect of the present invention may present the shortest path between some designated words and phrases, and the reading comprehension support system of one aspect of the present invention may present the shortest path between all the designated words and phrases. May be presented.
  • two designated words may not be connected even if they are connected to each other, and the route may not be shown. Further, for example, if a criterion for determining the high degree of relevance of two designated words is set and the system determines that the two designated words are highly related, the shortest path of the two designated words may be presented. good. Specifically, when the shortest path of two designated words is connected via a predetermined number of words or less, it can be determined that the two designated words are highly related. On the contrary, when the shortest path of two designated words is connected via more than a predetermined number of words, it can be determined that the two designated words are less related.
  • the reading comprehension support system of one aspect of the present invention can also be used for document review. For example, you may find an isolated phrase that is not associated with another designated phrase. At this time, the reading comprehension support system of one aspect of the present invention may output a phrase that is not associated with another designated phrase as an isolated phrase. In addition, the content of the output graph may differ from the assumption, such as the related designated words and phrases are not connected to each other. At this time, there is a possibility that errors or omissions have occurred in the document. As described above, by using the reading comprehension support system of one aspect of the present invention, the document can be efficiently reviewed.
  • the reading comprehension support system of one aspect of the present invention can also be used to grasp one or both of the relevance and differences of a plurality of documents.
  • the reading comprehension support system according to one aspect of the present invention creates a first graph showing the structure of a plurality of designated documents using words and phrases contained in each designated document, and searches for each first graph. And the search result can be output. The user can also easily confirm the relevance and differences of a plurality of documents by comparing the output results.
  • the reading comprehension support system may have a function of comparing search results for a plurality of documents and presenting at least one of relevance and difference.
  • the reading comprehension support system of one aspect of the present invention can create a graph showing the shortest path between designated words in each document as a search result. Then, by vectorizing the graph and calculating the similarity of each vector, the similarity of a plurality of documents can be evaluated.
  • each first graph may be output, and the designated words / phrases may be accepted for each designated document.
  • a designated phrase common to all designated documents may be accepted. If synonyms or synonyms exist in other designated documents for words and phrases contained in a certain designated document, it is preferable to link these words and phrases. For example, if "insulating film” and "insulating layer” are linked and “insulating film” is selected as the designated phrase, in one designated document, the graph is searched using "insulating film", and in another designated document, the graph is searched. The graph may be searched using the "insulating layer".
  • FIG. 1 shows a block diagram of the reading comprehension support system 100.
  • the reading comprehension support system 100 includes a reception unit 110, a storage unit 120, a processing unit 130, an output unit 140, and a transmission line 150.
  • the reading comprehension support system 100 may be provided in an information processing device such as a personal computer used by the user.
  • the server may be provided with a processing unit of the reading comprehension support system 100, and may be accessed and used from the client PC via the network.
  • the reception unit 110 receives the designated document. In addition, the reception unit accepts designated words and phrases. The data supplied to the reception unit 110 is supplied to one or both of the storage unit 120 and the processing unit 130 via the transmission line 150.
  • a document is a description of an event in natural language, which is digitized and machine-readable.
  • Documents include, but are not limited to, patent application documents, case law, contracts, contracts, product manuals, novels, publications, white papers, technical documents, and the like.
  • the storage unit 120 has a function of storing a program executed by the processing unit 130. Further, it is preferable that the storage unit 120 has a function of storing the graph generated by the processing unit 130. The graph should be associated with the document so that you can see from which document it was created. Further, the storage unit 120 may have a function of storing the calculation result and the inference result generated by the processing unit 130, the data input to the reception unit 110, and the like.
  • the storage unit 120 has at least one of a volatile memory and a non-volatile memory.
  • volatile memory include DRAM (Dynamic Random Access Memory) and SRAM (Static Random Access Memory).
  • SRAM Static Random Access Memory
  • non-volatile memory ReRAM (Restive Random Access Memory, also referred to as resistance change type memory), PRAM (Phase-change Random Access Memory), FeRAM (Feroelectric Random Memory Memory Access Memory), FeRAM (Feroelectric Random Memory Access Memory) Also referred to as), flash memory, and the like.
  • the storage unit 120 may have a recording media drive. Examples of the recording media drive include a hard disk drive (Hard Disk Drive: HDD), a solid state drive (Solid State Drive: SSD), and the like.
  • the storage unit 120 may have a database having document data.
  • the reading comprehension support system 100 may have a function of extracting document data from a database existing outside the system.
  • the reading comprehension support system may have a function of retrieving data from a database existing outside the system.
  • the reading comprehension support system 100 may have a function of extracting data from both its own database and an external database.
  • the database can be configured to include, for example, one or both of text data and image data.
  • the database instead of the database, one or both of the storage and the file server may be used.
  • the database when using a file owned by a file server, it is preferable that the database has a path of the file stored in the file server.
  • the database may be an application database.
  • the application include a patent application, a utility model registration application, and an application relating to intellectual property such as a design registration application.
  • the status of each application is not limited, and it does not matter whether it is published, whether it is pending at the JPO, or whether it is registered.
  • the application database can have at least one of a pre-examination application, an under-examination application, and a registered application, and may have all of them.
  • the application database preferably has one or both of the specification and claims in a plurality of patent applications.
  • the specification and claims are stored, for example, as text data.
  • the application database contains the application management number (including the company's own number) for identifying the application, the application family management number for identifying the application family, the application number, the publication number, the registration number, the drawing, the abstract, the filing date, etc. It may have at least one such as priority date, publication date, status, classification (patent classification, utility model classification, etc.), category, and keyword. Each of these pieces of information may be used to identify a document when accepting a designated document. Alternatively, each of these pieces of information may be output together with the processing result of the processing unit 130.
  • the database has at least the textual data of the document.
  • the database may further have at least one number, title, date such as publication date, author, publisher, etc. that identifies each document.
  • Each of these pieces of information may be used to identify a document when accepting a designated document. Alternatively, each of these pieces of information may be output together with the processing result of the processing unit 130.
  • the processing unit 130 has a function of performing processing such as calculation and inference using data supplied from one or both of the reception unit 110 and the storage unit 120. Further, the processing unit 130 has a function of performing processing using various data included in the database. The processing unit 130 can supply processing results such as calculation results and inference results to one or both of the storage unit 120 and the output unit 140.
  • the processing unit 130 has a function of performing morphological analysis.
  • the processing unit 130 has a function of dividing each sentence included in the document into the smallest unit (also referred to as a token, a morpheme, a word, etc.) having a meaning in the language, and discriminating the part of speech of each token.
  • the process of dividing each sentence into the smallest units can also be called lexical analysis.
  • the processing unit 130 preferably has a function of performing compound word analysis. In other words, it is preferable to have a function of performing morphological analysis in consideration of compound words (compound nouns and the like). For example, the processing unit 130 has a function of generating a new token whose part of speech is a compound noun (redefining the token) by combining several tokens in order to group consecutive nouns in one sentence. Is preferable. Even if the part of speech of the token is a compound noun, the part of speech of the token may be simply described as a noun.
  • the processing unit 130 has a function of calculating the distance between each token. For example, it is preferable that the processing unit 130 can acquire information that the two tokens are in the same sentence or in the same paragraph. Further, it is preferable that the processing unit 130 can calculate how many paragraphs, sentences, words, or character strings the two tokens are separated from each other.
  • the processing unit 130 has a function of acquiring related words of each token.
  • Related words include synonyms, synonyms, hypernyms, and hyponyms.
  • the processing unit 130 has a function of calculating the degree of similarity between the tokens.
  • a dictionary such as a concept dictionary.
  • the dictionary may be possessed by the reading comprehension support system or may be provided outside the system.
  • a conceptual dictionary is a list with word classifications, relationships with other words, and so on.
  • the concept dictionary may be an existing concept dictionary.
  • a concept dictionary specialized in the field of documents may be created.
  • words are vectorized (quantified), one or both of the similarity and distance between multiple words are calculated, and the degree of similarity between multiple words or the closeness of distance is used as a basis. You may get the related words of the node.
  • Examples of the method for obtaining the similarity between the two vectors include cosine similarity, covariance, unbiased covariance, and Pearson's product-moment correlation coefficient. Of these, it is particularly preferable to use the cosine similarity.
  • Methods for determining the distance between the two vectors include the Euclidean distance, the standard (standardized, average) Euclidean distance, the Maharanobis distance, the Manhattan distance, the Chebyshev distance, and the Minkowski distance.
  • the processing unit 130 may have a function of calculating the appearance frequency of each token. For example, it is preferable to calculate the TF (Term Frequency) value of each token.
  • the TF value can represent the frequency of appearance of each token in the designated document.
  • the processing unit 130 may have a function of calculating the importance of each token. For example, it is preferable to calculate the TF-IDF (Term Frequency-Inverse Document Frequency) value of each token.
  • the IDF value represents the degree to which tokens appear concentrated in some documents. The IDF value of the token that appears in many documents is small, and the IDF value of the token that appears only in some documents is large. For example, it is preferable to calculate the IDF value of the token using the document contained in the database. By obtaining the product of the TF value and the IDF value of each token, it is possible to calculate the score of whether or not the token is a token that characterizes the designated document.
  • the processing unit 130 has a function of creating a graph showing the structure of the document by using the words and phrases contained in the document.
  • the graph has nodes (vertices) and edges (edges). Each node and edge can have a label.
  • the above token can be used as the label of the node.
  • a token whose part of speech is a noun can be used as a label for a node.
  • the edge label the distance between each of the above tokens and one or both of the related terms of each token can be used.
  • a directed graph using an edge having an orientation or an undirected graph using an edge having no orientation may be created.
  • edges are connected by edges.
  • the edge between the two nodes may be single or plural.
  • straight lines and curves can be used to represent the edges.
  • the structure of one document may be represented by a plurality of graphs.
  • both directed and undirected graphs may be used to represent the structure of a document.
  • An unorientated edge preferably connects the two nodes so that the relationship between the two nodes in the document can be understood.
  • the conditions for connecting nodes are that nodes in the same sentence are connected by edges, nodes in the same paragraph are connected by edges, and within a predetermined distance (for example, a certain number of words or a certain number of characters). For example, connecting nodes with edges.
  • the processing unit 130 has a function of performing parsing. In other words, it is preferable that the processing unit 130 has a function of dividing each sentence included in the document into tokens, determining the part of speech of each token, and determining the dependency of each token. Note that some of the processes included in the syntax analysis can also be referred to as the above-mentioned lexical analysis or morphological analysis. By parsing, the direction of the dependency can be indicated by an arrow in the directed graph.
  • the edge may be directed from a node that appears earlier to a node that appears later. Further, the direction of the edge may be determined based on the relationship between the dependencies obtained by parsing, the relationship between the hypernym and the hyponym, the frequency of occurrence, or the importance of the word.
  • the graph may be created based on the rules based on the relationship between the dependencies of the tokens. Further, the graph may be created using a trained model using machine learning. For example, a conditional random field (CRF) may be used to perform machine learning to label nodes and edges based on a list of tokens. This makes it possible to label nodes and edges based on the list of tokens.
  • CRF conditional random field
  • RNN recurrent neural network
  • LSTM long short-term memory
  • a list of tokens is input and the orientation of the node and edge is output. You may study. This allows you to output the node and edge orientations from the list of tokens.
  • the processing unit 130 has a function of searching for the created graph.
  • the processing unit 130 can find the shortest path between each of the plurality of words.
  • Examples of the method for finding the shortest path include the Dijkstra method, the Bellman-Ford method, and the Floyd-Warshall method.
  • the route with the smallest number of included nodes (phrases) can be the shortest route.
  • the processing unit 130 has a function of creating a graph showing the shortest path between each of the plurality of designated words.
  • the graph created by the processing unit 130 is output by the output unit 140.
  • the processing unit 130 has a function of vectorizing a graph which is a search result (for example, a graph showing the shortest path between each of a plurality of designated words).
  • a search result for example, a graph showing the shortest path between each of a plurality of designated words.
  • Examples of the method for vectorizing a graph include the Weisfiler-Lehman kernel.
  • the processing unit 130 has a function of calculating the similarity of the vectors. This makes it possible to vectorize the graph that is the search result of a plurality of documents and calculate the similarity of the plurality of documents.
  • the similarity of a plurality of documents may be determined with high accuracy by using a graph created by abstracting tokens.
  • abstracting the token the document can be grasped conceptually. Therefore, it is not easily affected by the structure and expression of the document, and the similarity can be calculated based on the concept of the document.
  • the processing unit 130 may create both a graph created by abstracting the tokens for reading comprehension support and a graph created by abstracting the tokens for calculating the similarity. ..
  • the abstraction of tokens means replacing tokens with representative words or hypernyms.
  • the acquisition of the representative word and the hypernym may be performed by using a concept dictionary or by machine learning.
  • the abstraction of tokens is carried out, for example, by vectorizing the tokens with the morphemes contained in the tokens and classifying them by a classifier.
  • a classifier an algorithm such as a decision tree, a support vector machine, a random forest, or a multi-layer perceptron may be used.
  • “oxide semiconductors”, “amorphous semiconductors”, “silicon semiconductors”, and “GaAs semiconductors” may be classified into “semiconductors”.
  • oxide semiconductor layer In addition, “oxide semiconductor layer”, “oxide semiconductor film”, “amorphous semiconductor layer”, “amorphous semiconductor film”, “silicon semiconductor layer”, “silicon semiconductor film”, “GaAs semiconductor layer” and “GaAs semiconductor” “Film” should also be classified as “semiconductor”.
  • the processing unit 130 may have, for example, an arithmetic circuit.
  • the processing unit 130 can have, for example, a central processing unit (CPU: Central Processing Unit).
  • the processing unit 130 may have a microprocessor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit).
  • the microprocessor may have a configuration realized by a PLD (Programmable Logic Device) such as FPGA (Field Programmable Gate Array) or FPGA (Field Programmable Analog Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • FPGA Field Programmable Analog Array
  • the processing unit 130 may have a main memory.
  • the main memory has at least one of a volatile memory such as RAM (Random Access Memory) and a non-volatile memory such as ROM (Read Only Memory).
  • RAM Random Access Memory
  • ROM Read Only Memory
  • RAM for example, DRAM, SRAM, or the like is used, and a memory space is virtually allocated and used as a work space of the processing unit 130.
  • the operating system, application program, program module, program data, lookup table, etc. stored in the storage unit 120 are loaded into the RAM for execution. These data, programs, and program modules loaded in the RAM are each directly accessed and operated by the processing unit 130.
  • the ROM can store BIOS (Basic Input / Output System), firmware, and the like that do not require rewriting.
  • BIOS Basic Input / Output System
  • Examples of the ROM include a mask ROM, an OTPROM (One Time Program Read Only Memory), an EPROM (Erasable Programmable Read Only Memory), and the like.
  • Examples of EPROM include UV-EPROM (Ultra-Violet Erasable Project Only Memory), EEPROM (Electrically Erasable Erasable Memory), etc., which enable erasure of stored data by ultraviolet irradiation.
  • the reading comprehension support system uses artificial intelligence (AI: Artificial Intelligence) for at least a part of the processing.
  • AI Artificial Intelligence
  • ANN Artificial Neural Network
  • neural network are realized by circuits (hardware) or programs (software).
  • the neural network refers to a general model that imitates the neural network of an organism, determines the connection strength between neurons by learning, and has problem-solving ability.
  • the neural network has an input layer, an intermediate layer (hidden layer), and an output layer.
  • determining the connection strength (also referred to as a weighting coefficient) between neurons from existing information may be referred to as "learning”.
  • the output unit 140 outputs information based on the processing result of the processing unit 130. For example, one or both of the calculation result and the inference result in the processing unit 130 can be supplied to the outside of the reading comprehension support system 100. Further, the output unit 140 can output various data included in the database based on the processing result of the processing unit 130. The output unit 140 can output information to a display, a speaker, or the like used by the user.
  • the transmission line 150 has a function of transmitting data. Data can be transmitted / received between the reception unit 110, the storage unit 120, the processing unit 130, and the output unit 140 via the transmission line 150.
  • the reading comprehension support method of one aspect of the present invention includes the processes from step S1 to step S6 shown in FIG.
  • step S1 the designated document is accepted.
  • the designated document is, for example, a document that the user wants to read.
  • the designated document may be singular or plural.
  • the user can directly input the text data of the designated document. Further, the image data of one or both of the drawings and the table included in the designated document may be input together with the text data.
  • the voice data or image data is converted into text data before proceeding to step S2.
  • the designated document is a document included in the database or the like
  • the user can specify the document to be read by inputting the information for specifying the document (searching the database).
  • the reading comprehension support system extracts data related to the designated document (specifically, data necessary for subsequent processing) from a database or the like based on the information input by the user.
  • Information that identifies the document includes a number that identifies the document, a title, and the like.
  • the user may specify a part of the document when he / she wants to read a part of the designated document (for example, a specific chapter).
  • step S2 a graph showing the structure of the designated document is created using the words and phrases included in the designated document.
  • a graph is created for each designated document.
  • one or more graphs can be created for one designated document.
  • each sentence is divided into tokens, the part of speech of each token is determined, and the dependency of each token is further determined.
  • step S2 it is preferable to perform compound word analysis. That is, it is preferable to generate a new token by combining several tokens after the part of speech of the token is determined. For example, it is possible to combine consecutive nouns in one sentence into one to generate a new token whose part of speech is a compound noun.
  • each token is used for the label of the node, and each node is connected at the edge.
  • the conditions for connecting the nodes at the edge can be determined as appropriate.
  • a node connecting at an edge can be determined based on the distance in the document between the tokens used for the node's label.
  • the two words and phrases can be directly connected.
  • the two words and phrases can be directly connected.
  • a sentence containing one phrase exists in the vicinity of the sentence containing the other phrase (for example, it exists within n sentences before and after (n is an integer of 1 or more, preferably 1 or more). In the case of an integer of 5 or less, more preferably an integer of 3 or more and 5 or less)), the two words can be directly connected.
  • one or both of the appearance frequency and importance of each token may be calculated in order to determine the direction of the edge.
  • step S2 it is preferable to acquire one or both of the token distance information and the token relevance information.
  • the acquired token distance information and the token relevance information can be displayed in characters as edge labels when the graph is visualized.
  • the color or thickness of the edges may be determined according to the closeness of the distance.
  • the color or thickness of the edges may be determined depending on the strength of the relevance.
  • edge information For example, as the distance information of two tokens, whether the two tokens were in the same sentence, in the same paragraph, how many paragraphs, sentences, words, or character strings were separated, etc. are registered as edge information. be able to.
  • the edge information As information relating to the relevance of two words, it is possible to indicate that one word is a related word of the other word, the degree of relevance of the two words, and the like on the edge label.
  • Related words include synonyms, synonyms, hypernyms, and hyponyms.
  • other tokens words such as noun phrases, verb phrases, adverb phrases, etc.
  • sentences indicating the relationship between the two words can be registered as edge information.
  • FIGS. 3A to 3D show Japanese and the corresponding Roman alphabet.
  • FIG. 3A shows the sentence 300 "the oxide semiconductor layer is above the insulator layer (SANKABUTSUHANDOUTAISOUHAZETSUENTAISOUNOJOUHOUNIARU)".
  • step S2 the sentence 300 is morphologically analyzed, the sentence 300 is divided into a plurality of tokens, and the part of speech of each token is determined.
  • sentence 300 is divided into 12 tokens from token 301 to token 312.
  • the part of speech is written below each token.
  • the character string of the token 301 shown in FIG. 3B is "oxidation (SANKA)", the character string of the token 302 is “thing (BUTSU)”, and the character string of the token 303 is “semiconductor”. (HANDOUTAI) ”, and the character string of the token 304 is“ layer (SOU) ”.
  • the part of speech of tokens 301 to 304 is a noun. Therefore, as shown in FIG. 3C, they are combined into one token 321.
  • the character string of the token 321 is "SANKABUTSUHANDOUTIASOU", and the part of speech is a noun (compound noun).
  • the character string of the token 305 shown in FIGS. 3B and 3C is "ha (HA)", and the part of speech is a particle.
  • the character string of the token 306 shown in FIG. 3B is "ZETSUEN"
  • the character string of the token 307 is “body (TAI)”
  • the character string of the token 308 is “layer (SOU)”.
  • the part of speech of tokens 306 to 308 are all nouns. Therefore, as shown in FIG. 3C, they are combined into one token 322.
  • the character string of the token 322 is an "insulator layer (ZETSUENTAISOU)", and the part of speech is a noun (compound noun).
  • the character string of the token 309 shown in FIGS. 3B and 3C is "(NO)", and the part of speech is a particle.
  • the character string of the token 310 is "JOUHOU”, and the part of speech is a noun.
  • the character string of the token 311 is "ni (NI)”, and the part of speech is a particle.
  • the character string of the token 312 is "ARU”, and the part of speech is a verb.
  • FIG. 3D shows an example in which the sentence 300 is graphed.
  • the token 321 and the token 322 whose part of speech is a noun are used for the labels of the node 323 and the node 324, and the token 310 whose part of speech is a noun is used for the label 325 of the edge.
  • the edge label 325 may represent at least one of information on the distance between nodes, information on node relevance, and the like, instead of or in addition to the token.
  • the arrows shown in FIG. 3D are shown pointing from node 323 to node 324. That is, the start point of the arrow is a token that appears first in the sentence 300, and the end point of the arrow is a token that appears later.
  • the method of determining the direction of the arrow is not limited to this, and the above-mentioned example can be referred to. Therefore, in some cases, the start point of the arrow may be the node 324 and the end point of the arrow may be the node 323. However, it is desirable to unify the method of determining the direction of the arrow in the graph.
  • the structure of the entire document can be represented by one graph.
  • one or both of the node 323 and the node 324 may be further connected to a phrase present in the other sentence via an edge.
  • a part of the document may be represented by one graph.
  • You may also create a graph for each chapter of the document. That is, a plurality of graphs may be created from one document.
  • FIG. 4A shows the sentence 330 "A semiconductor device device composing: an oxide semiconductor device layer over an insulator layer.”
  • step S2 it is preferable to perform a document cleaning process.
  • the cleaning process removes noise contained in the document.
  • the cleaning process includes removing a semicolon, replacing a colon with a comma, and so on.
  • the accuracy of morphological analysis can be improved.
  • the semicolon can be deleted and the sentence 330a can be obtained as shown in FIG. 4B.
  • the sentence 330a is divided into a plurality of tokens by performing a morphological analysis of the sentence 330a.
  • the part of speech of the token is not shown in FIG. 4C, the part of speech of each token can be determined by morphological analysis.
  • sentence 330a is divided into 12 tokens from token 331 to token 342.
  • the character string of the token 331 shown in FIG. 4C is "A”
  • the character string of the token 332 is “semiconductor”
  • the character string of the token 333 is "device”.
  • the part of speech of token 331 is an indefinite article
  • the part of speech of token 332 and token 333 are all nouns. Therefore, as shown in FIG. 4D, they are combined into one token 351.
  • the character string of the token 351 is "A semiconductor device”
  • the part of speech is a noun (compound noun).
  • the character string of the token 335 shown in FIG. 4C is "an"
  • the character string of the token 336 is "oxide”
  • the character string of the token 337 is “semiconductor”
  • the character string of the token 338 is. Is a "layer”.
  • the part of speech of token 335 is an indefinite article
  • the part of speech of tokens 336 to 338 is a noun. Therefore, as shown in FIG. 4D, they are combined into one token 352.
  • the character string of the token 352 is "an oxide semiconductor layer”
  • the part of speech is a noun (compound noun).
  • the character string of the token 340 shown in FIG. 4C is "an"
  • the character string of the token 341 is “insulator”
  • the character string of the token 342 is "layer”.
  • the part of speech of token 340 is an indefinite article
  • the part of speech of tokens 341 and 342 is a noun. Therefore, as shown in FIG. 4D, they are combined into one token 353.
  • the character string of the token 353 is "aninsulator layer", and the part of speech is a noun (compound noun).
  • step S2 the sentence 330 is graphed.
  • FIG. 4E shows an example of graphing sentence 330.
  • the tokens 351 to 353 whose part words are nouns are used for the labels of the nodes 354 to 356, the token 334 is used for the label 357 of the edge between the node 354 and the node 355, and the token 339 is used for the node 355 and the node.
  • An example used for label 358 of the edge between 356 is shown.
  • One of the arrows shown in FIG. 4E is shown pointing from node 354 to node 355, and the other arrow is shown pointing from node 355 to node 356. That is, the start point of the arrow is a token that appears first in the sentence 330, and the end point of the arrow is a token that appears later.
  • the process from the document to the creation of the graph has been described by taking sentences in Japanese and sentences in English as examples, but the process is particularly limited to the language of the document. There is no. For example, even in a document in which a language such as Chinese, Korean, German, French, Russian, or Hindi is used, a graph can be created from the document by going through the same process.
  • step S3 a plurality of words and phrases included in the graph are output.
  • the output method is not particularly limited, and for example, a list of words and phrases can be displayed as a list. Further, the graph itself created in step S2 may be displayed. Also, both a graph and a list may be displayed.
  • step S4 a plurality of designated words and phrases are accepted.
  • the user selects a plurality of designated words / phrases from the plurality of words / phrases output in step S3.
  • Table 1 shows an example in which a plurality of words / phrases are displayed as a list in step S3 and the user specifies the words / phrases in step S4. As shown in Table 1, in the following, a case where two of "layer A" and "layer B" are selected as a plurality of designated words and phrases will be described as an example.
  • step S5 the graph is searched using the plurality of designated words and phrases received in step S4.
  • step S5 the shortest path between each of the plurality of designated words in the graph can be calculated.
  • FIG. 5A shows an example in which only the parts related to “layer A” and “layer B” are extracted from the graph created in step S2.
  • the graph shown in FIG. 5A has nodes 151 to 156.
  • “Layer A” is the label of the node 151
  • “layer B” is the label of the node 152.
  • a node 153 having "layer C” as a label, a node 154 having "word D” as a label, a node 155 having "word E” as a label, and a node 156 having "word F” as a label are nodes. It is included in the route connecting 151 and node 152.
  • FIGS. 5 to 7 the nodes to which the designated phrase is attached as a label are shown by hatching with diagonal lines.
  • the route with the smallest number of included nodes can be said to be the shortest route. That is, in the graph shown in FIG. 5A, the shortest path connecting the node 151 and the node 152 is a route via the node 153 having "layer C" as a label (the route shown by a thick line in FIG. 5A). In this way, the shortest path between each of the plurality of designated words is calculated.
  • step S6 In step S6, the result of searching the graph in step S5 is output.
  • FIG. 5B The shortest path connecting the node 151 and the node 152 in FIG. 5A is shown in FIG. 5B.
  • the relationship between “layer A” and “layer B” can be presented.
  • “layer C” is included in the information that the user wants to grasp. It is possible to show the user that it may be strongly related.
  • At least one of the edge labels, orientations, colors, and thicknesses can be used to further present information about the plurality of designations.
  • the undirected graph shown in FIG. 5B is shown as a directed graph. Further, a label 159 is given to the edge between the node 151 and the node 153, and a label 160 is given to the edge between the node 153 and the node 152.
  • layer A is a hypernym of "layer C”.
  • a specific example of “layer A” is a “semiconductor layer”
  • a specific example of “layer C” is an "oxide semiconductor layer”.
  • the edge information can be used to present to the user information about the designated phrase shown to the node.
  • the graphs displayed in step S6 are not limited to one.
  • the length of the edge and the position of the node associated therewith can be displayed differently, and are not particularly limited.
  • FIG. 6 shows an example of the output content.
  • FIG. 6 shows an example in which three designated words, “layer A”, “layer B”, and “device G” are selected.
  • Graph 510 shown in FIG. 6 has nodes 151 to 153, node 157, and node 158.
  • Layer A is the label of node 151
  • layer B is the label of node 152
  • device G is the label of node 157.
  • the node 153 having "layer C” as a label and the node 158 having "word H” as a label are included in the graph 510.
  • Graph 510 shows the shortest path between each of the plurality of designated terms. It can be seen that the shortest path of "layer A” and “layer B” is a route connected via the complementary phrase “layer C”. It can be seen that the route directly connected to "layer A” and “device G” is the shortest route. It can be seen that the shortest path for "device G” and “layer B” is the route connected via the complementary phrase "word H”.
  • the extracted sentence 520 shown in FIG. 6 is the result of extracting a sentence from the document based on each shortest path.
  • the graph 510 is created by directly connecting tokens contained in the same sentence or the same paragraph will be described as an example.
  • the sentence extracted as the extracted sentence 520 contains information such as a figure, a table, a mathematical formula, or a chemical formula
  • FIG. 7 shows an output example of a graph different from that of FIG.
  • FIG. 7 shows an example in which five designated words, “layer A”, “layer B”, “layer C”, “layer D”, and “layer E” are selected.
  • the graph shown in FIG. 7 has nodes 161 to 167.
  • Layer A is the label of node 161
  • layer B is the label of node 162
  • layer C is the label of node 163
  • layer D is the label of node 164
  • “E” is node 165.
  • a node 166 having "word X” as a label and a node 167 having "word Y” as a label are included in the graph.
  • FIG. 7 shows the shortest path between each designated phrase.
  • the directly connected route is the shortest route for “layer A” and “layer B”.
  • the route directly connected to "layer A” and “layer C” is the shortest route.
  • the shortest path for "layer A” and “layer E” is a route connected via the complementary phrase "word Y”.
  • layer B and “layer E” are a route connected via the designated phrase “layer C” and the complementary phrase “word Y”, and the complementary phrases “word X” and “word”, respectively. It can be seen that there are two shortest paths, one connected via "Y”. In this case, two shortest paths can be shown and sentences can be extracted based on each.
  • the graph can be created and searched in the same manner as described above, and the search result can be output.
  • the user can easily confirm the relevance and differences of a plurality of documents by comparing the output results.
  • the similarity of a plurality of documents may be evaluated and presented to the user by vectorizing a graph showing the shortest path between the designated words as a search result and calculating the similarity of each vector.
  • the reading comprehension support system of the present embodiment it is possible to present a graph showing the relevance of a plurality of designated words and phrases of the document designated by the user, and to support the reading comprehension of the document to the user.
  • the user can efficiently read the document. This allows the user to quickly find the required information in the document.
  • FIG. 8 shows a block diagram of the reading comprehension support system 210.
  • the reading comprehension support system 210 includes a server 220 and a terminal 230 (personal computer or the like).
  • a server 220 for the same components as the reading comprehension support system 100 shown in FIG. 1, the description of the ⁇ reading comprehension support system 1> of the first embodiment can also be referred to.
  • the server 220 has a communication unit 171a, a transmission line 172, a storage unit 120, and a processing unit 130. Although not shown in FIG. 8, the server 220 may further include at least one such as a reception unit, a database, an output unit, and an input unit.
  • the terminal 230 has a communication unit 171b, a transmission line 174, an input unit 115, a storage unit 125, a processing unit 135, and a display unit 145.
  • Examples of the terminal 230 include a tablet-type personal computer, a notebook-type personal computer, and various portable information terminals. Further, the terminal 230 may be a desktop personal computer having no display unit 145, and the terminal 230 may be connected to a monitor or the like functioning as the display unit 145.
  • the user of the reading comprehension support system 210 inputs information about the designated document to the server 220 from the input unit 115 of the terminal 230.
  • the information is transmitted from the communication unit 171b to the communication unit 171a.
  • the text data of the designated document is transmitted from the communication unit 171b to the communication unit 171a.
  • at least one kind of image data of drawings, chemical formulas, mathematical formulas, and tables may be transmitted.
  • information for specifying a document is transmitted from the communication unit 171b to the communication unit 171a.
  • the information received by the communication unit 171a is stored in the memory or the storage unit 120 of the processing unit 130 via the transmission line 172. Further, information may be supplied from the communication unit 171a to the processing unit 130 via the reception unit (see the reception unit 110 shown in FIG. 1).
  • the various processes described in ⁇ Reading Comprehension Support Method> of the first embodiment are performed by the processing unit 130. Since these processes are required to have high processing capacity, it is preferable to perform these processes in the processing unit 130 of the server 220. It is preferable that the processing unit 130 has a higher processing capacity than the processing unit 135.
  • the processing result of the processing unit 130 is stored in the memory or the storage unit 120 of the processing unit 130 via the transmission line 172. After that, the processing result is output from the server 220 to the display unit 145 of the terminal 230.
  • the processing result is transmitted from the communication unit 171a to the communication unit 171b. Further, various data included in the database may be transmitted from the communication unit 171a to the communication unit 171b based on the processing result of the processing unit 130. Further, the processing result may be supplied from the processing unit 130 to the communication unit 171a via the output unit (output unit 140 shown in FIG. 1).
  • Communication unit 171a and communication unit 171b Data can be transmitted and received between the server 220 and the terminal 230 by using the communication unit 171a and the communication unit 171b.
  • a hub, a router, a modem, or the like can be used as the communication unit 171a and the communication unit 171b.
  • Wired or wireless for example, radio waves, infrared rays, etc. may be used for transmitting and receiving data.
  • the transmission line 172 and the transmission line 174 have a function of transmitting data. Data can be transmitted and received between the communication unit 171a, the storage unit 120, and the processing unit 130 via the transmission line 172. Data can be transmitted / received between the communication unit 171b, the input unit 115, the storage unit 125, the processing unit 135, and the output unit 140 via the transmission line 174.
  • the input unit 115 can be used when the user specifies a document and a phrase.
  • the input unit 115 can have a function of operating the terminal 230, and specific examples thereof include a mouse, a keyboard, a touch panel, a microphone, a scanner, and a camera.
  • the reading comprehension support system 210 may have a function of converting voice data into text data.
  • at least one of the processing unit 130 and the processing unit 135 may have the function.
  • the reading comprehension support system 210 may have an optical character recognition (OCR) function. This makes it possible to recognize characters included in the image data and create text data.
  • OCR optical character recognition
  • at least one of the processing unit 130 and the processing unit 135 may have the function.
  • the storage unit 125 may store one or both of the data related to the designated document and the data supplied from the server 220. Further, the storage unit 125 may have at least a part of the data that the storage unit 120 can have.
  • the processing unit 135 has a function of performing an operation or the like using data supplied from the communication unit 171b, the storage unit 125, the input unit 115, and the like.
  • the processing unit 135 may have a function of executing at least a part of the processing that can be performed by the processing unit 130.
  • the processing unit 130 and the processing unit 135 can each have one or both of a transistor (OS transistor) having a metal oxide in the channel forming region and a transistor (Si transistor) having silicon in the channel forming region.
  • a transistor OS transistor
  • Si transistor silicon
  • a transistor using an oxide semiconductor or a metal oxide in the channel forming region is referred to as an Oxide Semiconductor transistor or an OS transistor.
  • the channel forming region of the OS transistor preferably has a metal oxide.
  • a metal oxide is a metal oxide in a broad sense. Metal oxides are classified into oxide insulators, oxide conductors (including transparent oxide conductors), oxide semiconductors (also referred to as Oxide Semiconductor or simply OS) and the like. For example, when a metal oxide is used for the semiconductor layer of a transistor, the metal oxide may be referred to as an oxide semiconductor. That is, when the metal oxide has at least one of an amplification action, a rectifying action, and a switching action, the metal oxide can be referred to as a metal oxide semiconductor, or OS for short.
  • the metal oxide contained in the channel forming region preferably contains indium (In).
  • the metal oxide contained in the channel forming region is a metal oxide containing indium, the carrier mobility (electron mobility) of the OS transistor becomes high.
  • the metal oxide contained in the channel forming region is preferably an oxide semiconductor containing the element M.
  • the element M is preferably at least one of aluminum (Al), gallium (Ga) and tin (Sn).
  • Other elements applicable to the element M include boron (B), silicon (Si), titanium (Ti), iron (Fe), nickel (Ni), germanium (Ge), yttrium (Y), and zirconium (Zr).
  • the element M is, for example, an element having a high binding energy with oxygen.
  • the metal oxide contained in the channel forming region is preferably a metal oxide containing zinc (Zn). Metal oxides containing zinc may be more likely to crystallize.
  • the metal oxide contained in the channel forming region is not limited to the metal oxide containing indium.
  • the semiconductor layer may be, for example, a metal oxide containing zinc, a metal oxide containing zinc, a metal oxide containing tin, or the like, such as zinc tin oxide or gallium tin oxide.
  • the processing unit 130 preferably has an OS transistor. Since the off-current of the OS transistor is extremely small, the data retention period can be secured for a long period of time by using the OS transistor as a switch for holding the electric charge (data) flowing into the capacitive element that functions as a storage element. .. By using this characteristic for at least one of the register and the cache memory of the processing unit 130, the processing unit 130 is operated only when necessary, and in other cases, the information of the immediately preceding processing is saved in the storage element. This makes it possible to turn off the processing unit 130. That is, normally off-computing becomes possible, and the power consumption of the reading comprehension support system can be reduced.
  • the display unit 145 has a function of displaying the output result.
  • Examples of the display unit 145 include a liquid crystal display device, a light emitting display device, and the like.
  • Examples of the light emitting element that can be used in the light emitting display device include an LED (Light Emitting Diode), an OLED (Organic LED), a QLED (Quantum-dot LED), and a semiconductor laser.
  • the display unit 145 is a display device using a shutter type or optical interference type MEMS (Micro Electro Electro Mechanical Systems) element, a microcapsule method, an electrophoresis method, an electrowetting method, or an electronic powder fluid (registered trademark). It is also possible to use a display device or the like using a display element to which a method or the like is applied.
  • MEMS Micro Electro Electro Mechanical Systems
  • FIG. 9 shows an image diagram of the reading comprehension support system of the present embodiment.
  • the reading comprehension support system shown in FIG. 9 has a server 5100 and a terminal (which can also be said to be an electronic device). Communication between the server 5100 and each terminal can be performed via the Internet line 5110.
  • the server 5100 can perform an operation using the data input from the terminal via the Internet line 5110.
  • the server 5100 can transmit the result of the calculation to the terminal via the Internet line 5110. This makes it possible to reduce the burden of calculation on the terminal.
  • FIG. 9 shows an information terminal 5300, an information terminal 5400, and an information terminal 5500 as terminals.
  • the information terminal 5300 is an example of a mobile information terminal such as a smartphone.
  • the information terminal 5400 is an example of a tablet terminal. Further, the information terminal 5400 can also be used as a notebook type information terminal by connecting to a housing 5450 having a keyboard.
  • the information terminal 5500 is an example of a desktop type information terminal.
  • the user can access the server 5100 from the information terminal 5300, the information terminal 5400, the information terminal 5500, and the like. Then, the user can receive the service provided by the administrator of the server 5100 by the communication via the Internet line 5110. Examples of the service include a service using the reading comprehension support method according to one aspect of the present invention. In the service, artificial intelligence may be used on the server 5100.
  • 100 Reading support system, 110: Reception unit, 115: Input unit, 120: Storage unit, 125: Storage unit, 130: Processing unit, 135: Processing unit, 140: Output unit, 145: Display unit, 150: Transmission path , 151: node, 152: node, 153: node, 154: node, 155: node, 156: node, 157: node, 158: node, 159: label, 160: label, 161: node, 162: node, 163.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ユーザにとって必要な情報を精度よく提示する文書の読解支援システムを提供する。 指定文書を受け付け、指定文書に含まれる語句を用いて指定文書の構造を表す第1のグラフを作成し、第1のグラフに含まれる語句を二つ以上出力し、出力した語句の中から複数の指定語句を受け付け、複数の指定語句を用いて第1のグラフを探索し、探索結果を出力する、読解支援システムを提供する。探索結果として、少なくとも、第1のグラフにおける複数の指定語句のいずれか二つの間の最短経路を示す第2のグラフを出力することができる。最短経路は、複数の指定語句のいずれか二つを、少なくとも一つの補完語句を介して結ぶ経路である。補完語句は、複数の指定語句とは異なる語句である

Description

読解支援システム及び読解支援方法
本発明の一態様は、文書の読解支援システム及び読解支援方法に関する。
なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置(例えば、タッチセンサなど)、入出力装置(例えば、タッチパネルなど)、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。
文書を読解する際、文書の読み方は、読み手の目的、または、文書の種類により異なる。文書全体を通して読む場合もあれば、読み手にとって必要な情報を探すことが目的で、文書から必要な情報が記載されている箇所を探して、該当箇所のみに目を通せば十分な場合もある。文書の中から必要な情報を探す方法としては、目次またはインデックスを用いる方法がある。電子化された文書であれば、キーワードとなる単語で検索して所望の情報を見つける方法もある。また、設定された規則に従って文書の構造解析を行う方法が提案されている(特許文献1)。
特開2014−219833号公報
目次またはインデックスを利用する場合、直接探したい言葉が目次またはインデックスで使われていないと、効率が悪い。キーワードでテキスト検索することで、文書全体からキーワードを含む文または段落を探すことが可能だが、効率よく所望の情報を見つけられない場合もある。効率よく見つけられない原因としては、キーワードでヒットする箇所が多すぎて欲しい情報に辿りつくまでに時間がかかる、単一のキーワードでは欲しい情報を絞り切れない、適当なキーワードが見つけられない、などが挙げられる。また、規則に従って文書の構造解析を行う場合は、読み取り対象の構造が制限されるため、様々な構造を持った文書に対応することが難しい。本発明の一態様は、これらの問題の少なくとも一つを解決するものである。
本発明の一態様は、ユーザにとって必要な情報を精度よく提示する文書の読解支援システムまたは文書の読解支援方法を提供することを課題の一つとする。本発明の一態様は、ユーザに対して文書の理解を支援する読解支援システムまたは読解支援方法を提供することを課題の一つとする。本発明の一態様は、ユーザにとって操作が容易な文書の読解支援システムまたは文書の読解支援方法を提供することを課題の一つとする。
なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。
本発明の一態様は、受付部、処理部、及び、出力部を有する読解支援システムである。受付部は、指定文書を受け付ける機能と、複数の指定語句を受け付ける機能と、を有する。処理部は、指定文書に含まれる語句を用いて指定文書の構造を表す第1のグラフを作成する機能と、複数の指定語句を用いて第1のグラフを探索する機能と、を有する。出力部は、第1のグラフに含まれる複数の語句を出力する機能と、第1のグラフの探索結果を出力する機能と、を有する。複数の指定語句は、第1のグラフに含まれる複数の語句の少なくとも一部である。
出力部は、探索結果として、少なくとも、第1のグラフにおける複数の指定語句のいずれか二つの間の最短経路を示す第2のグラフを出力することが好ましい。出力部は、指定文書中の、複数の指定語句を二つ以上含む段落における、指定語句を含む文を出力する機能を有することが好ましい。最短経路は、複数の指定語句のいずれか二つを、少なくとも一つの補完語句を介して結ぶ経路であり、補完語句は、複数の指定語句とは異なる語句であることが好ましい。出力部は、指定文書中の、複数の指定語句の少なくとも一つと、補完語句の少なくとも一つと、を含む段落における、指定語句及び補完語句の少なくとも一方を含む文を出力する機能を有することが好ましい。
または、出力部は、探索結果として、少なくとも、第1のグラフにおける複数の指定語句のそれぞれの間の最短経路を示す第2のグラフを出力することが好ましい。出力部は、指定文書中の、複数の指定語句を二つ以上含む段落における、指定語句を含む文を出力する機能を有することが好ましい。複数の指定語句のいずれか二つを結ぶ最短経路は、二つの指定語句を、少なくとも一つの補完語句を介して結ぶ経路であり、補完語句は、複数の指定語句とは異なる語句であることが好ましい。出力部は、指定文書中の、複数の指定語句の少なくとも一つと、補完語句の少なくとも一つと、を含む段落における、指定語句及び補完語句の少なくとも一方を含む文を出力する機能を有することが好ましい。
本発明の一態様の読解支援システムは、さらに、探索結果を記憶する記憶部を有することが好ましい。
本発明の一態様は、指定文書を受け付け、指定文書に含まれる語句を用いて指定文書の構造を表す第1のグラフを作成し、第1のグラフに含まれる語句を二つ以上出力し、出力した語句の中から複数の指定語句を受け付け、複数の指定語句を用いて第1のグラフを探索し、探索結果を出力する、読解支援方法である。
探索結果として、少なくとも、第1のグラフにおける複数の指定語句のいずれか二つの間の最短経路を示す第2のグラフを出力することが好ましい。探索結果とともに、指定文書中の、複数の指定語句を二つ以上含む段落における、指定語句を含む文を出力することが好ましい。最短経路は、複数の指定語句のいずれか二つを、少なくとも一つの補完語句を介して結ぶ経路であり、補完語句は、複数の指定語句とは異なる語句であることが好ましい。探索結果とともに、指定文書中の、複数の指定語句の少なくとも一つと、補完語句の少なくとも一つと、を含む段落における、指定語句及び補完語句の少なくとも一方を含む文を出力することが好ましい。
または、探索結果として、少なくとも、第1のグラフにおける複数の指定語句のそれぞれの間の最短経路を示す第2のグラフを出力することが好ましい。探索結果とともに、指定文書中の、複数の指定語句を二つ以上含む段落における、指定語句を含む文を出力することが好ましい。複数の指定語句のいずれか二つを結ぶ最短経路は、二つの指定語句を、少なくとも一つの補完語句を介して結ぶ経路であり、補完語句は、複数の指定語句とは異なる語句であることが好ましい。探索結果とともに、指定文書中の、複数の指定語句の少なくとも一つと、補完語句の少なくとも一つと、を含む段落における、指定語句及び補完語句の少なくとも一方を含む文を出力することが好ましい。
本発明の一態様により、ユーザにとって必要な情報を精度よく提示する文書の読解支援システムまたは文書の読解支援方法を提供できる。本発明の一態様により、ユーザに対して文書の理解を支援する読解支援システムまたは読解支援方法を提供できる。本発明の一態様により、ユーザにとって操作が容易な文書の読解支援システムまたは文書の読解支援方法を提供できる。
なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。
図1は、読解支援システムの一例を示す図である。
図2は、読解支援方法の一例を示す図である。
図3A乃至図3Dは、読解支援方法の一例を示す図である。
図4A乃至図4Eは、読解支援方法の一例を示す図である。
図5A乃至図5Cは、グラフの一例を示す図である。
図6は、出力内容の一例を示す図である。
図7は、グラフの一例を示す図である。
図8は、読解支援システムの一例を示す図である。
図9は、読解支援システムの一例を示す図である。
実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。
なお、「膜」という言葉と、「層」という言葉とは、場合によっては、又は、状況に応じて、互いに入れ替えることが可能である。例えば、「導電層」という用語を、「導電膜」という用語に変更することが可能である。または、例えば、「絶縁膜」という用語を、「絶縁層」という用語に変更することが可能である。
(実施の形態1)
本実施の形態では、本発明の一態様の読解支援システム及び読解支援方法について図1乃至図7を用いて説明する。
本発明の一態様の読解支援システムでは、指定文書を受け付け、指定文書に含まれる語句を用いて指定文書の構造を表す第1のグラフを作成し、第1のグラフに含まれる語句を二つ以上出力する。そして、出力した語句の中から複数の指定語句を受け付け、当該複数の指定語句を用いて第1のグラフを探索し、探索結果を出力する。なお、本明細書等において、グラフは、グラフ構造ということもできる。
第1のグラフの作成において、文書内で近い位置に存在する語句同士を直接つなぐことができる。例えば、二つの語句が同じ文に存在する場合、当該二つの語句を直接つなぐことができる。また、例えば、二つの語句が同じ段落に存在する場合、当該二つの語句を直接つなぐことができる。また、例えば、二つの語句について、一方の語句を含む文が他方の語句を含む文の近傍に存在する(例えば、前後n文以内に存在する(nは1以上の整数))場合、当該二つの語句を直接つなぐことができる。このように、文書中の位置が近い語句同士をつなぐことで、文書の構造を示すグラフを作成することができる。このようなグラフを作成することで、文書における各語句の関連性を示すことができる。
読解支援システムのユーザは、指定文書として、読解したい文書を指定する。ユーザは、さらに、指定語句として、入手したい情報に関係するキーワードを複数指定する。
ここで、文書に対して単純にキーワード検索を行う場合、読み手は、キーワードの同義語、類義語、及び、表記の揺らぎなども考慮して、検索に用いるキーワードを選定することが求められる。そのため、キーワード選定は読み手に取って負担となり、技量による差が生じやすい。一方、本発明の一態様の読解支援システムは、指定文書を受け付け、第1のグラフを作成した後、第1のグラフに含まれる語句を出力する。読解支援システムのユーザは、出力された語句の中から、キーワードを選択することができる。したがって、キーワードの選定が容易であり、ユーザの技量の差が生じにくく、文書から必要な情報を迅速に探し出すことができる。
また、読み手が複数のキーワードを選定しても、各キーワードが文書内で散在しており、選定した複数のキーワードの関係を理解しにくいことがある。例えば、書籍の索引を用いて複数のキーワードについて記載箇所を参照したものの、内容が繋がらない場合がある。そのため、さらにキーワードを増やす、または、参照した複数のページの間を読む、など、検索及び読解に時間がかかってしまうことがある。
本発明の一態様の読解支援システムは、受け付けた複数の指定語句を用いて第1のグラフを探索することで、複数の指定語句の関連性を示す第2のグラフを出力することができる。これにより、ユーザは、指定語句の関連性を容易に把握することができる。また、本発明の一態様の読解支援システムは、ユーザが指定した複数の指定語句が含まれる文を抽出し、出力することができる。ユーザは、抽出された文を読むことで、必要な情報を効率よく得ることができる。
本発明の一態様の読解支援システムは、第1のグラフにおける複数の指定語句のそれぞれの間の最短経路を提示することができる。例えば、当該最短経路を示す第2のグラフを出力することで、ユーザに、複数の指定語句の関連性を提示することができる。
例えば、第1の指定語句と第2の指定語句との間の最短経路には、他の指定語句が含まれる場合がある。ユーザは、複数の指定語句の関連性を把握し、文書の理解を深めることができる。
また、当該最短経路に、複数の指定語句とは異なる語句である補完語句が含まれる場合がある。このように、ユーザが指定していない補完語句を提示することで、文書の内容の把握及び理解を促進することができる。ユーザは、補完語句自体、さらには、補完語句と指定語句との関連性を把握することで、文書の理解をより深めることができる。補完語句は、指定文書に含まれる語句(つまり、第1のグラフに含まれる語句)であり、かつ、指定語句とは異なる語句である。
本発明の一態様の読解支援システムは、第2のグラフとともに、指定文書中の指定語句を含む文を出力することができる。このとき、例えば、いずれかの指定語句を含む文を全て出力することができる。しかし、指定語句によっては、出力される文が多すぎて、ユーザが欲しい情報にたどり着くまでに時間がかかる場合がある。
そこで、本発明の一態様の読解支援システムは、各最短経路に基づいて、文書から文を抽出し、出力することが好ましい。
例えば、指定文書中の複数の指定語句を二つ以上含む段落における、指定語句を含む文を出力することができる。また、例えば、指定文書中の、複数の指定語句の少なくとも一つと、補完語句の少なくとも一つと、を含む段落における、指定語句及び補完語句の少なくとも一方を含む文を出力することができる。
これにより、ユーザは、複数の指定語句の関連性を把握するために必要な文を効率よく確認することができる。そして、必要な情報を迅速に得ることができる。
なお、本発明の一態様の読解支援システムは、少なくとも、複数の指定語句のいずれか二つの間の最短経路を提示する。つまり、本発明の一態様の読解支援システムは、一部の指定語句の間の最短経路を提示してもよく、本発明の一態様の読解支援システムは、全ての指定語句の間の最短経路を提示してもよい。
例えば、ある二つの指定語句が他の語句を介しても結びつかず、経路を示せない場合がある。また、例えば、二つの指定語句の関連性の高さの判断基準を設け、システムが二つの指定語句の関連性が高いと判断した場合に、当該二つの指定語句の最短経路を提示してもよい。具体的には、ある二つの指定語句の最短経路が、所定の数以下の語句を介して結ばれる場合に、当該二つの指定語句の関連性が高いと判断することができる。逆に、ある二つの指定語句の最短経路が、所定の数より多くの語句を介して結ばれる場合は、当該二つの指定語句の関連性が低いと判断することができる。
本発明の一態様の読解支援システムは、文書の校閲に用いることもできる。例えば、指定語句のうち、他の指定語句と結びつかない孤立した語句が見つかる場合がある。このとき、本発明の一態様の読解支援システムは、他の指定語句と結びつかない語句を孤立語句として出力してもよい。また、関連のある指定語句どうしが結びついていないなど、出力されたグラフの内容が想定と異なる場合がある。このとき、文書中に誤記または記載漏れなどが生じている可能性がある。このように、本発明の一態様の読解支援システムを用いることで、効率よく文書を見直すことができる。
また、本発明の一態様の読解支援システムは、複数の文書の関連性及び相違点の一方または双方を把握するために用いることもできる。例えば、本発明の一態様の読解支援システムは、複数の指定文書について、各指定文書に含まれる語句を用いてそれぞれの構造を表す第1のグラフを作成し、それぞれの第1のグラフを探索し、探索結果を出力することができる。ユーザは、出力結果を比較することで、複数の文書の関連性及び相違点を容易に確認することもできる。
また、本発明の一態様の読解支援システムは、複数の文書について、探索結果を比較し、関連性及び相違点の少なくとも一方を提示する機能を有していてもよい。例えば、本発明の一態様の読解支援システムは、探索結果として、各文書において、指定語句間の最短経路を示すグラフを作成することができる。そして、当該グラフをベクトル化し、各ベクトルの類似度を算出することで、複数の文書の類似度を評価することができる。
このとき、各第1のグラフに含まれる語句を、それぞれ二つ以上出力し、指定文書ごとに指定語句を受け付けてもよい。また、全ての指定文書に共通の指定語句を受け付けてもよい。なお、ある指定文書に含まれる語句について、他の指定文書に類義語または同義語が存在する場合は、これらの語句を紐づけることが好ましい。例えば、『絶縁膜』と『絶縁層』を結びつけ、指定語句に『絶縁膜』が選ばれた場合、ある指定文書では、『絶縁膜』を用いてグラフを探索し、別の指定文書では、『絶縁層』を用いてグラフを探索してもよい。
<読解支援システム1>
図1に、読解支援システム100のブロック図を示す。読解支援システム100は、受付部110、記憶部120、処理部130、出力部140、及び、伝送路150を有する。
読解支援システム100は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。または、サーバに読解支援システム100の処理部を設け、クライアントPCからネットワーク経由でアクセスして利用する構成としてもよい。
[受付部110]
受付部110は、指定文書を受け付ける。また、受付部は、指定語句を受け付ける。受付部110に供給されたデータは、伝送路150を介して、記憶部120及び処理部130の一方または双方に供給される。
本明細書等において特に記載が無い場合、文書とは自然言語による事象の記述であり、電子化されて機械可読である。文書は、例えば、特許出願書類、判例、契約書、約款、製品マニュアル、小説、刊行物、白書、技術文書などであるが、これらに限定されない。
[記憶部120]
記憶部120は、処理部130が実行するプログラムを記憶する機能を有する。また、記憶部120は、処理部130が生成したグラフを記憶する機能を有することが好ましい。グラフは、どの文書から作成されたかがわかるよう、文書と紐付けされていることが望ましい。また、記憶部120は、処理部130が生成した演算結果及び推論結果、並びに、受付部110に入力されたデータなどを記憶する機能を有していてもよい。
記憶部120は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。揮発性メモリとしては、DRAM(Dynamic Random Access Memory)、及び、SRAM(Static Random Access Memory)等が挙げられる。不揮発性メモリとしては、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase−change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、及び、フラッシュメモリ等が挙げられる。また、記憶部120は、記録メディアドライブを有していてもよい。記録メディアドライブとしては、ハードディスクドライブ(Hard Disk Drive:HDD)、及び、ソリッドステートドライブ(Solid State Drive:SSD)等が挙げられる。
記憶部120は、文書データを有するデータベースを有していてもよい。
また、読解支援システム100は、システムの外部に存在するデータベースから、文書データを取り出す機能を有していてもよい。例えば、読解支援システムは、システムの外部に存在するデータベースからデータを取り出す機能を有していてもよい。
また、読解支援システム100は、自身が持つデータベースと、外部に存在するデータベースと、の双方からデータを取り出す機能を有していてもよい。
データベースは、例えば、テキストデータ及び画像データの一方または双方を有する構成とすることができる。
また、データベースの代わりに、ストレージ、及び、ファイルサーバの一方または双方を用いてもよい。例えば、ファイルサーバが有するファイルを利用する場合、データベースは、ファイルサーバに保存されたファイルのパスを有すると好ましい。
例えば、データベースとして、出願データベースが挙げられる。出願としては、特許出願、実用新案登録出願、及び、意匠登録出願等の知的財産に係る出願が挙げられる。各出願のステータスに限定は無く、公開の有無、特許庁における係属の有無、及び登録の有無はそれぞれ問わない。例えば、出願データベースは、審査前の出願、審査中の出願、及び、登録済みの出願のうち少なくとも一つを有することができ、全てを有していてもよい。
例えば、出願データベースは、複数の特許出願における明細書及び特許請求の範囲の一方または双方を有することが好ましい。明細書及び特許請求の範囲は、例えば、テキストデータで保存される。
出願データベースは、出願を識別するための出願管理番号(社内独自の番号を含む)、出願ファミリーを識別するための出願ファミリー管理番号、出願番号、公開番号、登録番号、図面、要約、出願日、優先日、公開日、ステータス、分類(特許分類、実用新案分類など)、カテゴリ、及び、キーワード等の少なくとも一つを有していてもよい。これらの情報は、それぞれ、指定文書を受け付ける際に、文書を特定するために用いてもよい。または、これらの情報は、それぞれ、処理部130の処理結果とともに、出力されてもよい。
そのほか、書籍、雑誌、新聞、及び論文など、様々な種類の文書の管理を、データベースで行うことができる。データベースは、文書の文章データを少なくとも有する。データベースは、さらに、各文書を識別する番号、タイトル、発行日などの日付、著者、及び、出版社等の少なくとも一つを有していてもよい。これらの情報は、それぞれ、指定文書を受け付ける際に、文書を特定するために用いてもよい。または、これらの情報は、それぞれ、処理部130の処理結果とともに、出力されてもよい。
[処理部130]
処理部130は、受付部110及び記憶部120の一方または双方から供給されたデータを用いて、演算及び推論などの処理を行う機能を有する。また、処理部130は、データベースに含まれる各種データを用いて処理を行う機能を有する。処理部130は、演算結果及び推論結果などの処理結果を、記憶部120及び出力部140の一方または双方に供給することができる。
処理部130は、形態素解析を行う機能を有する。言い換えると、処理部130は、文書に含まれる各文を、言語で意味を持つ最小単位(トークン、形態素、単語などともいう)に分割し、各トークンの品詞を判別する機能を有する。なお、各文を最小単位に分割する処理を、字句解析ということもできる。
処理部130は、複合語解析を行う機能を有することが好ましい。言い換えると、複合語(複合名詞など)を考慮して、形態素解析を行う機能を有することが好ましい。例えば、処理部130は、一文において連続する名詞をひとまとめにするためにいくつかのトークンを結合することで、品詞が複合名詞である新たなトークンを生成する(トークンを再定義する)機能を有することが好ましい。なお、トークンの品詞が複合名詞であっても、当該トークンの品詞を、単に、名詞であると記すことがある。
また、処理部130は、各トークンの間の距離を算出する機能を有することが好ましい。例えば、処理部130は、二つのトークンが同じ文にあること、または、同じ段落にあることなどを情報として取得できると好ましい。また、処理部130は、二つのトークンが、いくつの段落、文、単語、または文字列分、離れているか、を算出できることが好ましい。
また、処理部130は、各トークンの関連語を取得する機能を有することが好ましい。関連語としては、類義語、同義語、上位語、及び下位語などが挙げられる。また、処理部130は、各トークンの間の類似度を算出する機能を有することが好ましい。
関連語は、例えば、概念辞書等の辞書によって取得することができる。当該辞書は、読解支援システムが有していてもよく、システムの外部に備えられていてもよい。概念辞書は、単語の分類、他の単語との関係などが付与されたリストである。概念辞書は、既存の概念辞書であってもよい。または、文書の分野に特化した概念辞書などを作成してもよい。または、汎用的な概念辞書に、文書の分野に用いられやすい単語を追加してもよい。
また、語句をベクトル化(数値化)し、複数の語句の間の類似度及び距離の一方または双方を算出し、複数の語句の間の類似度の高さまたは距離の近さに基づいて、ノードの関連語を取得してもよい。
二つのベクトルの類似度を求める方法としては、コサイン類似度、共分散、不偏共分散、及び、ピアソンの積率相関係数などが挙げられる。このうち、特に、コサイン類似度を用いることが好ましい。
二つのベクトルの距離を求める方法としては、ユークリッド距離、標準(標準化、平均)ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、及び、ミンコフスキー距離などが挙げられる。
例えば、機械学習を用いて、語句の分散表現ベクトルを生成することが好ましい。また、ニューラルネットワークを用いて、語句の分散表現ベクトルを生成することがより好ましい。具体的には、関連語は、指定文書に含まれる語句の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出することが好ましい。または、関連語は、データベースなどに含まれる文書群に含まれる語句の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出することが好ましい。
また、処理部130は、各トークンの出現頻度を算出する機能を有していてもよい。例えば、各トークンのTF(Term Frequency)値を算出することが好ましい。TF値は、指定文書内での各トークンの出現頻度を表すことができる。
また、処理部130は、各トークンの重要度を算出する機能を有していてもよい。例えば、各トークンのTF−IDF(Term Frequency−Inverse Document Frequency)値を算出することが好ましい。IDF値は、トークンが一部の文書に集中して出現する度合いを表す。多くの文書に出現するトークンのIDF値は小さく、一部の文書にのみ出現するトークンのIDF値は大きくなる。例えば、データベースに含まれる文書を用いてトークンのIDF値を算出することが好ましい。各トークンのTF値とIDF値の積を求めることで、当該トークンが指定文書を特徴づけるトークンであるかどうかのスコアを算出することができる。
処理部130は、文書に含まれる語句を用いて文書の構造を表すグラフを作成する機能を有する。
グラフは、ノード(頂点)と、エッジ(辺)と、を有する。ノード及びエッジは、それぞれ、ラベルを有することができる。ノードのラベルとして、上記のトークンを用いることができる。例えば、品詞が名詞(複合名詞を含む)であるトークンをノードのラベルとして用いることができる。エッジのラベルとして、上記の各トークンの間の距離、及び、各トークンの関連語の一方または双方を用いることができる。
グラフとして、向きを有するエッジを用いた有向グラフと、向きを有さないエッジを用いた無向グラフと、のいずれを作成してもよい。
複数のノードは、エッジにより接続される。二つのノードの間のエッジは、単一であってもよく、複数であってもよい。グラフを表示する際、エッジの表現には直線及び曲線の一方または双方を用いることができる。
また、一つの文書の構造を複数のグラフで表してもよい。例えば、有向グラフと無向グラフの両方を用いて一つの文書の構造を表してもよい。
向きを有さないエッジは、文書における二つのノードの関連が理解できるように、二つのノードを接続することが好ましい。ノードを接続する条件としては、同じ文にあるノード同士をエッジで接続する、同じ段落にあるノード同士をエッジで接続する、所定の距離(例えば、一定単語数、または、一定文字数)内にあるノード同士をエッジで接続する、などが挙げられる。
有向グラフを作成する場合、処理部130は、構文解析を行う機能を有することが好ましい。言い換えると、処理部130は、文書に含まれる各文を、トークンに分割し、各トークンの品詞を判別し、各トークンの係り受けを判別する機能を有することが好ましい。なお、構文解析に含まれる一部の処理は、上述の字句解析、または形態素解析ということもできる。構文解析を行うことにより、有向グラフでは、係り受けの向きを矢印で示すことができる。
有向グラフの作成において、例えば、先に出現したノードから後に出現したノードにエッジを向けてもよい。また、構文解析によって取得した係り受けの関係、上位語と下位語の関係、出現頻度の高さ、または、単語の重要度の高さに基づいて、エッジの向きを決めてもよい。
グラフは、トークン同士の係り受けの関係から、ルールに基づいて作成してもよい。また、グラフは、機械学習を用いた学習済みモデルを用いて作成してもよい。例えば、条件付き確率場(Conditional random field:CRF)を用いて、トークンのリストを元に、ノード及びエッジにラベルを付与する機械学習を行ってもよい。これにより、トークンのリストを元に、ノード及びエッジにラベルを付与することができる。また、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)、長期短期記憶(Long short−term memory:LSTM)などを用いて、トークンのリストを入力して、ノードとエッジの向きを出力させるSeq2Seqモデルの学習を行ってもよい。これにより、トークンのリストから、ノードとエッジの向きを出力することができる。
また、処理部130は、作成したグラフを探索する機能を有する。例えば、処理部130は、複数の語句のそれぞれの間の最短経路を求めることができる。最短経路を求める手法としては、ダイクストラ法、ベルマン−フォード法、及び、ワーシャル−フロイド法などが挙げられる。例えば、含まれるノード(語句)の数が最も少ない経路を最短経路とすることができる。
また、処理部130は、複数の指定語句のそれぞれの間の最短経路を示すグラフを作成する機能を有する。処理部130が作成したグラフは、出力部140によって出力される。
また、処理部130は、探索結果であるグラフ(例えば、複数の指定語句のそれぞれの間の最短経路を示すグラフ)をベクトル化する機能を有することが好ましい。グラフをベクトル化する手法としては、Weisfeiler−Lehmanカーネルなどが挙げられる。
また、処理部130は、ベクトルの類似度を算出する機能を有することが好ましい。これにより、複数の文書の探索結果であるグラフをベクトル化し、複数の文書の類似度を算出することができる。
なお、複数の文書の類似度を求める場合には、トークンの抽象化を行って作成したグラフを用いることで、複数の文書の類似度を高精度で求められる場合がある。トークンを抽象化することで、文書を概念的に把握することができる。したがって、文書の構成及び表現の影響を受けにくく、文書の概念に基づいて、類似度を算出することができる。
一方で、ユーザが文書を正確に読解するためには、文書で用いられている語句そのものを提示することが好ましい。そのため、処理部130では、読解支援のための、トークンを抽象化せずに作成したグラフと、類似度算出のための、トークンを抽象化して作成したグラフと、の双方を作成してもよい。
なお、トークンの抽象化とは、トークンを代表語または上位語に置き換えることを指す。代表語及び上位語の取得は、概念辞書を利用してもよく、機械学習による分類を行ってもよい。トークンの抽象化は、例えば、トークンを、当該トークンに含まれる形態素でベクトル化して、分類器によって分類することで実施される。なお、当該分類器として、決定木、サポートベクターマシン、ランダムフォレスト、多層パーセプトロンなどのアルゴリズムを用いてもよい。具体的には、「酸化物半導体」、「アモルファス半導体」、「シリコン半導体」、および「GaAs半導体」を「半導体」に分類するとよい。また、「酸化物半導体層」、および「酸化物半導体膜」、「アモルファス半導体層」、「アモルファス半導体膜」、「シリコン半導体層」、「シリコン半導体膜」、「GaAs半導体層」および「GaAs半導体膜」も「半導体」に分類するとよい。
処理部130は、例えば、演算回路を有することができる。処理部130は、例えば、中央演算装置(CPU:Central Processing Unit)を有することができる。
処理部130は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部130は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部120のうち少なくとも一方に格納される。
処理部130はメインメモリを有していてもよい。メインメモリは、RAM(Random Access Memory)等の揮発性メモリ、及びROM(Read Only Memory)等の不揮発性メモリのうち少なくとも一方を有する。
RAMとしては、例えばDRAM、SRAM等が用いられ、処理部130の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部120に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部130に直接アクセスされ、操作される。
ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
読解支援システムは、少なくとも一部の処理に人工知能(AI:Artificial Intelligence)を用いることが好ましい。
読解支援システムは、特に、人工ニューラルネットワーク(ANN:Artificial Neural Network、以下、単にニューラルネットワークとも記す)を用いることが好ましい。ニューラルネットワークは、回路(ハードウェア)またはプログラム(ソフトウェア)により実現される。
本明細書等において、ニューラルネットワークとは、生物の神経回路網を模し、学習によってニューロンどうしの結合強度を決定し、問題解決能力を持たせるモデル全般を指す。ニューラルネットワークは、入力層、中間層(隠れ層)、及び出力層を有する。
本明細書等において、ニューラルネットワークについて述べる際に、既にある情報からニューロンとニューロンの結合強度(重み係数ともいう)を決定することを「学習」と呼ぶ場合がある。
本明細書等において、学習によって得られた結合強度を用いてニューラルネットワークを構成し、そこから新たな結論を導くことを「推論」と呼ぶ場合がある。
[出力部140]
出力部140は、処理部130の処理結果に基づいて情報を出力する。例えば、処理部130における演算結果及び推論結果の一方または双方を、読解支援システム100の外部に供給することができる。また、出力部140は、処理部130の処理結果に基づいて、データベースに含まれる各種データを出力することができる。出力部140は、ユーザが用いるディスプレイ、スピーカ等に情報を出力することができる。
[伝送路150]
伝送路150は、データを伝達する機能を有する。受付部110、記憶部120、処理部130、及び、出力部140の間のデータの送受信は、伝送路150を介して行うことができる。
図2乃至図7を用いて、本発明の一態様の読解支援システムにおける読解支援方法について説明する。
<読解支援方法>
本発明の一態様の読解支援方法は、図2に示すステップS1からステップS6までの処理を有する。
[ステップS1]
ステップS1では、指定文書を受け付ける。指定文書は、例えば、ユーザが読解したい文書である。指定文書は、単数であっても複数であってもよい。
ユーザは、指定文書の文章データを直接入力することができる。また、指定文書に含まれる図面及び表の一方または双方の画像データを、文章データと合わせて入力してもよい。
なお、指定文書のデータが、テキストデータ以外のデータ(音声データまたは画像データ)である場合、ステップS2へ進む前に、音声データまたは画像データをテキストデータに変換する。
また、指定文書がデータベース等に含まれる文書である場合、ユーザは、文書を特定する情報を入力する(データベースを検索する)ことで、読解したい文書を指定することができる。読解支援システムは、ユーザが入力した情報をもとに、データベース等から、指定文書に関するデータ(具体的には以降の処理に必要なデータ)を取り出す。文書を特定する情報としては、文書を識別する番号、及び、タイトルなどが挙げられる。
また、ユーザは、指定文書の一部(例えば、特定の章)を読解したい場合などは、文書の一部を指定してもよい。
[ステップS2]
ステップS2では、指定文書に含まれる語句を用いて指定文書の構造を表すグラフを作成する。複数の指定文書が指定された場合、指定文書ごとに、グラフを作成する。また、一つの指定文書に対して、一つ以上のグラフを作成することができる。
無向グラフを作成する場合、まず、指定文書に含まれる文に対して形態素解析を行う。これにより、各文はトークンに分割され、各トークンの品詞が判別される。
有向グラフを作成する場合、まず、指定文書に含まれる文に対して構文解析を行う。これにより、各文はトークンに分割され、各トークンの品詞が判別され、さらに、各トークンの係り受けが判別される。
ステップS2では、複合語解析を行うことが好ましい。つまり、トークンの品詞が判別された後、いくつかのトークンを結合することで、新たなトークンを生成することが好ましい。例えば、一文において連続する名詞を一つにまとめて、品詞が複合名詞である新たなトークンを生成することができる。
グラフの作成において、例えば、文書内で近い位置に存在する語句を直接つなぐことができる。各トークンは、ノードのラベルに用いられ、各ノードはエッジで接続される。ノード同士をエッジで接続する条件は適宜決定することができる。
例えば、ノードのラベルに用いられるトークン同士の文書内の距離に基づいて、エッジで接続するノードを決定することができる。
例えば、二つの語句が同じ文に存在する場合、当該二つの語句を直接つなぐことができる。また、例えば、二つの語句が同じ段落に存在する場合、当該二つの語句を直接つなぐことができる。また、例えば、二つの語句について、一方の語句を含む文が他方の語句を含む文の近傍に存在する(例えば、前後n文以内に存在する(nは1以上の整数、好ましくは、1以上5以下の整数、より好ましくは3以上5以下の整数))場合、当該二つの語句を直接つなぐことができる。
また、有向グラフの作成において、エッジの向きを決定するために、各トークンの出現頻度及び重要度の一方または双方を算出してもよい。
ステップS2では、トークンの距離の情報、及び、トークンの関連性に係る情報の一方または双方を取得することが好ましい。
取得したトークンの距離の情報、及び、トークンの関連性に係る情報は、グラフを可視化する際、エッジのラベルとして、文字で表示することができる。または、距離の近さに応じて、エッジの色または太さを決定してもよい。または、関連性の強さに応じて、エッジの色または太さを決定してもよい。
例えば、二つのトークンの距離の情報として、二つのトークンが、同じ文にあったか、同じ段落にあったか、いくつの段落、文、単語、または文字列分離れていたか、などをエッジの情報として登録することができる。
例えば、二つの語句の関連性に係る情報として、一方の語句が、他方の語句の関連語であること、及び、二つの語句の関連度などをエッジのラベルに記すことができる。関連語としては、類義語、同義語、上位語、及び下位語などが挙げられる。また、二つの語句の関連性を示す文中の他のトークン(名詞句、動詞句、副詞句などの語句)を、エッジの情報として登録することができる。
図3A乃至図3Dを用いて、日本語の文をグラフ化する例を説明する。なお、図3A乃至図3Dには、日本語と、それに対応するローマ字表記のアルファベットを示す。
図3Aに、「酸化物半導体層は絶縁体層の上方にある(SANKABUTSUHANDOUTAISOUHAZETSUENTAISOUNOJOUHOUNIARU)」という文300を示す。
ステップS2では、文300を形態素解析することで、文300を複数のトークンに分割し、各トークンの品詞を判別する。
図3Bに示すように、文300は、トークン301からトークン312までの12個のトークンに分割される。なお、図3Bでは、各トークンの下に品詞を記している。
そして、複合語解析を行い、連続する名詞を一つにまとめる。これにより、図3Cに示すように、文300は、7個のトークンで構成される。
具体的には、図3Bに示すトークン301の文字列は、“酸化(SANKA)”であり、トークン302の文字列は、“物(BUTSU)”であり、トークン303の文字列は、“半導体(HANDOUTAI)”であり、トークン304の文字列は、“層(SOU)”である。これらトークン301乃至トークン304の品詞は、いずれも名詞である。そのため、図3Cに示すように、一つのトークン321にまとめられる。トークン321の文字列は、“酸化物半導体層(SANKABUTSUHANDOUTAISOU)”であり、品詞は、名詞(複合名詞)である。
また、図3B、図3Cに示すトークン305の文字列は、“は(HA)”であり、品詞は、助詞である。
また、図3Bに示すトークン306の文字列は、“絶縁(ZETSUEN)”であり、トークン307の文字列は、“体(TAI)”であり、トークン308の文字列は、“層(SOU)”である。これらトークン306乃至トークン308の品詞は、いずれも名詞である。そのため、図3Cに示すように、一つのトークン322にまとめられる。トークン322の文字列は、“絶縁体層(ZETSUENTAISOU)”であり、品詞は、名詞(複合名詞)である。
また、図3B、図3Cに示すトークン309の文字列は、“の(NO)”であり、品詞は、助詞である。また、トークン310の文字列は、“上方(JOUHOU)”であり、品詞は、名詞である。また、トークン311の文字列は、“に(NI)”であり、品詞は、助詞である。また、トークン312の文字列は、“ある(ARU)”であり、品詞は、動詞である。
次に、ステップS2では、文300をグラフ化する。図3Dに文300をグラフ化した例を示す。ここでは、品詞が名詞であるトークン321及びトークン322を、ノード323及びノード324のラベルに用い、品詞が名詞であるトークン310を、エッジのラベル325に用いた例を示す。なお、エッジのラベル325では、トークンの代わりに、または、トークンに加えて、ノード間の距離の情報、及び、ノードの関連性に係る情報等の少なくとも一つを表してもよい。
図3Dに示す矢印は、ノード323からノード324に向かうように図示されている。つまり、矢印の始点を、文300中に先に出現するトークンとし、矢印の終点を、後に出現するトークンとしている。なお、矢印の向きの決定方法はこれに限られず、上述した例を参照できる。そのため、場合によっては、矢印の始点をノード324とし、矢印の終点を、ノード323としてもよい。ただし、矢印の向きの決定方法は、グラフ内で統一することが望ましい。
文書に含まれる各文について上記の処理を行うことにより、文書全体の構造を一つのグラフで表すことができる。その結果、ノード323及びノード324の一方または双方は、さらに、他の文に存在する語句と、エッジを介して接続されていてもよい。なお、文書の一部を一つのグラフで表してもよい。また、文書の章ごとに、グラフを作成してもよい。つまり、一つの文書から複数のグラフを作成してもよい。
図4A乃至図4Eを用いて、英語の文をグラフ化する例を説明する。
図4Aに、「A semiconductor device comprising:an oxide semiconductor layer over an insulator layer.」という文330を示す。
ステップS2では、文書のクリーニング処理を行うことが好ましい。クリーニング処理では、文書内に含まれるノイズを除去する。例えば、当該クリーニング処理とは、セミコロンを削除する、コロンをカンマに置き換える、などである。文書に対してクリーニング処理を行うことで、形態素解析の精度を高めることができる。文330にクリーニング処理を行うことで、セミコロンを削除し、図4Bに示すように、文330aを得ることができる。
次に、文330aを形態素解析することで、文330aを複数のトークンに分割する。なお、図4Cではトークンの品詞を記載していないが、形態素解析により、各トークンの品詞を判別することができる。
図4Cに示すように、文330aは、トークン331からトークン342までの12個のトークンに分割される。
そして、複合語解析を行い、連続する名詞を一つにまとめる。これにより、図4Dに示すように、文330aは、5個のトークンで構成される。
具体的には、図4Cに示すトークン331の文字列は、“A”であり、トークン332の文字列は、“semiconductor”であり、トークン333の文字列は、“device”である。トークン331の品詞は不定冠詞、トークン332及びトークン333の品詞は、いずれも名詞である。そのため、図4Dに示すように、一つのトークン351にまとめられる。トークン351の文字列は、“A semiconductor device”であり、品詞は、名詞(複合名詞)である。
また、図4C、図4Dに示すトークン334の文字列は、“comprising”である。
また、図4Cに示すトークン335の文字列は、“an”であり、トークン336の文字列は、“oxide”であり、トークン337の文字列は、“semiconductor”であり、トークン338の文字列は、“layer”である。トークン335の品詞は不定冠詞、トークン336乃至トークン338の品詞は、いずれも名詞である。そのため、図4Dに示すように、一つのトークン352にまとめられる。トークン352の文字列は、“an oxide semiconductor layer”であり、品詞は、名詞(複合名詞)である。
また、図4C、図4Dに示すトークン339の文字列は、“over”である。
また、図4Cに示すトークン340の文字列は、“an”であり、トークン341の文字列は、“insulator”であり、トークン342の文字列は、 “layer”である。トークン340の品詞は不定冠詞、トークン341及び342の品詞は、いずれも名詞である。そのため、図4Dに示すように、一つのトークン353にまとめられる。トークン353の文字列は、“aninsulator layer”であり、品詞は、名詞(複合名詞)である。
次に、ステップS2では、文330をグラフ化する。図4Eに文330をグラフ化した例を示す。ここでは、品詞が名詞であるトークン351乃至トークン353を、ノード354乃至ノード356のラベルに用い、トークン334をノード354とノード355の間のエッジのラベル357に用い、トークン339をノード355とノード356の間のエッジのラベル358に用いた例を示す。
図4Eに示す矢印の一つは、ノード354からノード355に向かうように図示され、矢印のもう一つは、ノード355からノード356に向かうように図示されている。つまり、矢印の始点を、文330中に先に出現するトークンとし、矢印の終点を、後に出現するトークンとしている。
なお、本実施の形態では、文書からグラフを作成するまでの工程を、日本語が使用された文、及び、英語が使用された文を例に挙げて説明したが、文書の言語に特に限定は無い。例えば、中国語、韓国語、ドイツ語、フランス語、ロシア語、ヒンディー語などの言語が使用された文書においても、同様の工程を経ることで、文書からグラフを作成することができる。
[ステップS3]
ステップS3では、グラフに含まれる複数の語句を出力する。
出力の方法に特に限定は無く、例えば、語句の一覧をリストとして表示することができる。また、ステップS2で作成したグラフ自体を表示してもよい。また、グラフとリストの双方を表示してもよい。
[ステップS4]
ステップS4では、複数の指定語句を受け付ける。
ユーザは、ステップS3にて出力された複数の語句の中から、複数の指定語句を選択する。
表1に、ステップS3で複数の語句がリストとして表示され、ステップS4でユーザが語句を指定した例を示す。表1に示すように、以下では、複数の指定語句として、“layer A”と“layer B”の二つが選択された場合を例に挙げて説明する。
Figure JPOXMLDOC01-appb-T000001
[ステップS5]
ステップS5では、ステップS4で受け付けた複数の指定語句を用いて、グラフを探索する。
具体的には、ステップS5では、グラフにおける複数の指定語句のそれぞれの間の最短経路を算出することができる。
図5Aに、ステップS2で作成したグラフのうち、“layer A”と“layer B”に関連する部分のみを抜粋した例を示す。
図5Aに示すグラフは、ノード151乃至ノード156を有する。“layer A”はノード151のラベルであり、“layer B”はノード152のラベルである。そのほか、“layer C”をラベルとして有するノード153、“word D”をラベルとして有するノード154、“word E”をラベルとして有するノード155、及び、“word F”をラベルとして有するノード156が、ノード151とノード152を結ぶ経路に含まれている。
なお、図5乃至図7では、指定語句がラベルとして付与されたノードを斜線のハッチングで示す。
各エッジを通るために必要なコストが同じである(エッジの重みが全て同じである)場合、含まれるノードの数が最も少ない経路が最短経路といえる。つまり、図5Aに示すグラフのうち、ノード151とノード152を結ぶ最短経路は、“layer C”をラベルとして有するノード153を介する経路(図5Aにて太線で示す経路)である。このように、複数の指定語句のそれぞれの間の最短経路を算出する。
[ステップS6]
ステップS6では、ステップS5にてグラフを探索した結果を出力する。
図5Aにおけるノード151とノード152を結ぶ最短経路を、図5Bに示す。図5Bに示すグラフを出力することで、“layer A”と“layer B”の関連性を提示することができる。図5Bでは、指定語句とは異なる語句である補完語句“layer C”を介して、“layer A”と“layer B”が結ばれていることから、ユーザが把握したい情報に“layer C”が強く関連している可能性があることを、ユーザに示すことができる。
また、エッジのラベル、向き、色、及び、太さの少なくとも一つを用いて、複数の指定語句に関する情報をさらに提示することができる。
図5Cでは、図5Bに示す無向グラフを有向グラフで示している。また、ノード151とノード153の間のエッジにはラベル159が付与され、ノード153とノード152の間のエッジにはラベル160が付与されている。
図5Cに示すラベル159から、“layer A”は“layer C”の上位語であることがわかる。“layer A”の具体例としては“半導体層”であり、“layer C”の具体例としては“酸化物半導体層”である。
また、ラベル160に“over”とあることから、“layer C”は“layer B”の上方に位置することがわかる。このように、エッジの情報を用いて、ノードに示す指定語句に関する情報をユーザに提示することができる。
なお、ステップS5におけるグラフの探索結果が同じであっても、ステップS6にて表示されるグラフは一通りとは限られない。例えば、エッジの長さ、及び、それに伴うノードの位置などは、いくつかの異なる表示が可能であり、特に限定されない。
また、各最短経路に基づいて文書から文を抽出し、出力することが好ましい。
図6に、出力内容の一例を示す。図6では、指定語句として、“layer A”、“layer B”、及び、“device G”の三つが選択された例を示す。
図6に示すグラフ510は、ノード151乃至ノード153、ノード157、及び、ノード158を有する。“layer A”はノード151のラベルであり、“layer B”はノード152のラベルであり、“device G”はノード157のラベルである。そのほか、“layer C”をラベルとして有するノード153、及び、“word H”をラベルとして有するノード158が、グラフ510に含まれている。
グラフ510には、複数の指定語句のそれぞれの間の最短経路が示されている。“layer A”と、“layer B”は、補完語句である“layer C”を介して結ばれた経路が最短経路であることがわかる。“layer A”と“device G”は直接結ばれた経路が最短経路であることがわかる。“device G”と、“layer B”は、補完語句である“word H”を介して結ばれた経路が最短経路であることがわかる。
図6に示す抽出文章520は、各最短経路に基づいて、文書から文を抽出した結果である。ここでは、グラフ510が、同じ文または同じ段落に含まれるトークンを直接つなぐことで作成された場合を例に挙げて説明する。
抽出文章520から、“layer A”と、“layer C”は10段落目の同じ文に含まれており、“layer C”と、“layer B”は、15段落目の同じ文に含まれていることがわかる。このように、指定語句に関する記載を抽出することで、各文が離れた位置にある場合でも、ユーザは効率よく文書を読解することができる。なお、抽出文章520において、各段落の指定語句を含む文のみを表示してもよく、指定語句を含む段落の全文を表示してもよい。
抽出文章520から、“layer A”と、“device G”は30段落目の同じ文に含まれていることがわかる。なお、文における指定語句の出現順は問わずに抽出することができる。
抽出文章520から、“layer B”と、“word H”は16段落目の同じ文に含まれていることがわかる。また、“word H”と、“device G”は、38段落目の互いに異なる文に含まれていることがわかる。このように、二つの語句が異なる文に含まれている場合であっても、同じ段落に含まれる際には両方の文を抽出することで、指定語句に関してより詳細な情報を提示できることがある。指定語句に関する記載を抽出することで、各文が離れた位置にある場合でも、ユーザは効率よく文書を読解することができる。
また、抽出文章520として抽出した文に、図、表、数式、または化学式等の情報が含まれている場合、当該図、表、数式、または化学式等の画像を合わせて表示することが好ましい。これにより、ユーザに対して文書の理解をより支援することができる。例えば、図6に示す“Fig. X”及び“Table Z”、またはこれら図表へのリンクを、グラフ510及び抽出文章520と合わせて表示することが好ましい。
図7に、図6とは異なるグラフの出力例を示す。
図7では、指定語句として、“layer A”、“layer B”、“layer C”、“layer D”、及び、“layer E”の五つが選択された例を示す。
図7に示すグラフは、ノード161乃至ノード167を有する。“layer A”はノード161のラベルであり、“layer B”はノード162のラベルであり、“layer C”はノード163のラベルであり、“layer D”はノード164のラベルであり、“layer E”はノード165である。そのほか、“word X”をラベルとして有するノード166、及び、“word Y”をラベルとして有するノード167が、グラフに含まれている。
図7には、各指定語句の間の最短経路が示されており、例えば、“layer A”と、“layer B”は、直接結ばれた経路が最短経路であることがわかる。同様に、“layer A”と、“layer C”は、直接結ばれた経路が最短経路であることがわかる。“layer A”と、“layer E”は、補完語句である“word Y”を介して結ばれた経路が最短経路であることがわかる。
図7では、ノード164が、他のノードとつながっていないことがわかる。このことから、指定文書では、“layer D”に関する記載が不足しているか、誤記が生じている可能性がある。
このように、グラフの探索結果を用いて、文書の校閲を行うこともできる。
また、“layer B”と、“layer E”は、指定語句“layer C”と補完語句である“word Y”を介して結ばれた経路と、それぞれ補完語句である“word X”と“word Y”を介して結ばれた経路と、の二通りの最短経路が存在することがわかる。この場合は、二通りの最短経路を示し、それぞれに基づいて文を抽出することができる。
また、複数の文書が指定された場合においても、上記と同様にグラフの作成及び探索を行い、探索結果を出力することができる。ユーザは、出力結果を比較することで、複数の文書の関連性及び相違点を容易に確認することができる。
さらに、探索結果である指定語句間の最短経路を示すグラフをベクトル化し、各ベクトルの類似度を算出することで、複数の文書の類似度を評価し、ユーザに提示してもよい。
以上のように、本実施の形態の読解支援システムでは、ユーザが指定した文書の複数の指定語句について関連性を示すグラフを提示し、ユーザに対して文書の読解支援を行うことができる。システムを用いて複数の指定語句が含まれる文を抽出して出力することで、ユーザは効率よく文書を読み進めることができる。これにより、ユーザは、文書から必要な情報を迅速に探し出すことができる。
本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、一つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
(実施の形態2)
本実施の形態では、本発明の一態様の読解支援システムについて図8及び図9を用いて説明する。
<読解支援システム2>
図8に、読解支援システム210のブロック図を示す。読解支援システム210は、サーバ220と、端末230(パーソナルコンピュータなど)と、を有する。なお、図1に示す読解支援システム100と同じ構成要素については、実施の形態1の<読解支援システム1>の説明も参照できる。
サーバ220は、通信部171a、伝送路172、記憶部120、及び、処理部130を有する。図8では図示しないが、さらに、サーバ220は、受付部、データベース、出力部、入力部などの少なくとも一つを有していてもよい。
端末230は、通信部171b、伝送路174、入力部115、記憶部125、処理部135、及び、表示部145を有する。端末230としては、タブレット型パーソナルコンピュータ、ノート型パーソナルコンピュータ、及び、各種携帯情報端末が挙げられる。また、端末230が表示部145を有さないデスクトップ型パーソナルコンピュータであり、端末230が、表示部145として機能するモニタ等と接続されていてもよい。
読解支援システム210のユーザは、端末230の入力部115から、指定文書に関する情報をサーバ220に入力する。当該情報は、通信部171bから通信部171aに送信される。
例えば、通信部171bから通信部171aに、指定文書のテキストデータが送信される。さらに、図面、化学式、数式、及び表のうち、少なくとも一種のイメージデータが送信されてもよい。また、例えば、通信部171bから通信部171aに、文書を特定する情報が送信される。
通信部171aが受信した情報は、伝送路172を介して、処理部130が有するメモリまたは記憶部120に保存される。また、通信部171aから受付部(図1に示す受付部110参照)を介して処理部130に情報が供給されてもよい。
実施の形態1の<読解支援方法>で説明した各種処理は、処理部130にて行われる。これらの処理は、高い処理能力が求められるため、サーバ220が有する処理部130で行うことが好ましい。処理部130は、処理部135よりも処理能力が高いことが好ましい。
処理部130の処理結果は、伝送路172を介して、処理部130が有するメモリまたは記憶部120に保存される。その後、サーバ220から、処理結果が、端末230の表示部145へと出力される。処理結果は、通信部171aから通信部171bに送信される。また、処理部130の処理結果に基づいて、データベースに含まれる各種データが、通信部171aから通信部171bに送信されてもよい。また、出力部(図1に示す出力部140)を介して、処理部130から通信部171aに処理結果が供給されてもよい。
[通信部171a及び通信部171b]
通信部171a及び通信部171bを用いて、サーバ220と端末230との間で、データの送受信を行うことができる。通信部171a及び通信部171bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
[伝送路172及び伝送路174]
伝送路172及び伝送路174は、データを伝達する機能を有する。通信部171a、記憶部120、及び、処理部130の間のデータの送受信は、伝送路172を介して行うことができる。通信部171b、入力部115、記憶部125、処理部135、及び、出力部140の間のデータの送受信は、伝送路174を介して行うことができる。
[入力部115]
入力部115は、ユーザが文書及び語句を指定する際に用いることができる。例えば、入力部115は端末230を操作する機能を有することができ、具体的には、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ等が挙げられる。
読解支援システム210は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部130及び処理部135の少なくとも一方が当該機能を有していてもよい。
読解支援システム210は、光学文字認識(OCR)機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部130及び処理部135の少なくとも一方が当該機能を有していてもよい。
[記憶部125]
記憶部125は、指定文書に関するデータ、及び、サーバ220から供給されたデータの一方または双方を記憶してもよい。また、記憶部120が有することができるデータの少なくとも一部を、記憶部125が有していてもよい。
[処理部130及び処理部135]
処理部135は、通信部171b、記憶部125、及び入力部115などから供給されたデータを用いて、演算などを行う機能を有する。処理部135は、処理部130で行うことができる処理の少なくとも一部を実行する機能を有していてもよい。
処理部130及び処理部135は、それぞれ、チャネル形成領域に金属酸化物を有するトランジスタ(OSトランジスタ)、及び、チャネル形成領域にシリコンを有するトランジスタ(Siトランジスタ)の一方または双方を有することができる。
なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをOxide Semiconductorトランジスタ、あるいはOSトランジスタと呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
本明細書等において、金属酸化物(metal oxide)とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体(透明酸化物導電体を含む)、酸化物半導体(Oxide Semiconductorまたは単にOSともいう)などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、及びスイッチング作用の少なくとも一つを有する場合、当該金属酸化物を、金属酸化物半導体(metal oxide semiconductor)、略してOSと呼ぶことができる。
チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含む酸化物半導体であると好ましい。元素Mは、アルミニウム(Al)、ガリウム(Ga)及びスズ(Sn)の少なくとも一つであることが好ましい。そのほかの元素Mに適用可能な元素としては、ホウ素(B)、シリコン(Si)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、及び、タングステン(W)などが挙げられる。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含む金属酸化物であると好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
処理部130は、OSトランジスタを有することが好ましい。OSトランジスタはオフ電流が極めて小さいため、OSトランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部130が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部130を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部130をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、読解支援システムの低消費電力化を図ることができる。
[表示部145]
表示部145は、出力結果を表示する機能を有する。表示部145としては、液晶表示装置、発光表示装置などが挙げられる。発光表示装置に用いることができる発光素子としては、LED(Light Emitting Diode)、OLED(Organic LED)、QLED(Quantum−dot LED)、及び、半導体レーザなどが挙げられる。また、表示部145には、シャッター方式または光干渉方式のMEMS(Micro Electro Mechanical Systems)素子を用いた表示装置、マイクロカプセル方式、電気泳動方式、エレクトロウェッティング方式、または電子粉流体(登録商標)方式等を適用した表示素子を用いた表示装置などを用いることもできる。
図9に、本実施の形態の読解支援システムのイメージ図を示す。
図9に示す読解支援システムは、サーバ5100と、端末(電子機器ともいえる)と、を有する。サーバ5100と各端末との間の通信は、インターネット回線5110を介して行うことができる。
サーバ5100は、端末からインターネット回線5110を介して入力されたデータを用いて、演算を行うことができる。サーバ5100は、演算の結果を、インターネット回線5110を介して端末に送信することができる。これにより、端末における演算の負担を低減することができる。
図9では、端末として、情報端末5300、情報端末5400、及び、情報端末5500を示している。情報端末5300は、スマートフォンなどの携帯情報端末の一例である。情報端末5400は、タブレット端末の一例である。また、情報端末5400は、キーボードを有する筐体5450と接続することで、ノート型情報端末として用いることもできる。情報端末5500は、デスクトップ型情報端末の一例である。
このような形態を構成することにより、ユーザは、情報端末5300、情報端末5400、及び、情報端末5500などからサーバ5100にアクセスすることができる。そして、ユーザは、インターネット回線5110を介した通信によって、サーバ5100の管理者が提供するサービスを受けることができる。当該サービスとしては、例えば、本発明の一態様の読解支援方法を用いたサービスが挙げられる。当該サービスにおいて、サーバ5100で人工知能を利用してもよい。
本実施の形態は、他の実施の形態と適宜組み合わせることができる。
100:読解支援システム、110:受付部、115:入力部、120:記憶部、125:記憶部、130:処理部、135:処理部、140:出力部、145:表示部、150:伝送路、151:ノード、152:ノード、153:ノード、154:ノード、155:ノード、156:ノード、157:ノード、158:ノード、159:ラベル、160:ラベル、161:ノード、162:ノード、163:ノード、164:ノード、165:ノード、166:ノード、167:ノード、171a:通信部、171b:通信部、172:伝送路、174:伝送路、210:読解支援システム、220:サーバ、230:端末、300:文、301:トークン、302:トークン、303:トークン、304:トークン、305:トークン、306:トークン、307:トークン、308:トークン、309:トークン、310:トークン、311:トークン、312:トークン、321:トークン、322:トークン、323:ノード、324:ノード、325:ラベル、330a:文、330:文、331:トークン、332:トークン、333:トークン、334:トークン、335:トークン、336:トークン、337:トークン、338:トークン、339:トークン、340:トークン、341:トークン、342:トークン、351:トークン、352:トークン、353:トークン、354:ノード、355:ノード、356:ノード、357:ラベル、358:ラベル、510:グラフ、520:抽出文章、5100:サーバ、5110:インターネット回線、5300:情報端末、5400:情報端末、5450:筐体、5500:情報端末

Claims (19)

  1.  受付部、処理部、及び、出力部を有し、
     前記受付部は、指定文書を受け付ける機能と、複数の指定語句を受け付ける機能と、を有し、
     前記処理部は、前記指定文書に含まれる語句を用いて前記指定文書の構造を表す第1のグラフを作成する機能と、前記複数の指定語句を用いて前記第1のグラフを探索する機能と、を有し、
     前記出力部は、前記第1のグラフに含まれる複数の語句を出力する機能と、前記第1のグラフの探索結果を出力する機能と、を有し、
     前記複数の指定語句は、前記第1のグラフに含まれる前記複数の語句の少なくとも一部である、読解支援システム。
  2.  請求項1において、
     前記出力部は、前記探索結果として、少なくとも、前記第1のグラフにおける前記複数の指定語句のいずれか二つの間の最短経路を示す第2のグラフを出力する、読解支援システム。
  3.  請求項2において、
     前記出力部は、前記指定文書中の、前記複数の指定語句を二つ以上含む段落における、前記指定語句を含む文を出力する機能を有する、読解支援システム。
  4.  請求項2または3において、
     前記最短経路は、前記複数の指定語句のいずれか二つを、少なくとも一つの補完語句を介して結ぶ経路であり、
     前記補完語句は、前記複数の指定語句とは異なる語句である、読解支援システム。
  5.  請求項4において、
     前記出力部は、前記指定文書中の、前記複数の指定語句の少なくとも一つと、前記補完語句の少なくとも一つと、を含む段落における、前記指定語句及び前記補完語句の少なくとも一方を含む文を出力する機能を有する、読解支援システム。
  6.  請求項1において、
     前記出力部は、前記探索結果として、少なくとも、前記第1のグラフにおける前記複数の指定語句のそれぞれの間の最短経路を示す第2のグラフを出力する、読解支援システム。
  7.  請求項6において、
     前記出力部は、前記指定文書中の、前記複数の指定語句を二つ以上含む段落における、前記指定語句を含む文を出力する機能を有する、読解支援システム。
  8.  請求項6または7において、
     前記複数の指定語句のいずれか二つを結ぶ前記最短経路は、二つの前記指定語句を、少なくとも一つの補完語句を介して結ぶ経路であり、
     前記補完語句は、前記複数の指定語句とは異なる語句である、読解支援システム。
  9.  請求項8において、
     前記出力部は、前記指定文書中の、前記複数の指定語句の少なくとも一つと、前記補完語句の少なくとも一つと、を含む段落における、前記指定語句及び前記補完語句の少なくとも一方を含む文を出力する機能を有する、読解支援システム。
  10.  請求項1乃至9のいずれか一において、
     前記探索結果を記憶する記憶部を有する、読解支援システム。
  11.  指定文書を受け付け、
     前記指定文書に含まれる語句を用いて前記指定文書の構造を表す第1のグラフを作成し、
     前記第1のグラフに含まれる語句を二つ以上出力し、
     前記出力した語句の中から複数の指定語句を受け付け、
     前記複数の指定語句を用いて前記第1のグラフを探索し、探索結果を出力する、読解支援方法。
  12.  請求項11において、
     前記探索結果として、少なくとも、前記第1のグラフにおける前記複数の指定語句のいずれか二つの間の最短経路を示す第2のグラフを出力する、読解支援方法。
  13.  請求項12において、
     前記探索結果とともに、前記指定文書中の、前記複数の指定語句を二つ以上含む段落における、前記指定語句を含む文を出力する、読解支援方法。
  14.  請求項12または13において、
     前記最短経路は、前記複数の指定語句のいずれか二つを、少なくとも一つの補完語句を介して結ぶ経路であり、
     前記補完語句は、前記複数の指定語句とは異なる語句である、読解支援方法。
  15.  請求項14において、
     前記探索結果とともに、前記指定文書中の、前記複数の指定語句の少なくとも一つと、前記補完語句の少なくとも一つと、を含む段落における、前記指定語句及び前記補完語句の少なくとも一方を含む文を出力する、読解支援方法。
  16.  請求項11において、
     前記探索結果として、少なくとも、前記第1のグラフにおける前記複数の指定語句のそれぞれの間の最短経路を示す第2のグラフを出力する、読解支援方法。
  17.  請求項16において、
     前記探索結果とともに、前記指定文書中の、前記複数の指定語句を二つ以上含む段落における、前記指定語句を含む文を出力する、読解支援方法。
  18.  請求項16または17において、
     前記複数の指定語句のいずれか二つを結ぶ前記最短経路は、二つの前記指定語句を、少なくとも一つの補完語句を介して結ぶ経路であり、
     前記補完語句は、前記複数の指定語句とは異なる語句である、読解支援方法。
  19.  請求項18において、
     前記探索結果とともに、前記指定文書中の、前記複数の指定語句の少なくとも一つと、前記補完語句の少なくとも一つと、を含む段落における、前記指定語句及び前記補完語句の少なくとも一方を含む文を出力する、読解支援方法。
PCT/IB2021/059488 2020-10-30 2021-10-15 読解支援システム及び読解支援方法 WO2022090849A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202180073009.3A CN116457773A (zh) 2020-10-30 2021-10-15 阅读支援系统及阅读支援方法
US18/031,392 US20240012979A1 (en) 2020-10-30 2021-10-15 Reading comprehension support system and reading comprehension support method
JP2022558370A JPWO2022090849A1 (ja) 2020-10-30 2021-10-15
KR1020237017434A KR20230091995A (ko) 2020-10-30 2021-10-15 독해 지원 시스템 및 독해 지원 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020182488 2020-10-30
JP2020-182488 2020-10-30

Publications (1)

Publication Number Publication Date
WO2022090849A1 true WO2022090849A1 (ja) 2022-05-05

Family

ID=81383374

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2021/059488 WO2022090849A1 (ja) 2020-10-30 2021-10-15 読解支援システム及び読解支援方法

Country Status (5)

Country Link
US (1) US20240012979A1 (ja)
JP (1) JPWO2022090849A1 (ja)
KR (1) KR20230091995A (ja)
CN (1) CN116457773A (ja)
WO (1) WO2022090849A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
JP2004348555A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP2017187898A (ja) * 2016-04-04 2017-10-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184837A (ja) * 1997-12-11 1999-07-09 Internatl Business Mach Corp <Ibm> 最短経路探索システム
AU2003201799A1 (en) * 2002-01-16 2003-07-30 Elucidon Ab Information data retrieval, where the data is organized in terms, documents and document corpora
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US20090024385A1 (en) * 2007-07-16 2009-01-22 Semgine, Gmbh Semantic parser
US8676565B2 (en) * 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US8566273B2 (en) * 2010-12-15 2013-10-22 Siemens Aktiengesellschaft Method, system, and computer program for information retrieval in semantic networks
JP6232736B2 (ja) 2013-05-08 2017-11-22 株式会社リコー 文書読解支援装置、文書読解支援システム、文書読解支援方法およびプログラム
RU2639655C1 (ru) * 2016-09-22 2017-12-21 Общество с ограниченной ответственностью "Аби Продакшн" Система для создания документов на основе анализа текста на естественном языке
US10936796B2 (en) * 2019-05-01 2021-03-02 International Business Machines Corporation Enhanced text summarizer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
JP2004348555A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP2017187898A (ja) * 2016-04-04 2017-10-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US20240012979A1 (en) 2024-01-11
KR20230091995A (ko) 2023-06-23
CN116457773A (zh) 2023-07-18
JPWO2022090849A1 (ja) 2022-05-05

Similar Documents

Publication Publication Date Title
Pham et al. End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs. character-level
Helwe et al. Arabic named entity recognition via deep co-learning
Duyen et al. An empirical study on sentiment analysis for Vietnamese
Syed et al. Lexicon based sentiment analysis of Urdu text using SentiUnits
Rezaeian et al. Persian text classification using naive bayes algorithms and support vector machine algorithm
Biswas et al. Scope of sentiment analysis on news articles regarding stock market and GDP in struggling economic condition
Ekbal et al. Simultaneous feature and parameter selection using multiobjective optimization: application to named entity recognition
Sitender et al. Sanskrit to universal networking language EnConverter system based on deep learning and context-free grammar
Uslu et al. Computing Classifier-based Embeddings with the Help of text2ddc
Barteld et al. Token-based spelling variant detection in Middle Low German texts
Alsayadi et al. Integrating semantic features for enhancing arabic named entity recognition
Foroozan Yazdani et al. NgramPOS: a bigram-based linguistic and statistical feature process model for unstructured text classification
Mahmoud et al. Hybrid Attention-based Approach for Arabic Paraphrase Detection
WO2022090849A1 (ja) 読解支援システム及び読解支援方法
Ciaramita et al. Dependency parsing with second-order feature maps and annotated semantic information
Pertsas et al. Ontology-driven information extraction from research publications
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
WO2022074505A1 (ja) 情報検索システム、及び、情報検索方法
WO2024084365A1 (ja) 文書検索方法、文書検索システム
Bölücü et al. Joint PoS tagging and stemming for agglutinative languages
WO2021140406A1 (ja) 文書検索システム、文書を検索する方法
Wang et al. Learning word hierarchical representations with neural networks for document modeling
Patil et al. Exploring various emotion-shades for Marathi Sentiment Analysis
Pande et al. Named Entity Recognition for Nepali Using BERT Based Models
WO2024110824A1 (ja) 文書検索支援方法、プログラム、文書検索支援システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21885452

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022558370

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180073009.3

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 20237017434

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21885452

Country of ref document: EP

Kind code of ref document: A1