WO2023162129A1 - 学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム - Google Patents

学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム Download PDF

Info

Publication number
WO2023162129A1
WO2023162129A1 PCT/JP2022/007860 JP2022007860W WO2023162129A1 WO 2023162129 A1 WO2023162129 A1 WO 2023162129A1 JP 2022007860 W JP2022007860 W JP 2022007860W WO 2023162129 A1 WO2023162129 A1 WO 2023162129A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
text data
risk
sentence
learning
Prior art date
Application number
PCT/JP2022/007860
Other languages
English (en)
French (fr)
Inventor
直生 吉永
淳 吉田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/007860 priority Critical patent/WO2023162129A1/ja
Publication of WO2023162129A1 publication Critical patent/WO2023162129A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • the present invention relates to technology for detecting project risks.
  • Patent Literature 1 describes evaluating one document with respect to a plurality of independent rules and summing the product of the evaluation value and weight of each rule.
  • Patent Literature 2 describes extracting words from text data of a web page by morphological analysis, inputting the extracted words into a neural network, and calculating a risk-related score.
  • One aspect of the present invention has been made in view of the above problems. It is to provide a technique for generating data for
  • a learning data generation device includes analysis means for analyzing the structure of a sentence represented by text data and generating structural data representing the structure of the sentence; a tagging means for receiving a user operation specifying a, based on the received user operation, tagging an element corresponding to the expression in the structural data; and structural data tagged by the text data and the tagging means. and output means for outputting learning data including
  • a risk detection device includes an acquisition unit that acquires text data, an analysis that analyzes the structure of a sentence represented by the text data acquired by the acquisition unit, and generates structural data that represents the structure of the sentence.
  • a model learned by referring to learning data including means, text data, and structural data representing the structure of sentences in the text data, in which elements corresponding to expressions corresponding to risks are tagged.
  • extracting means for extracting an expression corresponding to the risk from the text data acquired by the acquiring means, using
  • At least one processor analyzes the structure of a sentence represented by text data, generates structural data representing the structure of the sentence, and determines the risk included in the sentence.
  • At least one processor acquires text data, analyzes the structure of a sentence represented by the acquired text data, generates structural data representing the structure of the sentence, Using a model learned by referring to learning data including text data and structural data representing the structure of sentences in the text data, in which elements corresponding to expressions corresponding to risks are tagged , extracting an expression corresponding to the risk from the acquired text data.
  • a learning data generation program provides a computer with an analysis process for analyzing the structure of a sentence represented by text data and generating structural data representing the structure of the sentence; receiving a user operation specifying a corresponding expression, tagging an element corresponding to the expression in the structure data based on the received user operation; and an output process of outputting learning data including the structure data.
  • a risk detection program provides a computer with an acquisition process for acquiring text data, analyzes the structure of a sentence represented by the text data acquired in the acquisition process, and generates structural data representing the structure of the sentence. Learning by referring to learning data including generated analysis processing, text data, structural data representing the sentence structure of the text data, and structural data tagged with elements corresponding to expressions corresponding to risks an extraction process for extracting an expression corresponding to the risk from the text data acquired in the acquisition process using the obtained model.
  • FIG. 1 is a block diagram showing the configuration of a learning data generation device according to Exemplary Embodiment 1;
  • FIG. FIG. 3 is a flow chart showing the flow of a learning data generation method according to exemplary embodiment 1;
  • 1 is a block diagram showing the configuration of a risk detection device according to Exemplary Embodiment 1;
  • FIG. 3 is a flow diagram showing the flow of a risk detection method according to exemplary embodiment 1;
  • FIG. 9 is a block diagram showing the configuration of an information processing apparatus according to Exemplary Embodiment 2;
  • FIG. 11 is a flow diagram showing the flow of a learning phase execution method according to exemplary embodiment 2;
  • FIG. 10 is a diagram showing a screen display example according to exemplary embodiment 2;
  • FIG. 10 is a diagram showing a screen display example according to exemplary embodiment 2;
  • FIG. 11 is a flow diagram illustrating the flow of an estimation phase execution method according to exemplary embodiment 2;
  • 1 is a block diagram showing the configuration of a computer functioning as an information processing device according to each exemplary embodiment;
  • FIG. 1 is a block diagram showing the configuration of the learning data generation device 1. As shown in FIG.
  • the learning data generation device 1 includes an analysis unit 11 , a tagging unit 12 and an output unit 13 .
  • the analysis unit 11 analyzes the structure of the sentence represented by the text data and generates structure data representing the structure of the sentence.
  • text data is data representing sentences, and for example, data representing business documents (daily business reports, operation diaries, etc.) stored in a company.
  • the data format in which the text data is saved is not limited to a text file.
  • a PDF Portable Document Format
  • HTML HyperText Markup Language
  • a file created by other predetermined document creation software There may be.
  • the analysis unit 11 analyzes the sentence structure by performing morphological analysis and syntactic analysis.
  • Morphological analysis is a process of dividing a sentence into morphemes and determining the part of speech of each morpheme. Parsing is the process of clarifying relationships between morphemes by, for example, schematizing them.
  • the method by which the analysis unit 11 analyzes the sentence structure is not limited to the example described above.
  • the analysis unit 11 may analyze the sentence structure by other methods.
  • Structural data is data that represents the structure of a sentence, and for example, data that represents a syntax tree.
  • the tagging unit 12 receives a user operation specifying an expression corresponding to the risk contained in the sentence, and tags the element corresponding to the expression in the structure data based on the received user operation.
  • the expression corresponding to the risk is, for example, a phrase such as "cost sharing is required”.
  • an expression corresponding to risk is also referred to as "risk expression”. Which phrase is a risk expression varies depending on the attributes of the user, the situation of the user or the project, and the like.
  • a risk expression includes the combination of several morphemes as an example.
  • a user operation is an action in which the user designates a risk expression, and includes, for example, operations on input devices such as a mouse, keyboard, touch panel, voice input device, and line-of-sight input device.
  • the tagging unit 12 displays a screen prompting the user to specify a risk expression on a display connected to the input/output interface.
  • the tagging unit 12 tags the elements included in the structure data based on the user's operation.
  • Elements corresponding to risk expressions in structural data are, for example, morphemes included in sentences.
  • the output unit 13 outputs learning data including the text data and the structural data tagged by the tagging unit 12 .
  • the learning data is used, for example, for learning a model that extracts risk expressions from text data.
  • Machine learning techniques for the model are not limited, but by way of example, decision tree-based, linear regression, or neural network techniques may be used, or two or more of these techniques may be used.
  • the output unit 13 may output learning data by writing it in a storage device, or may output learning data by transmitting the learning data to another device via a communication interface. good too. Also, the output unit 13 may output the learning data to an output device connected to the input/output interface.
  • the output device is, for example, a display, printer, projector, or speaker.
  • the analysis unit 11 analyzes the structure of a sentence represented by text data and generates structural data representing the structure of the sentence; receives a user operation specifying an expression corresponding to the risk included in the tagging unit 12 for tagging the element corresponding to the expression in the structure data based on the received user operation, and the text data and the tagging unit and an output unit 13 for outputting learning data including structural data tagged by 12 .
  • the learning data generating apparatus 1 does not use the structure data representing the structure of the sentence as the learning data as it is, but includes the structure data tagged based on the user's operation in the learning data. Therefore, according to the learning data generation device 1 according to the present exemplary embodiment, it is possible to generate learning data for more accurately detecting risks of projects, etc., without requiring complicated work such as rule creation. effect is obtained.
  • the functions of the learning data generation device 1 described above can also be realized by a program.
  • the learning data generation program according to this exemplary embodiment provides a computer with an analysis process for analyzing the structure of a sentence represented by text data, generating structural data representing the structure of the sentence, and a risk included in the sentence. Receiving a user operation specifying a corresponding expression, tagging an element corresponding to the expression in the structure data based on the received user operation, and tagging the text data and the tagged element in the tagging process and an output process of outputting learning data including the structural data.
  • FIG. 2 is a flowchart showing the flow of the learning data generation method S1.
  • the execution entity of each step in the learning data generation method S1 may be a processor included in the learning data generation device 1 or may be a processor included in another device, and the execution entity of each step is different. It may be a processor provided in the device.
  • At step S11 at least one processor analyzes the structure of the sentence represented by the text data and generates structure data representing the structure of the sentence.
  • at least one processor receives a user operation specifying an expression corresponding to the risk contained in the sentence, and tags the element corresponding to the expression in the structure data based on the received user operation.
  • at least one processor outputs learning data including the text data and the tagged structure data.
  • At least one processor analyzes the structure of a sentence represented by text data, generates structure data representing the structure of the sentence, Receiving a user operation specifying an expression corresponding to the risk contained in the sentence, tagging the element corresponding to the expression in the structure data based on the received user operation, and adding the text data and the tagged structure A configuration for outputting learning data including data is adopted. Therefore, according to the learning data generation method S1 according to the present exemplary embodiment, it is possible to generate learning data for more accurately detecting the risk of a project or the like without requiring complicated work such as rule creation. effect is obtained.
  • FIG. 3 is a block diagram showing the configuration of the risk detection device 2.
  • the risk detection device 2 includes an acquisition unit 21 , an analysis unit 22 and an extraction unit 23 .
  • Acquisition unit 21 acquires text data.
  • the acquiring unit 21 may acquire text data by reading text data from a storage device, or may acquire text data by receiving text data from another device connected via a communication interface. may be obtained. Further, the acquisition unit 21 may acquire text data input to an input device connected to the input/output interface.
  • the analysis unit 22 analyzes the structure of the sentence represented by the text data acquired by the acquisition unit 21, and generates structure data representing the structure of the sentence. For example, the analysis unit 22 analyzes the sentence structure by performing morphological analysis and syntactic analysis. However, the method by which the analysis unit 22 analyzes the sentence structure is not limited to the example described above. The analysis unit 22 may analyze the sentence structure by other methods.
  • the extracting unit 23 is learned by referring to learning data including text data and structural data representing the sentence structure of the text data and tagged with elements corresponding to expressions corresponding to risks. Using the obtained model, an expression corresponding to the risk is extracted from the text data acquired by the acquisition unit 21 .
  • model A model is a model that extracts risk expressions from text data.
  • Inputs for the model include, by way of example, textual data and structural data.
  • the output of the model also includes, by way of example, data indicative of risk representations.
  • the data indicating the risk expression includes, for example, data indicating the element corresponding to the risk expression, or the confidence (score) that the element included in the structure data is the risk expression.
  • the model is generated by supervised machine learning using learning data.
  • the training data used for model training includes text data and structural data in which elements corresponding to risk expressions are tagged.
  • the learning data is, for example, learning data generated by the learning data generation device 1 .
  • Machine learning techniques for the model are not limited, but by way of example, decision tree-based, linear regression, or neural network techniques may be used, or two or more of these techniques may be used.
  • the acquisition unit 21 acquires text data, the structure of a sentence represented by the text data acquired by the acquisition unit 21 is analyzed, and the structure of the sentence is analyzed. and the text data and structural data representing the sentence structure of the text data, in which the element corresponding to the expression corresponding to the risk is tagged. and an extraction unit 23 that extracts an expression corresponding to the risk from the text data acquired by the acquisition unit 21 using a model learned by referring to the data. Therefore, according to the risk detection device 2 according to this exemplary embodiment, it is possible to obtain the effect that the risk of a project or the like can be detected with higher accuracy without requiring complicated work such as rule creation.
  • the functions of the risk detection device 2 described above can also be realized by a program.
  • the risk detection program according to the present exemplary embodiment provides a computer with an acquisition process for acquiring text data, analyzes the structure of a sentence represented by the text data acquired in the acquisition process, and generates structural data representing the structure of the sentence. Learning by referring to learning data including generated analysis processing, text data, structural data representing the sentence structure of the text data, and structural data tagged with elements corresponding to expressions corresponding to risks an extraction process for extracting an expression corresponding to the risk from the text data acquired in the acquisition process using the obtained model.
  • FIG. 4 is a flow diagram showing the flow of the risk detection method S2.
  • the execution entity of each step in the risk detection method S2 may be a processor provided in the risk detection device 2 or a processor provided in another device. processor.
  • At step S21 at least one processor acquires text data.
  • At step S22 at least one processor analyzes the structure of the sentence represented by the acquired text data and generates structure data representing the structure of the sentence.
  • at least one processor prepares learning data including text data and structural data representing the sentence structure of the text data, in which elements corresponding to expressions corresponding to risks are tagged. Using the model learned with reference, an expression corresponding to risk is extracted from the obtained text data.
  • At least one processor obtains text data, analyzes the structure of the sentence represented by the obtained text data, and analyzes the structure of the sentence. generate structural data representing the risk, and refer to learning data including text data and structural data representing the sentence structure of the text data, in which elements corresponding to expressions corresponding to risks are tagged A configuration is adopted in which an expression corresponding to risk is extracted from the acquired text data using the learned model. Therefore, according to the risk detection method S2 according to the present exemplary embodiment, it is possible to obtain the effect that the risk of a project or the like can be detected with higher accuracy without requiring complicated work such as rule creation.
  • FIG. 5 is a block diagram showing the configuration of the risk detection device 1A according to this exemplary embodiment.
  • the risk detection device 1A has a function of detecting risks such as projects from stored documents.
  • the risk detection device 1A is an example of a learning data generation device and a risk detection device according to the present specification.
  • the risk detection device 1A as shown in FIG. 5, includes a control section 10A, a storage section 20A, a communication section 30A and an input/output section 40A.
  • the communication unit 30A communicates with a device external to the risk detection device 1A via a communication line.
  • a communication line includes wireless LAN (Local Area Network), wired LAN, WAN (Wide Area Network), public line network, mobile data communication network, or a combination thereof.
  • the communication unit 30A transmits data supplied from the control unit 10A to other devices, and supplies data received from other devices to the control unit 10A.
  • Input/output unit 40A Input/output devices such as a keyboard, mouse, display, printer, and touch panel are connected to the input/output unit 40A.
  • the input/output unit 40A receives input of various kinds of information from the connected input device to the risk detection device 1A. Also, the input/output unit 40A outputs various kinds of information to the connected output device under the control of the control unit 10A.
  • an interface such as a USB (Universal Serial Bus) can be used as the input/output unit 40A.
  • the control section 10A includes a learning phase execution section 110A and an estimation phase execution section 120A, as shown in FIG.
  • the learning phase execution unit 110A comprises an analysis unit 11, a tagging unit 12, an output unit 13 and a learning unit 14A.
  • the estimation phase execution unit 120A includes an acquisition unit 21, an analysis unit 22, and an extraction unit 23. FIG.
  • analysis unit 11 analyzes the structure of the sentence represented by the text data and generates structure data representing the structure of the sentence.
  • the analysis unit 11 performs morphological analysis and syntactic analysis of text data to generate data representing a syntax tree.
  • the tagging unit 12 accepts a user operation specifying a risk expression included in the sentence, and tags the element corresponding to the risk expression in the structure data based on the accepted user operation. As an example, based on the user operation, the tagging unit 12 attaches a tag indicating "intention” and a tag indicating "topic” to the elements of the structure data as tags indicating expressions corresponding to the risks.
  • the tags given by the tagging unit 12 are not limited to the two types of tags, the "intention" tag and the "topic” tag, and may include other types of tags. Also, the number of types of tags that the tagging unit 12 attaches is not limited to two, and may be more or less.
  • the output unit 13 outputs learning data TD including text data and structural data tagged by the tagging unit 12 .
  • the output unit 13 outputs the learning data TD by writing it into the storage unit 20A.
  • the learning unit 14A learns a model MA for extracting an expression corresponding to a risk from the text data by inputting the text data and the structure data representing the sentence structure of the text data using the learning data.
  • the acquisition unit 21 acquires text data that is the target of risk detection.
  • the text data is, for example, text data stored in the business document database DB.
  • the text data may be data received from another device connected via the communication unit 30A, or may be data input to an input device connected to the input/output unit 40A. good.
  • the analysis unit 22 analyzes the structure of the sentence represented by the text data acquired by the acquisition unit 21, and generates structure data representing the structure of the sentence.
  • the analysis processing performed by the analysis unit 22 is the same as the analysis processing performed by the analysis unit 11 .
  • the analysis unit 22 may use a common library with the analysis unit 11 to perform morphological analysis and syntactic analysis.
  • the extraction unit 23 extracts an expression corresponding to risk from the text data acquired by the acquisition unit 21 using the model MA generated by the learning unit 14A.
  • the storage unit 20A stores a business document database DB, as well as learning data TD and a model MA. Storing the model MA means that the parameters defining the model MA are stored in the storage unit 20A.
  • the business document database DB is a database in which business documents are accumulated. Business documents are saved in various file formats such as text files, PDF files, and HTML files. In this exemplary embodiment, at least some of the files stored in the business document database DB are used for training the model MA.
  • Model MA is a model for extracting risk expressions from text data, and is generated by supervised machine learning.
  • the input of model MA includes textual data and tagged structural data.
  • the output of Model MA includes data indicative of risk representations.
  • the data indicating the risk expression includes, for example, data indicating a combination of elements corresponding to the risk expression, or confidence that each element included in the structural data is the risk expression.
  • model MA is a model generated by deep learning.
  • FIG. 6 is a flowchart showing the flow of the learning phase execution method S100A executed by the risk detection device 1A. Note that some of the steps included in the learning phase execution method S100A may be executed in parallel or in a different order. Also, the description of the already described contents will not be repeated.
  • Step S101 the analysis unit 11 acquires text data from the business document database DB, analyzes the structure of the sentence represented by the acquired text data, and generates structural data representing the structure of the sentence.
  • step S102 the tagging unit 12 receives a user operation specifying an expression corresponding to the risk contained in the sentence, and tags the element corresponding to the expression in the structure data based on the received user operation. Specifically, as an example, the tagging unit 12 displays a screen prompting the user to specify a risk expression on a touch panel (not shown) connected to the input/output unit 40A, and performs tagging based on the user's operation on the touch panel. conduct.
  • FIG. 7 is a diagram showing a specific example of screen display output by the tagging unit 12.
  • the screen displays text data 201 and a syntax tree 202 that is the result of parsing the text data 201 .
  • a syntax tree 202 is displayed that is the result of parsing the sentence "If the other party refuses, we will report that our company will be required to bear the costs.”
  • the screen also displays a pointer 204 for the user to select an element, a button 206 for displaying the next text data, and a button 205 for displaying the previous text data.
  • a pointer 204 moves within the screen based on a user operation.
  • select "intent” and “topic” in this order. ” prompting a user operation may be displayed.
  • FIG. 8 is a diagram showing a specific example of screen display after the user selects an element to be tagged on the screen of FIG. When the user sequentially selects "necessary" and “cost burden” in the syntax tree 202 of FIG. ” with the tag of “topic”. Note that the UI screen for the user to specify the risk expression is not limited to the examples of FIGS. 7 and 8, and may be another screen.
  • the tagging unit 12 assigns different tags to multiple elements corresponding to risk expressions in structural data.
  • the tagged structural data can also be said to be data representing relationships (dependency relationships, etc.) between multiple elements corresponding to risk expressions.
  • the tagging unit 12 generates data indicating relationships (dependency relationships, etc.) between multiple elements corresponding to risk expressions.
  • the user designates a plurality of elements corresponding to risk expressions in the text data, and the tagging unit 12 identifies the plurality of elements designated by the user and the relationships between the elements.
  • the user selects button 206 or button 205 without user operation for tagging.
  • the tagging unit 12 does not tag structural data corresponding to the text data.
  • step S103 the output unit 13 outputs learning data TD including text data and tagged structural data.
  • the output unit 13 stores the learning data TD in the storage unit 20A.
  • the risk detection device 1A executes the processes of steps S101 to S103 for one piece of text data.
  • learning data TD is generated that includes text data and structural data representing the sentence structure of the text data and tagged with risk expression elements.
  • step S104 the learning unit 14A generates a model MA by supervised machine learning using the learning data TD.
  • the learning unit 14A generates the model MA by deep learning.
  • FIG. 9 is a flowchart showing the flow of the estimation phase execution method S200A executed by the risk detection device 1A. Some of the steps included in the estimation phase execution method S200A may be executed in parallel or in a different order. Also, the description of the already described contents will not be repeated.
  • Step S201 the acquisition unit 21 acquires text data that is the target of risk detection.
  • the text data acquired by the acquisition unit 21 is, for example, text data stored in the business document database DB and includes text data that is not used for learning the model MA.
  • the acquisition unit 21 may also receive text data from another device connected via the communication unit 30A.
  • step S202 the analysis unit 22 analyzes the structure of the sentence represented by the text data acquired by the acquisition unit 21, and generates structure data representing the structure of the sentence.
  • step S203 the extraction unit 23 extracts risk expressions from the text data acquired by the acquisition unit 21 using the model MA.
  • the extraction unit 23 extracts the risk expression from the text data based on the output of the model MA obtained by inputting the text data acquired by the acquisition unit 21 and the structural data generated by the analysis unit 22 into the model MA. do.
  • the extraction unit 23 outputs the extracted risk expression.
  • the extracting unit 23 outputs by writing data indicating the risk expression to the storage unit 20A.
  • the method by which the extraction unit 23 outputs the risk expression is not limited to the example described above, and the extraction unit 23 may output the risk expression by another method.
  • the extraction unit 23 may transmit data representing the risk expression to another device connected via the communication unit 30A, or transmit data representing the risk expression to an output device connected to the input/output unit 40A. may be output.
  • structural data that represents the structure of a sentence is not used as training data as it is, but structural data tagged based on user operations is included in learning data.
  • structural data indicating the multiple elements specified by the user and the relationships between the multiple elements in the learning data it is possible to generate learning data for more accurately detecting project risks. .
  • the tagged structural data is data that reflects the user's intentions, such as what phrases the user considers to be risky. . What phrases are risky depends on the situation of the user or the situation of the project. Therefore, it is possible to generate learning data for risk detection that better reflects the user's intention.
  • the risk detection device 1A according to the present exemplary embodiment employs a configuration including the learning unit 14A for learning the model MA using the learning data TD. Therefore, according to the risk detection device 1A according to the present exemplary embodiment, in addition to the effects of the learning data generation device 1 according to the first exemplary embodiment, complicated work such as rule creation is not required. It is possible to obtain the effect of being able to generate a model MA for detecting the risk of a project or the like with higher accuracy.
  • the tagging unit 12 converts a tag indicating an intention and a tag indicating a topic as a tag indicating a risk expression into elements of the structure data based on the above user operation. A configuration to give is adopted. Since the tagged elements are selected by the user, the structural data with these tags reflects the user's intention of what phrases the user considers to be risky.
  • the learning unit 14A generates the model MA by deep learning. Therefore, according to the risk detection device 1A according to the present exemplary embodiment, it is possible to generate a model MA for more accurately detecting the risk of a project or the like without requiring complicated work such as rule creation. can get.
  • the analysis unit 11 performs morphological analysis and syntactic analysis of text data. Therefore, according to the risk detection device 1A according to the present exemplary embodiment, it is possible to generate learning data for more accurately detecting the risk of a project or the like without requiring complicated work such as rule creation. is obtained.
  • the tagged structural data indicates, as an example, relationships (dependency relationships, etc.) between multiple elements corresponding to risk expressions.
  • risk expression can be A model MA with higher detection accuracy can be generated as the model MA to be detected.
  • the model MA is a model generated by deep learning. Therefore, according to the risk detection device 1A according to the present exemplary embodiment, it is possible to obtain the effect that the risk of a project or the like can be detected with higher accuracy without requiring complicated work such as rule creation.
  • the analysis unit 22 performs morphological analysis and syntactic analysis of the text data. Therefore, according to the risk detection device 1A according to the present exemplary embodiment, it is possible to obtain the effect that the risk of a project or the like can be detected with higher accuracy without requiring complicated work such as rule creation.
  • the degree of risk severity may be user selectable.
  • the tagging unit 12 outputs a UI screen for the user to select the degree of risk to the touch panel.
  • a user operates a touch panel to select an element to which a tag is attached and a degree of risk, and the tagging unit 12 attaches a tag including the degree of risk to the selected element according to the user's operation.
  • the detection accuracy of the model MA can be further improved by including the structure data to which the tag including the degree of risk is attached in the learning data.
  • Some or all of the functions of the learning data generation device 1, the risk detection device 2, and the risk detection device 1A are realized by hardware such as integrated circuits (IC chips). may be implemented by software.
  • the learning data generation device 1 and the like are implemented by a computer that executes program instructions, which are software that implements each function, for example.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C comprises at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the learning data generation device 1 or the like is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the learning data generation device 1 and the like.
  • processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
  • memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
  • Computer C may further include a communication interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
  • the computer C can acquire the program P via such a recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • a learning data generation device comprising:
  • the tagging means attaches, based on the user operation, a tag indicating an intention and a tag indicating a topic as a tag indicating an expression corresponding to the risk to the elements of the structural data.
  • the learning data generation device according to appendix 1 or 2.
  • Appendix 5 the analysis means performs morphological analysis and syntactic analysis of the text data; 5.
  • the learning data generation device according to any one of Appendices 1 to 4.
  • a risk detection device comprising a
  • the model is a model generated by deep learning, The risk detection device according to appendix 6.
  • Appendix 8 the analysis means performs morphological analysis and syntactic analysis of the text data;
  • the risk detection device according to appendix 6 or 7.
  • (Appendix 9) at least one processor Analyze the structure of the sentence represented by the text data, generate structural data representing the structure of the sentence, Receiving a user operation specifying an expression corresponding to the risk contained in the sentence, tagging an element corresponding to the expression in the structural data based on the received user operation, outputting training data including the text data and the tagged structural data; Training data generation method.
  • At least one processor at least one processor get the text data, analyzing the structure of the sentence represented by the acquired text data, generating structural data representing the structure of the sentence; Using a model learned by referring to learning data including text data and structural data representing the structure of sentences in the text data, in which elements corresponding to expressions corresponding to risks are tagged , extracting an expression corresponding to the risk from the obtained text data; Risk detection method.
  • (Appendix 13) analysis means for analyzing the structure of a sentence represented by text data and generating structural data representing the structure of the sentence; Tagging means for receiving a user operation specifying an expression corresponding to the risk included in the sentence, and tagging an element corresponding to the expression in the structural data based on the received user operation; output means for outputting learning data including the text data and the structural data tagged by the tagging means; Training data generation system including.
  • Appendix 14 an acquisition means for acquiring text data; analysis means for analyzing the structure of a sentence represented by the text data acquired by the acquisition means and generating structural data representing the structure of the sentence; Using a model learned by referring to learning data including text data and structural data representing the structure of sentences in the text data, in which elements corresponding to expressions corresponding to risks are tagged , an extraction means for extracting an expression corresponding to risk from the text data acquired by the acquisition means; Risk detection system including;
  • At least one processor analyzes the structure of a sentence represented by the text data, and specifies an analysis process for generating structural data representing the structure of the sentence, and an expression corresponding to the risk included in the sentence.
  • learning including a tagging process of accepting a user operation, tagging an element corresponding to the expression in the structural data based on the accepted user operation, and the text data and the structural data tagged in the tagging process
  • a learning data generation device that executes output processing for outputting data for learning.
  • the learning data generation device may further include a memory, and the memory stores a program for causing the processor to execute the analysis process, the tagging process, and the output process. may have been Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.
  • At least one processor is provided, and the processor is an acquisition process for acquiring text data, and an analysis process for analyzing the structure of a sentence represented by the text data acquired in the acquisition process and generating structural data representing the structure of the sentence. and training data containing text data and structural data representing the structure of sentences in the text data and tagged with elements corresponding to expressions corresponding to risks. and extracting an expression corresponding to the risk from the text data acquired in the acquisition process.
  • the risk detection device may further include a memory, and the memory stores a program for causing the processor to execute the acquisition process, the analysis process, and the extraction process. good too. Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.
  • the present invention has been described with reference to the above-described exemplary embodiments, the present invention is not limited to the above-described exemplary embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. At least one or more of the functions of the learning data generation device 1 and the risk detection devices 1A and 2 described above are executed by a plurality of different information processing devices installed and connected anywhere on the network. may be implemented in so-called cloud computing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するための学習用データを生成するために、学習用データ生成装置(1)は、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析部(11)と、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けするタグ付け部(12)と、上記テキストデータと上記タグ付け部(12)によりタグ付けされた構造データとを含む学習用データを出力する出力部(13)と、を備える。

Description

学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム
 本発明は、プロジェクト等のリスクを検知するための技術に関する。
 企業等においては業務文書等の大量の文書が存在する。そのような大量の文書の全てを確認して俯瞰的な判断を下すことは困難であり、保管されている大量の文書を有効に活用できていない場合がある。また、近年、大量の文書から有用な情報を抽出したり、特定の状況を検知したりしたいといったニーズがある。特に、プロジェクト等のリスクを検知したいというニーズが大きい。
 文書からリスクを検知する手法として、従来では、リスクを表す単語(「遅れ」、「不満」、等)を抽出したり、抽出された単語を組み合わせたルールベースでリスクを検知したりすることが行われている。例えば特許文献1には、ひとつの文書を独立した複数のルールに関して評価し、各ルールの評価値と重みの積を合計することが記載されている。また、特許文献2には、WEBページのテキストデータから形態素解析によって単語を抽出し、抽出した単語をニューラルネットワークに入力してリスクに関するスコアを算出することが記載されている。
特開平2-289060号公報 特開2020-166506号公報
 しかしながら、特許文献1等のルールベースでリスクを検知する技術では、人手による単語辞書やルール作成に非常に手間がかかるという課題があった。上記課題解決のため、特許文献2等に記載されたような、一般的な自然言語処理技術を利用して単語抽出を行う方法が考えられるが、誤検知が多くなってしまうという課題があった。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するための学習用データを生成する技術を提供することである。
 本発明の一側面に係る学習用データ生成装置は、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け手段と、前記テキストデータと前記タグ付け手段によりタグ付けされた構造データとを含む学習用データを出力する出力手段と、を備える。
 本発明の一側面に係るリスク検知装置は、テキストデータを取得する取得手段と、前記取得手段が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得手段が取得したテキストデータからリスクに相当する表現を抽出する抽出手段と、を備える。
 本発明の一側面に係る学習用データ生成方法は、少なくとも1つのプロセッサが、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けし、前記テキストデータと前記タグ付けされた構造データとを含む学習用データを出力する。
 本発明の一側面に係るリスク検知方法は、少なくとも1つのプロセッサが、テキストデータを取得し、前記取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得したテキストデータからリスクに相当する表現を抽出する。
 本発明の一側面に係る学習用データ生成プログラムは、コンピュータに、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け処理と、前記テキストデータと前記タグ付け処理においてタグ付けされた構造データとを含む学習用データを出力する出力処理と、を実行させる。
 本発明の一側面に係るリスク検知プログラムは、コンピュータに、テキストデータを取得する取得処理と、前記取得処理において取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得処理において取得したテキストデータからリスクに相当する表現を抽出する抽出処理と、を実行させる。
 本発明の一態様によれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するための学習用データを生成することができる。
例示的実施形態1に係る学習用データ生成装置の構成を示すブロック図である。 例示的実施形態1に係る学習用データ生成方法の流れを示すフロー図である。 例示的実施形態1に係るリスク検知装置の構成を示すブロック図である。 例示的実施形態1に係るリスク検知方法の流れを示すフロー図である。 例示的実施形態2に係る情報処理装置の構成を示すブロック図である。 例示的実施形態2に係る学習フェーズ実行方法の流れを示すフロー図である。 例示的実施形態2に係る画面表示例を示す図である。 例示的実施形態2に係る画面表示例を示す図である。 例示的実施形態2に係る推定フェーズ実行方法の流れを示すフロー図である。 各例示的実施形態に係る情報処理装置として機能するコンピュータの構成を示すブロック図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 <学習用データ生成装置1の構成>
 本例示的実施形態に係る学習用データ生成装置1の構成について、図1を参照して説明する。図1は、学習用データ生成装置1の構成を示すブロック図である。学習用データ生成装置1は、解析部11、タグ付け部12及び出力部13を備える。
 (解析部11)
 解析部11は、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。ここで、テキストデータは、文を表すデータであり、一例として、企業で保管されている業務文書(業務日報、操業日誌、等)を表すデータである。テキストデータが保存されるデータ形式はテキストファイルに限られず、例えばPDF(Portable Document Format)形式のファイル、HTML(HyperText Markup Language)形式のファイル、又は他の所定の文書作成ソフトウェアにより作成されたファイルであってもよい。
 解析部11は、一例として、形態素解析及び構文解析を行うことにより文の構造を解析する。形態素解析は、文を形態素に分割し、それぞれの形態素の品詞等を判別する処理である。構文解析は、形態素の関係を図式化する等して明確にする処理である。ただし、解析部11が文の構造を解析する手法は上述した例に限られない。解析部11は他の手法により文の構造を解析してもよい。
 構造データは、文の構造を表すデータであり、一例として、構文木を表すデータである。
 (タグ付け部12)
 タグ付け部12は、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けする。ここで、リスクに相当する表現は、例えば、「費用負担が必要になる」といったフレーズである。以下では、リスクに相当する表現を「リスク表現」ともいう。どのフレーズがリスク表現であるかは、ユーザの属性、ユーザ又はプロジェクトの状況等により様々である。リスク表現は一例として、複数の形態素の組み合わせを含む。
 ユーザ操作は、ユーザがリスク表現を指定する動作であり、一例として、マウス、キーボード、タッチパネル、音声入力装置、視線入力装置等の入力装置に対する操作を含む。タグ付け部12は、一例として、入出力インタフェースに接続されたディスプレイにリスク表現の指定をユーザに促す画面を表示する。ユーザが入力装置を用いてリスク表現を指定する操作を行うと、タグ付け部12は、ユーザ操作に基づき、構造データに含まれる要素に対するタグ付けを行う。構造データにおいてリスク表現に対応する要素は、一例として、文に含まれる形態素である。
 (出力部13)
 出力部13は、上記テキストデータとタグ付け部12によりタグ付けされた構造データとを含む学習用データを出力する。学習用データは、一例として、テキストデータからリスク表現を抽出するモデルの学習に用いられる。モデルの機械学習の手法は限定されないが、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの2以上の手法が用いられてもよい。
 出力部13は、一例として、学習用データを記憶装置に書き込むことにより出力してもよく、また、通信インタフェースを介して他の装置に学習用データを送信することにより学習用データを出力してもよい。また、出力部13は、入出力インタフェースに接続された出力装置に学習用データを出力してもよい。出力装置は、一例として、ディスプレイ、プリンタ、プロジェクタ又はスピーカである。
 <学習用データ生成装置1の効果>
 以上のように、本例示的実施形態に係る学習用データ生成装置1においては、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析部11と、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けするタグ付け部12と、上記テキストデータとタグ付け部12によりタグ付けされた構造データとを含む学習用データを出力する出力部13と、を備える構成が採用されている。このように、学習用データ生成装置1は、文の構造を表す構造データをそのまま学習用データとするのではなく、ユーザ操作に基づきタグ付けした構造データを学習用データに含める。このため、本例示的実施形態に係る学習用データ生成装置1によれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するための学習用データを生成できるという効果が得られる。
 <学習用データ生成プログラム>
 上述の学習用データ生成装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る学習用データ生成プログラムは、コンピュータに、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けするタグ付け処理と、上記テキストデータと上記タグ付け処理においてタグ付けされた構造データとを含む学習用データを出力する出力処理と、を実行させる。
 <学習用データ生成方法S1の流れ>
 本例示的実施形態に係る学習用データ生成方法S1の流れについて、図2を参照して説明する。図2は、学習用データ生成方法S1の流れを示すフロー図である。学習用データ生成方法S1における各ステップの実行主体は、学習用データ生成装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
 ステップS11では、少なくとも1つのプロセッサが、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。ステップS12では、少なくとも1つのプロセッサが、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けする。ステップS13では、少なくとも1つのプロセッサが、上記テキストデータと上記タグ付けされた構造データとを含む学習用データを出力する。
 <学習用データ生成方法S1の効果>
 以上のように、本例示的実施形態に係る学習用データ生成方法S1においては、少なくとも1つのプロセッサが、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けし、上記テキストデータと上記タグ付けされた構造データとを含む学習用データを出力する構成が採用されている。このため、本例示的実施形態に係る学習用データ生成方法S1によれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するための学習用データを生成できるという効果が得られる。
 <リスク検知装置2の構成>
 次いで、本例示的実施形態に係るリスク検知装置2の構成について、図3を参照して説明する。図3は、リスク検知装置2の構成を示すブロック図である。リスク検知装置2は、取得部21、解析部22及び抽出部23を備える。
 (取得部21)
 取得部21は、テキストデータを取得する。取得部21は、一例として、記憶装置からテキストデータを読み出すことによりテキストデータを取得してもよく、また、通信インタフェースを介して接続された他の装置からテキストデータを受信することによりテキストデータを取得してもよい。また、取得部21は、入出力インタフェースに接続された入力装置に入力されたテキストデータを取得してもよい。
 (解析部22)
 解析部22は、取得部21が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。解析部22は、一例として、形態素解析及び構文解析を行うことにより文の構造を解析する。ただし、解析部22が文の構造を解析する手法は上述した例に限られない。解析部22は他の手法により文の構造を解析してもよい。
 (抽出部23)
 抽出部23は、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、取得部21が取得したテキストデータからリスクに相当する表現を抽出する。
 (モデル)
 モデルは、テキストデータからリスク表現を抽出するモデルである。モデルの入力は一例として、テキストデータと構造データとを含む。また、モデルの出力は一例として、リスク表現を示すデータを含む。リスク表現を示すデータは一例として、リスク表現に相当する要素を示すデータ、又は、構造データに含まれる要素がリスク表現である確信度(スコア)を含む。
 モデルは、学習用データを用いた教師あり機械学習により生成される。モデルの学習に用いられる学習用データは、テキストデータと、リスク表現に対応する要素にタグ付けされた構造データとを含む。学習用データは、一例として、学習用データ生成装置1が生成した学習用データである。モデルの機械学習の手法は限定されないが、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの2以上の手法が用いられてもよい。
 <リスク検知装置2の効果>
 以上のように、本例示的実施形態に係るリスク検知装置2においては、テキストデータを取得する取得部21と、取得部21が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析部22と、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、取得部21が取得したテキストデータからリスクに相当する表現を抽出する抽出部23と、を備える構成が採用されている。このため、本例示的実施形態に係るリスク検知装置2によれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知できるという効果が得られる。
 <リスク検知プログラム>
 上述のリスク検知装置2の機能は、プログラムによって実現することもできる。本例示的実施形態に係るリスク検知プログラムは、コンピュータに、テキストデータを取得する取得処理と、上記取得処理において取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、上記取得処理において取得したテキストデータからリスクに相当する表現を抽出する抽出処理と、を実行させる。
 <リスク検知方法S2の流れ>
 本例示的実施形態に係るリスク検知方法S2の流れについて、図4を参照して説明する。図4は、リスク検知方法S2の流れを示すフロー図である。リスク検知方法S2における各ステップの実行主体は、リスク検知装置2が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
 ステップS21では、少なくとも1つのプロセッサが、テキストデータを取得する。ステップS22では、少なくとも1つのプロセッサが、上記取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。ステップS23では、少なくとも1つのプロセッサが、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、上記取得したテキストデータからリスクに相当する表現を抽出する。
 <リスク検知方法S2の効果>
 以上のように、本例示的実施形態に係るリスク検知方法S2においては、少なくとも1つのプロセッサが、テキストデータを取得し、上記取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、上記取得したテキストデータからリスクに相当する表現を抽出する構成が採用されている。このため、本例示的実施形態に係るリスク検知方法S2によれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知できるという効果が得られる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <リスク検知装置1Aの構成>
 図5は、本例示的実施形態に係るリスク検知装置1Aの構成を示すブロック図である。リスク検知装置1Aは、保存された文書からプロジェクト等のリスクを検知する機能を備える。リスク検知装置1Aは本明細書に係る学習用データ生成装置及びリスク検知装置の一例である。リスク検知装置1Aは、図5に示すように、制御部10A、記憶部20A、通信部30A及び入出力部40Aを備える。
 (通信部30A)
 通信部30Aは、リスク検知装置1Aの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部30Aは、制御部10Aから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部10Aに供給したりする。
 (入出力部40A)
 入出力部40Aには、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される。入出力部40Aは、接続された入力機器からリスク検知装置1Aに対する各種の情報の入力を受け付ける。また、入出力部40Aは、制御部10Aの制御の下、接続された出力機器に各種の情報を出力する。入出力部40Aとしては、例えばUSB(Universal Serial Bus)などのインタフェースが挙げられる。
 (制御部10A)
 制御部10Aは、図5に示すように、学習フェーズ実行部110A及び推定フェーズ実行部120Aを備える。学習フェーズ実行部110Aは解析部11、タグ付け部12、出力部13及び学習部14Aを備える。推定フェーズ実行部120Aは、取得部21、解析部22及び抽出部23を備える。
 (解析部11)
 解析部11は、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。本例示的実施形態において、解析部11は、テキストデータの形態素解析及び構文解析を行い、構文木を表すデータを生成する。
 (タグ付け部12)
 タグ付け部12は、上記文に含まれるリスク表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいてリスク表現に対応する要素にタグ付けする。タグ付け部12は、一例として、上記ユーザ操作に基づき、上記リスクに相当する表現を示すタグとして「意図」を示すタグ及び「トピック」を示すタグを上記構造データの要素に付与する。ただし、タグ付け部12が付与するタグは「意図」のタグと「トピック」のタグとの2種類のタグに限られず、他の種類のタグを含んでもよい。また、タグ付け部12が付与するタグの種類は2に限らず、これより多くても少なくてもよい。
 (出力部13)
 出力部13は、テキストデータと、タグ付け部12がタグ付けした構造データとを含む学習用データTDを出力する。本例示的実施形態において、出力部13は、学習用データTDを記憶部20Aに書き込むことにより出力する。
 (学習部14A)
 学習部14Aは、学習用データを用いて、テキストデータと当該テキストデータの文の構造を表す構造データとを入力として当該テキストデータからリスクに相当する表現を抽出するモデルMAを学習させる。
 (取得部21)
 取得部21は、リスク検知の対象であるテキストデータを取得する。テキストデータは一例として、業務文書データベースDBに記憶されたテキストデータである。また、テキストデータは、通信部30Aを介して接続された他の装置から受信されるデータであってもよく、また、入出力部40Aに接続された入力装置に入力されたデータであってもよい。
 (解析部22)
 解析部22は、取得部21が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。解析部22が行う解析処理は解析部11が行う解析処理と同様である。解析部22は一例として、解析部11と共通のライブラリを用いて形態素解析及び構文解析を行ってもよい。
 (抽出部23)
 抽出部23は、学習部14Aが生成したモデルMAを用いて、取得部21が取得したテキストデータからリスクに相当する表現を抽出する。
 (記憶部20A)
 記憶部20Aには、業務文書データベースDBが記憶されるとともに、学習用データTD及びモデルMAが記憶される。なお、モデルMAが記憶されるとは、モデルMAを規定するパラメータが記憶部20Aに記憶されることをいう。
 (業務文書データベースDB)
 業務文書データベースDBは、業務文書が蓄積されたデータベースである。業務文書は、テキストファイル、PDFファイル、HTMLファイル等の種々のファイル形式で保存される。本例示的実施形態において、業務文書データベースDBに記憶されたファイルの少なくとも一部は、モデルMAの学習のために用いられる。
 (モデルMA)
 モデルMAは、テキストデータからリスク表現を抽出するためのモデルであり、教師あり機械学習により生成される。モデルMAの入力は、テキストデータ及びタグ付けされた構造データを含む。モデルMAの出力は、リスク表現を示すデータを含む。リスク表現を示すデータは、一例として、リスク表現に相当する要素の組み合わせを示すデータ、又は、構造データに含まれる各要素がリスク表現である確信度を含む。本例示的実施形態において、モデルMAは、ディープラーニングにより生成されたモデルである。
 <学習フェーズ実行方法S100Aの流れ>
 図6は、リスク検知装置1Aが実行する学習フェーズ実行方法S100Aの流れを示すフロー図である。なお、学習フェーズ実行方法S100Aに含まれるステップのうち、一部のステップは並行して又は順序を換えて実行されてもよい。また、既に説明した内容についてはその説明を繰り返さない。
 (ステップS101)
 ステップS101において、解析部11は、業務文書データベースDBからテキストデータを取得し、取得したテキストデータが表す文の構造を解析し、文の構造を表す構造データを生成する。
 (ステップS102)
 ステップS102において、タグ付け部12は、上記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、上記構造データにおいて上記表現に対応する要素にタグ付けする。具体的には、タグ付け部12は一例として、入出力部40Aに接続されたタッチパネル(図示略)にリスク表現の指定をユーザに促す画面を表示するとともに、タッチパネルに対するユーザ操作に基づきタグ付けを行う。
 図7は、タグ付け部12が出力する画面表示の具体例を示す図である。図7の例で、画面には、テキストデータ201と、テキストデータ201の構文解析結果である構文木202とが表示される。図7の例では、「先方が拒否した場合には、当社での費用負担が必要になることを報告した。」という文についての構文解析の結果である構文木202が表示されている。また、画面には、ユーザが要素を選択するためのポインタ204、次のテキストデータを表示するためのボタン206、及び、前のテキストデータを表示するためのボタン205が表示される。ポインタ204は、ユーザ操作に基づき画面内を移動する。また、タグ付け部12は、「「意図」、「トピック」の順に選択してください。」といったユーザ操作を促すメッセージを表示してもよい。
 図8は、図7の画面においてユーザがタグ付けする要素を選択した後の画面表示の具体例を示す図である。図7の構文木202においてユーザが「必要」と「費用負担」とを順に選択する操作を行うと、タグ付け部12は、「必要」に「意図」のタグを付与するとともに、「費用負担」に「トピック」のタグを付与する。なお、ユーザがリスク表現を指定するためのUI画面は図7及び図8の例に限られず、他の画面であってもよい。
 上述したように、タグ付け部12は、構造データにおいてリスク表現に対応する複数の要素にそれぞれ異なるタグを付与する。タグ付けされた構造データは、リスク表現に対応する複数の要素間の関係(係り受け関係、等)を表すデータであるとも言える。換言すると、タグ付け部12は、リスク表現に対応する複数の要素間の関係(係り受け関係、等)を示すデータを生成する。このように、本例示的実施形態では、ユーザは、テキストデータにおいてリスク表現に相当する複数の要素を指定し、タグ付け部12は、ユーザが指定した複数の要素及び当該複数の要素間の関係を示すデータを生成する。
 テキストデータがリスク表現を含まない場合、ユーザはタグ付けのためのユーザ操作を行うことなく、ボタン206又はボタン205を選択する。この場合、タグ付け部12は、そのテキストデータに対応する構造データに対しタグ付け処理を行わない。
 (ステップS103)
 ステップS103において、出力部13は、テキストデータと、タグ付けされた構造データとを含む学習用データTDを出力する。本例示的実施形態において、出力部13は学習用データTDを記憶部20Aに記憶する。
 リスク検知装置1Aは、ひとつのテキストデータについてステップS101~S103の処理を実行する。これにより、テキストデータとそのテキストデータの文の構造を表す構造データであってリスク表現の要素にタグ付けされた構造データとを含む学習用データTDが生成される。
 (ステップS104)
 ステップS104において、学習部14Aは、学習用データTDを用いた教師あり機械学習によりモデルMAを生成する。本例示的実施形態において、学習部14Aは、モデルMAをディープラーニングにより生成する。
 <推定フェーズ実行方法S200Aの流れ>
 図9は、リスク検知装置1Aが実行する推定フェーズ実行方法S200Aの流れを示すフロー図である。なお、推定フェーズ実行方法S200Aに含まれるステップのうち、一部のステップは並行して又は順序を換えて実行されてもよい。また、既に説明した内容についてはその説明を繰り返さない。
 (ステップS201)
 ステップS201において、取得部21は、リスク検知の対象であるテキストデータを取得する。取得部21が取得するテキストデータは一例として、業務文書データベースDBに記憶されたテキストデータであって、モデルMAの学習に用いられていないテキストデータを含む。また、取得部21は、通信部30Aを介して接続された他の装置からテキストデータを受信してもよい。
 (ステップS202)
 ステップS202において、解析部22は、取得部21が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する。
 (ステップS203)
 ステップS203において、抽出部23は、モデルMAを用いて、取得部21が取得したテキストデータからリスク表現を抽出する。抽出部23は、一例として、取得部21が取得いたテキストデータと、解析部22が生成した構造データとをモデルMAに入力して得られるモデルMAの出力に基づき、テキストデータからリスク表現を抽出する。
 抽出部23は、抽出したリスク表現を出力する。抽出部23は一例として、リスク表現を示すデータを記憶部20Aに書き込むことにより出力する。ただし、抽出部23がリスク表現を出力する手法は上述した例に限定されず、抽出部23は他の手法によりリスク表現を出力してもよい。抽出部23は一例として、通信部30Aを介して接続された他の装置にリスク表現を示すデータを送信してもよく、また、入出力部40Aに接続された出力装置にリスク表現を示すデータを出力してもよい。
 <リスク検知装置1Aの効果>
 ところで、上述の特許文献2に記載されたような、一般的な自然言語処理技術を利用した手法では、上述したように誤検知が多くなってしまうという問題があった。例えば「先方が拒否した場合には、当社での費用負担が必要になることを報告した」という文において「費用負担」と「必要」とをリスク表現として検知することは問題ない。一方、「必要に応じ、当社と顧客で費用負担を折半することとなった」という文、及び「必要な人員について整理し、費用負担を確認した」という文において「必要」と「費用負担」とはリスク表現ではないものの、これらがリスク表現として誤検知されてしまうという問題があった。
 それに対し本例示的実施形態では、文の構造を表す構造データをそのまま学習用データとするのではなく、ユーザ操作に基づきタグ付けした構造データを学習用データに含める。ユーザが指定した複数の要素及び複数の要素間の関係を示す構造データを学習用データに含めることにより、プロジェクト等のリスクをより精度よく検知するための学習用データを生成できるという効果が得られる。
 また、構造データにおいてタグが付される要素はユーザにより選択される要素であるため、タグ付きの構造データは、ユーザがどういったフレーズをリスクとみなすかといったユーザの意図を反映したデータとなる。どのようなフレーズがリスクであるかはユーザの状況又はプロジェクトの状況によって様々であるが、本例示的実施形態に係る学習用データ生成装置1によれば、ルール作成等の煩雑な作業を要することなく、ユーザの意向をより反映したリスク検知を行うための学習用データを生成できるという効果が得られる。
 以上のように、本例示的実施形態に係るリスク検知装置1Aにおいては、学習用データTDを用いてモデルMAを学習させる学習部14Aを備える構成が採用されている。このため、本例示的実施形態に係るリスク検知装置1Aによれば、例示的実施形態1に係る学習用データ生成装置1の奏する効果に加えて、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するためのモデルMAを生成できるという効果が得られる。
 また、本例示的実施形態に係るリスク検知装置1Aにおいては、タグ付け部12は、上記ユーザ操作に基づき、リスク表現を示すタグとして意図を示すタグ及びトピックを示すタグを上記構造データの要素に付与する構成が採用されている。タグが付される要素はユーザにより選択される要素であるため、これらのタグ付きの構造データは、ユーザがどのようなフレーズをリスクとみなすかというユーザの意図を反映したデータとなる。どのようなフレーズがリスクであるかはユーザの状況又はプロジェクトの状況等によって様々であるが、このようなタグ付き構造データを学習用データに含めることにより、本例示的実施形態に係るリスク検知装置1Aによれば、例示的実施形態1に係る学習用データ生成装置1の奏する効果に加えて、モデルMAを用いたリスク検知にユーザの意図をより反映させることができるという効果が得られる。
 また、本例示的実施形態に係るリスク検知装置1Aにおいては、学習部14Aは、モデルMAをディープラーニングにより生成する。このため、本例示的実施形態に係るリスク検知装置1Aによれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するためのモデルMAを生成できるという効果が得られる。
 また、本例示的実施形態に係るリスク検知装置1Aにおいては、解析部11は、テキストデータの形態素解析および構文解析を行う。このため、本例示的実施形態に係るリスク検知装置1Aによれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知するための学習用データを生成できるという効果が得られる。
 また、本例示的実施形態において、タグ付けされた構造データは、一例として、リスク表現に対応する複数の要素間の関係(係り受けの関係、等)を示している。構造データをそのまま学習データとして用いるのではなく、ユーザ操作に基づきタグ付け部12が複数の要素にタグ付けした構造データを学習データとして用いることにより、本例示的実施形態によれば、リスク表現を検知するモデルMAとしてより検知精度の高いモデルMAを生成することができる。
 また、本例示的実施形態に係るリスク検知装置1Aにおいては、モデルMAは、ディープラーニングにより生成されたモデルである。このため、本例示的実施形態に係るリスク検知装置1Aによれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知できるという効果が得られる。
 また、本例示的実施形態に係るリスク検知装置1Aにおいては、解析部22は、上記テキストデータの形態素解析および構文解析を行う。このため、本例示的実施形態に係るリスク検知装置1Aによれば、ルール作成等の煩雑な作業を要することなく、プロジェクト等のリスクをより精度よく検知できるという効果が得られる。
<変形例>
 上述の例示的実施形態2において、リスクの危険度をユーザが選択できるようにしてもよい。この場合、タグ付け部12は一例として、リスクの危険度をユーザが選択するためのUI画面をタッチパネルに出力する。ユーザはタッチパネルを操作してタグを付与する要素とリスクの危険度とを選択し、タグ付け部12はユーザ操作に応じて、リスクの危険度を含むタグを選択された要素に付与する。リスクの危険度を含むタグが付与された構造データを学習用データに含まることにより、モデルMAの検知精度をより向上させることができる。
 〔ソフトウェアによる実現例〕
 学習用データ生成装置1、リスク検知装置2及びリスク検知装置1A(以下「学習用データ生成装置1等」という)の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、学習用データ生成装置1等は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図10に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを学習用データ生成装置1等として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、学習用データ生成装置1等の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、
 前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け手段と、
 前記テキストデータと前記タグ付け手段によりタグ付けされた構造データとを含む学習用データを出力する出力手段と、
 を備える学習用データ生成装置。
 (付記2)
 前記学習用データを用いて、テキストデータと当該テキストデータの文の構造を表す構造データとを入力として当該テキストデータからリスクに相当する表現を抽出するモデルを学習させる学習手段、
を更に備える付記1に記載の学習用データ生成装置。
 (付記3)
 前記タグ付け手段は、前記ユーザ操作に基づき、前記リスクに相当する表現を示すタグとして意図を示すタグ及びトピックを示すタグを前記構造データの要素に付与する、
付記1又は2に記載の学習用データ生成装置。
 (付記4)
 前記学習手段は、前記モデルをディープラーニングにより生成する、
付記2に記載の学習用データ生成装置。
 (付記5)
 前記解析手段は、前記テキストデータの形態素解析および構文解析を行う、
 付記1から4の何れか1つに記載の学習用データ生成装置。
 (付記6)
 テキストデータを取得する取得手段と、
 前記取得手段が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、
 テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得手段が取得したテキストデータからリスクに相当する表現を抽出する抽出手段と、
を備えるリスク検知装置。
 (付記7)
 前記モデルは、ディープラーニングにより生成されたモデルである、
付記6に記載のリスク検知装置。
 (付記8)
 前記解析手段は、前記テキストデータの形態素解析および構文解析を行う、
 付記6又は7に記載のリスク検知装置。
 (付記9)
 少なくとも1つのプロセッサが、
 テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、
 前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けし、
 前記テキストデータと前記タグ付けされた構造データとを含む学習用データを出力する、
学習用データ生成方法。
 (付記10)
 少なくとも1つのプロセッサが、
 テキストデータを取得し、
 前記取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、
 テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得したテキストデータからリスクに相当する表現を抽出する、
リスク検知方法。
 (付記11)
 コンピュータに、
 テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、
 前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け処理と、
 前記テキストデータと前記タグ付け処理においてタグ付けされた構造データとを含む学習用データを出力する出力処理と、
を実行させる学習用データ生成プログラム。
 (付記12)
 コンピュータに、
 テキストデータを取得する取得処理と、
 前記取得処理において取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、
 テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得処理において取得したテキストデータからリスクに相当する表現を抽出する抽出処理と、
を実行させるリスク検知プログラム。
 (付記13)
 テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、
 前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け手段と、
 前記テキストデータと前記タグ付け手段によりタグ付けされた構造データとを含む学習用データを出力する出力手段と、
 を含む学習用データ生成システム。
 (付記14)
 テキストデータを取得する取得手段と、
 前記取得手段が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、
 テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得手段が取得したテキストデータからリスクに相当する表現を抽出する抽出手段と、
 を含むリスク検知システム。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、前記プロセッサは、テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け処理と、前記テキストデータと前記タグ付け処理においてタグ付けされた構造データとを含む学習用データを出力する出力処理と、を実行する学習用データ生成装置。
 なお、この学習用データ生成装置は、更にメモリを備えていてもよく、このメモリには、前記解析処理と、前記タグ付け処理と、前記出力処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
 少なくとも1つのプロセッサを備え、前記プロセッサは、テキストデータを取得する取得処理と、前記取得処理において取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得処理において取得したテキストデータからリスクに相当する表現を抽出する抽出処理と、を実行するリスク検知装置。
 なお、このリスク検知装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記解析処理と、前記抽出処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
 以上、上記例示的実施形態等を参照して本願発明を説明したが、本願発明は、上述した例示的実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した学習用データ生成装置1、及びリスク検知装置1A、2の機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された複数の異なる情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。
1 学習用データ生成装置
1A、2 リスク検知装置
11、22 解析部
13 出力部
14A 学習部
21 取得部
23 抽出部
S1 学習用データ生成方法
S2 リスク検知方法

 

Claims (12)

  1.  テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、
     前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け手段と、
     前記テキストデータと前記タグ付け手段によりタグ付けされた構造データとを含む学習用データを出力する出力手段と、
     を備える学習用データ生成装置。
  2.  前記学習用データを用いて、テキストデータと当該テキストデータの文の構造を表す構造データとを入力として当該テキストデータからリスクに相当する表現を抽出するモデルを学習させる学習手段、
    を更に備える請求項1に記載の学習用データ生成装置。
  3.  前記タグ付け手段は、前記ユーザ操作に基づき、前記リスクに相当する表現を示すタグとして意図を示すタグ及びトピックを示すタグを前記構造データの要素に付与する、請求項1又は2に記載の学習用データ生成装置。
  4.  前記学習手段は、前記モデルをディープラーニングにより生成する、
    請求項2に記載の学習用データ生成装置。
  5.  前記解析手段は、前記テキストデータの形態素解析および構文解析を行う、
     請求項1から4の何れか1項に記載の学習用データ生成装置。
  6.  テキストデータを取得する取得手段と、
     前記取得手段が取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析手段と、
     テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得手段が取得したテキストデータからリスクに相当する表現を抽出する抽出手段と、
    を備えるリスク検知装置。
  7.  前記モデルは、ディープラーニングにより生成されたモデルである、
    請求項6に記載のリスク検知装置。
  8.  前記解析手段は、前記テキストデータの形態素解析および構文解析を行う、
     請求項6又は7に記載のリスク検知装置。
  9.  少なくとも1つのプロセッサが、
     テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、
     前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けし、
     前記テキストデータと前記タグ付けされた構造データとを含む学習用データを出力する、
    学習用データ生成方法。
  10.  少なくとも1つのプロセッサが、
     テキストデータを取得し、
     前記取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成し、
     テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得したテキストデータからリスクに相当する表現を抽出する、
    リスク検知方法。
  11.  コンピュータに、
     テキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、
     前記文に含まれるリスクに相当する表現を指定するユーザ操作を受け付け、受け付けたユーザ操作に基づき、前記構造データにおいて前記表現に対応する要素にタグ付けするタグ付け処理と、
     前記テキストデータと前記タグ付け処理においてタグ付けされた構造データとを含む学習用データを出力する出力処理と、
    を実行させる学習用データ生成プログラム。
  12.  コンピュータに、
     テキストデータを取得する取得処理と、
     前記取得処理において取得したテキストデータが表す文の構造を解析し、当該文の構造を表す構造データを生成する解析処理と、
     テキストデータと当該テキストデータの文の構造を表す構造データであってリスクに相当する表現に対応する要素にタグ付けされた構造データとを含む学習用データを参照して学習されたモデルを用いて、前記取得処理において取得したテキストデータからリスクに相当する表現を抽出する抽出処理と、
    を実行させるリスク検知プログラム。
PCT/JP2022/007860 2022-02-25 2022-02-25 学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム WO2023162129A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/007860 WO2023162129A1 (ja) 2022-02-25 2022-02-25 学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/007860 WO2023162129A1 (ja) 2022-02-25 2022-02-25 学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム

Publications (1)

Publication Number Publication Date
WO2023162129A1 true WO2023162129A1 (ja) 2023-08-31

Family

ID=87765092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/007860 WO2023162129A1 (ja) 2022-02-25 2022-02-25 学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム

Country Status (1)

Country Link
WO (1) WO2023162129A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016067396A1 (ja) * 2014-10-29 2016-05-06 株式会社日立製作所 文の並び替え方法および計算機
US20190156256A1 (en) * 2017-11-22 2019-05-23 International Business Machines Corporation Generating risk assessment software
US20210026835A1 (en) * 2019-07-22 2021-01-28 Kpmg Llp System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016067396A1 (ja) * 2014-10-29 2016-05-06 株式会社日立製作所 文の並び替え方法および計算機
US20190156256A1 (en) * 2017-11-22 2019-05-23 International Business Machines Corporation Generating risk assessment software
US20210026835A1 (en) * 2019-07-22 2021-01-28 Kpmg Llp System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders

Similar Documents

Publication Publication Date Title
CN108089974B (zh) 利用定义的输入格式来测试应用
CN109783796B (zh) 预测文本内容中的样式破坏
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
US9128907B2 (en) Language model generating device, method thereof, and recording medium storing program thereof
US11074595B2 (en) Predicting brand personality using textual content
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
JP5381704B2 (ja) 情報提供システム
US20160012082A1 (en) Content-based revision history timelines
JP4299963B2 (ja) 意味的まとまりに基づいて文書を分割する装置および方法
WO2023278052A1 (en) Automated troubleshooter
JP5462546B2 (ja) コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム
Sonbol et al. Learning software requirements syntax: An unsupervised approach to recognize templates
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN113901169A (zh) 信息处理方法、装置、电子设备及存储介质
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN112487138A (zh) 带格式文本的信息抽取方法和装置
WO2023162129A1 (ja) 学習用データ生成装置、リスク検知装置、学習用データ生成方法、リスク検知方法、学習用データ生成プログラム及びリスク検知プログラム
US12008322B2 (en) Machine learning techniques for semantic processing of structured natural language documents to detect action items
WO2019225007A1 (ja) 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム
US20240202643A1 (en) Information processing apparatus, business action extraction method, and storage medium
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
JP2024085841A (ja) 情報処理装置、営業行動抽出システム、営業行動抽出方法及びプログラム
JP6828812B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20180059147A (ko) 소셜 데이터 분류 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22928656

Country of ref document: EP

Kind code of ref document: A1