WO2020208912A1 - リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム - Google Patents

リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム Download PDF

Info

Publication number
WO2020208912A1
WO2020208912A1 PCT/JP2020/003945 JP2020003945W WO2020208912A1 WO 2020208912 A1 WO2020208912 A1 WO 2020208912A1 JP 2020003945 W JP2020003945 W JP 2020003945W WO 2020208912 A1 WO2020208912 A1 WO 2020208912A1
Authority
WO
WIPO (PCT)
Prior art keywords
risk
vector
search
feature vector
countermeasure
Prior art date
Application number
PCT/JP2020/003945
Other languages
English (en)
French (fr)
Inventor
久仁子 西川
博義 豊柴
秀文 内山
Original Assignee
株式会社Fronteo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Fronteo filed Critical 株式会社Fronteo
Publication of WO2020208912A1 publication Critical patent/WO2020208912A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Definitions

  • the present invention relates to a risk countermeasure analysis system, a risk countermeasure analysis method, and a risk countermeasure analysis program, and more particularly to a system that analyzes possible risks of objects such as people, companies, the environment, and objects, and countermeasures against them. is there.
  • risk management is carried out in various industrial fields. Risk management is the process of identifying (discovering or recognizing) an expected risk, determining whether the risk is acceptable or not, and taking risk mitigation or risk aversion measures if the risk is unacceptable.
  • risk means an adverse effect that may have an effect on people, companies, the environment, objects, etc. (hereinafter collectively referred to as "objects").
  • Patent Document 1 discloses a technique for predicting the risk of a patient performing dangerous behavior.
  • Patent Document 2 discloses a technique for formulating a countermeasure plan against risk by vector calculation.
  • the behavior prediction device described in Patent Document 1 is related to the dangerous behavior, which is extracted in advance from the determined medical record information which is the medical record information in which the dangerous behavior is specified by being linked with the incident report on the dangerous behavior of the patient.
  • the relationship evaluation department acquires unjudged medical record information that is not associated with an incident report, and based on the medical information related to risky behavior stored in the storage unit, the unjudged medical record information and the unjudged medical record. Evaluate the relationship between information-responsive patients and possible risky behaviors.
  • the prediction unit predicts the risky behavior of the patient corresponding to the undetermined medical record information according to the evaluation result of the relationship evaluation department.
  • a general business index vector f including a plurality of indicators representing the business status and a countermeasure plan showing a countermeasure when a solution should be made in the general business index vector f are provided.
  • the task index-countermeasure matrix Mm' that defines the correspondence between the task index vector f'and the countermeasure vector x'is set. create.
  • the countermeasure proposals existing in the column of the matrix Mm' are extracted from the general countermeasure proposal vector x, and the candidate countermeasure proposal vector x'is selected.
  • Machine learning is one of the artificial intelligences.
  • Machine learning is a technology that attempts to realize functions similar to human learning on a computer.
  • the most widespread supervised learning is to generate a classification model by learning using a large number of teacher data with correct answers, and to classify the data to be predicted based on the generated classification model. is there.
  • teacher data There are various things to use as teacher data, but a system that uses document data as teacher data for machine learning has been known for a long time.
  • the conventional risk prediction system can predict the risk for a specific object, but cannot predict what kind of measures are effective against the predicted risk. there were.
  • the conventional risk countermeasure analysis system can predict effective countermeasures for a specific risk to some extent, the possibility that the risk actually occurs in relation to a specific object is taken into consideration. Therefore, there was a problem that the predicted countermeasures were not always effective for a specific object.
  • the present invention has been made to solve such a problem, and it is possible that the risk that is predicted to occur with respect to a specific object is actually effective as a risk countermeasure.
  • the purpose is to be able to anticipate and provide certain measures.
  • a feature vector representing the feature of the analysis target is calculated, and the calculated feature vector is input to the trained risk prediction model.
  • a post-calculation vector obtained as a result of performing a predetermined calculation using the feature vector calculated when predicting the risk level and the search vector is input to the risk prediction model, and the post-calculation vector is input to the risk prediction model.
  • Search for a search vector that satisfies the condition that the resulting risk level is smaller than the risk level predicted from the feature vector, and risk the vector calculated based on the search vector and the feature vector that satisfy the condition. Specify as a reduction vector.
  • a feature vector that is the same as or similar to the risk reduction vector is specified from a plurality of feature vectors calculated for the plurality of analysis target data, and the analysis target data corresponding to the specified feature vector is used to relate to risk countermeasures. I am trying to generate information.
  • the risk level is predicted from the feature vector obtained by analyzing the analysis target data, and further, the risk level is reduced when a predetermined calculation is performed together with the feature vector.
  • a search vector is searched, and information on risk countermeasures is generated using the analysis target data corresponding to the feature vector that is the same as or similar to the risk reduction vector calculated based on the search vector and the feature vector. Will be done. Therefore, it is possible not only to predict the risk level of the predicted object, but also to predict the measures that can reduce the risk level.
  • a measure for reducing the risk level is predicted, so that the predicted measure is actually for the specific predictive object.
  • a countermeasure that may actually be effective as a risk countermeasure is predicted and provided as information on the countermeasure. can do.
  • FIG. 1 is a block diagram showing a functional configuration example of the risk countermeasure analysis system according to the first embodiment.
  • the risk countermeasure analysis system according to the first embodiment includes a feature vector calculation unit 11, a risk prediction unit 12, a risk reduction vector identification unit 13, and a countermeasure information generation unit 14 as its functional configuration.
  • the risk countermeasure analysis system according to the first embodiment includes a risk prediction model storage unit 21 and an analysis target data storage unit 22 as storage media.
  • Each of the above functional blocks 11 to 14 can be configured by any of hardware, DSP (Digital Signal Processor), and software.
  • DSP Digital Signal Processor
  • each of the above functional blocks 11 to 14 is actually configured to include a computer CPU, RAM, ROM, etc., and is a program stored in a storage medium such as RAM, ROM, hard disk, or semiconductor memory. Is realized by the operation of.
  • the functional blocks 11 to 14 and the storage media 21 to 22 may be provided by one device, or may be distributed to a plurality of devices.
  • each functional block 11 to 14 is provided by one arithmetic unit
  • each storage medium 21 to 22 is provided by a server device or storage device different from the arithmetic unit
  • the arithmetic unit and the server device or storage device are connected to each other in a communication network. It is possible to configure the connection via.
  • the feature vector calculation unit 11 and the risk prediction unit 12 may be provided in the first arithmetic unit
  • the risk reduction vector identification unit 13 and the countermeasure information generation unit 14 may be provided in the second arithmetic unit.
  • the second arithmetic unit is a feature vector calculated by the first arithmetic unit (feature vector applied to the learned risk prediction model described later). It is provided with a risk information acquisition unit that acquires the risk level output from the risk prediction model in which the feature vector is input. Then, the risk reduction vector identification unit 13 and the countermeasure information generation unit 14 of the second arithmetic unit execute the processing described later using the feature vector and the risk level acquired by the risk information acquisition unit.
  • the feature vector calculation unit 11 analyzes the analysis target data and calculates a feature vector representing the feature of the analysis target.
  • the data to be analyzed may be any data that can calculate a feature vector (which may be called a feature matrix) composed of a plurality of feature quantities, such as document data, image data, and audio data. Since the risk countermeasure analysis system of the present embodiment analyzes possible risks of objects such as people, companies, the environment, and objects and countermeasures against them, the data to be analyzed includes contents related to some kind of risk. Use the one with.
  • document data such as electronic charts, incident reports, and questionnaire responses are used. It can be used as data to be analyzed.
  • image data obtained by photographing the outside or inside of the body, audio data recording the dialogue between the patient and the doctor, hospitalization detected by a position measuring device, etc.
  • movement locus data representing the movement locus of a patient, behavior history data in which the behavior content of a person's date and time is recorded in a report format, or the like as analysis target data.
  • document data related to a report describing the results of system monitoring or inspection as analysis target data.
  • document data such as business plans and business reports, numerical data representing company financial statements and price movements such as market stock prices and yen prices, working population and technology
  • various statistical data showing trends, patent acquisition trends, etc. as analysis target data.
  • document data such as construction plans and construction reports, image data of the construction target, and recording at the construction site.
  • voice data measurement data detected by a sensor installed on a construction object, etc. as analysis target data.
  • the data listed here is an example, and other data can be used as the data to be analyzed.
  • the characteristics of the analysis target mean the characteristics of the document.
  • the characteristics of a document are, for example, the characteristics of sentences contained in the document and the characteristics of words contained in the document.
  • the feature vector calculation unit 11 calculates a feature vector including the plurality of feature elements by calculating a plurality of feature elements from the document data to be analyzed for at least one of a sentence and a word. A specific calculation example of this feature vector will be described later.
  • the risk prediction unit 12 inputs the feature vector calculated by the feature vector calculation unit 11 into the trained risk prediction model, and predicts the risk level of the prediction target object.
  • the risk prediction model is generated in advance by performing machine learning using a plurality of analysis target data having correct labels as to whether or not a risk has actually occurred (explicit) as teacher data, and is a risk prediction model. It is stored in the model storage unit 21.
  • This risk prediction model is generated by machine learning processing using teacher data so as to output the risk level for the prediction target when the feature vector is input.
  • the risk level is a value indicating the degree of possibility that a risk occurs (here, the possibility of contracting a specific disease), and is, for example, a score value of 0 or more and 1 or less.
  • the risk reduction vector identification unit 13 inputs the post-calculation vector obtained as a result of performing a predetermined operation using the feature vector calculated by the feature vector calculation unit 11 and the search vector into the risk prediction model. Search for a search vector that satisfies the condition that the risk level obtained as a result is smaller than the risk level obtained when the feature vector is input to the risk prediction model (that is, the risk level predicted by the risk prediction unit 12). To do. Then, the vector calculated based on the searched search vector (search vector satisfying the condition) and the feature vector is specified as the risk reduction vector.
  • FIG. 2 is a diagram for explaining the processing content of the risk reduction vector specifying unit 13, and schematically shows the feature vector Vf, the search vector Vs, and the risk reduction vector Vr ⁇ .
  • the risk level (hereinafter referred to as "search risk level”) is calculated by inputting to.
  • the risk reduction vector identification unit 13 outputs the risk level (output from the risk prediction unit 12) obtained when the search risk level calculated from the post-calculation vector V as described above inputs the feature vector Vf into the risk prediction model.
  • the risk level to be determined. Hereinafter, it is determined whether or not this is smaller than the "predicted risk level".
  • the search vector Vs The same processing as above is performed by changing the content.
  • the calculated vector V at that time is set as the risk reduction vector Vr- (example of FIG. 2A). ).
  • the risk reduction vector specifying unit 13 calculates the search risk level by changing the content of the search vector Vs even when the search risk level calculated for a certain search vector Vs is smaller than the predicted risk level. Then, the smallest search risk level smaller than the predicted risk level may be specified, and the calculated vector V when the minimum search risk level is calculated may be set as the risk reduction vector Vr ⁇ .
  • the search is limited to the range where the search risk level is expected to be small. You may.
  • a predetermined convergence condition is set, the search vector Vs is changed until the convergence condition is satisfied, and the search risk level is sequentially calculated. When the convergence condition is satisfied and the search is completed, the minimum search risk level is calculated.
  • the post-calculation vector V may be the risk reduction vector Vr ⁇ .
  • the risk reduction vector identification unit 13 calculates the vector V'calculated as follows based on the search vector Vs (the one having the minimum search risk level) satisfying the above conditions and the feature vector Vf as the risk reduction vector Vr. - May be set (example of FIG. 2B).
  • V' Vf + (1-T) * Vs (T is an arbitrary value of 0 ⁇ T ⁇ 1)
  • the computer may randomly select one value of the parameter T, or may randomly select a plurality of values. Alternatively, the user may arbitrarily specify the value of the parameter T.
  • the risk reduction vector identification unit 13 calculates the risk reduction vector Vr- by the above calculation for, for example, the feature vector Vf classified as "possible” or "high possibility” of illness.
  • the risk reduction vector Vr ⁇ as shown in FIG. 2B, if the value of T is increased, the vector V'becomes close to the feature vector Vf predicted to be “risk”. Therefore, it is preferable not to make the value of T too large.
  • the value of T may be 0 ⁇ T ⁇ 0.5.
  • the countermeasure information generation unit 14 identifies and identifies the feature vector Vf'that is the same as or similar to the risk reduction vector Vr- from the plurality of feature vectors calculated by the feature vector calculation unit 11 for the plurality of analysis target data. Information on risk countermeasures is generated using the analysis target data corresponding to the feature vector Vf'. A plurality of analysis target data (document data) and a plurality of feature vectors calculated by the feature vector calculation unit 11 for the plurality of document data are associated with each other and stored in advance in the analysis target data storage unit 22. The countermeasure information generation unit 14 generates information related to risk countermeasures using the data stored in the analysis target data storage unit 22.
  • the feature vector Vf' which approximates the risk reduction vector Vr- can be arbitrarily defined.
  • a feature vector whose inner product value with the risk reduction vector Vr ⁇ is equal to or greater than a predetermined value can be a feature vector Vf'approximating to the risk reduction vector Vr ⁇ .
  • all of them may be specified as the feature vector Vf', and among them, the one closest to the risk reduction vector Vr- (the inner product value is the closest). It is also possible to specify a predetermined number as the feature vector Vf'in order from the one closest to the risk reduction vector Vr-.
  • Information on risk countermeasures is, for example, sentences or words included in the document data associated with the specified feature vector Vf'.
  • the document data itself associated with the specified feature vector Vf' may be used as information on risk countermeasures.
  • the feature vector Vf' which is the same as or similar to the risk reduction vector Vr-, indicates the direction of reducing the risk level for the feature vector Vf classified as "possible” or "probable” of illness. I can say.
  • the document data associated with the feature vector Vf' contains information (sentences and words) related to the direction of reducing the risk level, which contributes to the calculation of the feature vector Vf'. It can be said that there is a possibility. Therefore, it can be said that the sentences or words included in the document data associated with the feature vector Vf'may be useful as information on risk countermeasures.
  • the countermeasure information generation unit 14 has the risk reduction vector Vr among the plurality of feature vectors calculated for the plurality of analysis target data.
  • Information on risk countermeasures is generated using the analysis target data corresponding to the feature vector Vf'that is the same as or similar to-.
  • the data to be analyzed may be used as information on risk countermeasures.
  • the user who has obtained this information generates countermeasure information by comparing the analysis target data used for risk prediction with the analysis target data generated as information on countermeasures by the countermeasure information generation unit 14 and grasping the difference. It is also possible to obtain hints for taking effective measures to bring the data to be analyzed closer to the data to be analyzed generated by the unit 14.
  • FIG. 3 is a block diagram showing a functional configuration example of a prediction model generator that generates a risk prediction model to be stored in the risk prediction model storage unit 21.
  • the prediction model generation device shown in FIG. 3 includes a feature vector calculation unit 100 including a word extraction unit 101, a vector calculation unit 102, and an index value calculation unit 103, and a risk prediction model generation unit 104 as its functional configuration. Has been done.
  • the vector calculation unit 102 includes a sentence vector calculation unit 102A and a word vector calculation unit 102B as more specific functional configurations.
  • This prediction model generation device may be provided in the risk countermeasure analysis system of the present embodiment, or may be provided as another device.
  • Each of the above functional blocks 101 to 104 can be configured by any of hardware, DSP, and software.
  • each of the above functional blocks 101 to 104 is actually configured to include a computer CPU, RAM, ROM, etc., and is a program stored in a storage medium such as RAM, ROM, hard disk, or semiconductor memory. Is realized by the operation of.
  • the feature vector calculation unit 100 has a plurality of document data (for example, electronic medical records relating to a plurality of patients) having a correct answer label of whether or not the risk actually occurred (whether or not the risk actually occurred) within the predicted target period. ) Is entered as teacher data.
  • one document data may consist of one sentence (a unit separated by a punctuation mark), or may include a plurality of sentences.
  • the word extraction unit 101 analyzes m sentences (m is an arbitrary integer of 2 or more) included in a plurality of document data, and n (n is an arbitrary integer of 2 or more) from the m sentences. Extract words.
  • a method for analyzing sentences for example, a known morphological analysis can be used.
  • the word extraction unit 101 may extract the morphemes of all part of speech divided by the morphological analysis as words, or may extract only the morphemes of specific part of speech as words.
  • the feature vector calculation unit 100 sets which part of the document data to use as teacher data, and sets the document data. Enter. For example, in an electronic medical record in which a plurality of description items exist, it is conceivable to set the text related to a specific description item to be used as teacher data. This setting can be made through user operation.
  • the word extraction unit 101 does not extract a plurality of the same words, but extracts only one. That is, the n words extracted by the word extraction unit 101 mean n kinds of words.
  • the word extraction unit 101 measures the frequency at which the same word is extracted from m sentences, and n words (n types) from the one with the highest appearance frequency, or n words whose appearance frequency is equal to or higher than the threshold value. (N types) of words may be extracted.
  • the vector calculation unit 102 calculates m sentence vectors and n word vectors from m sentences and n words.
  • the sentence vector calculation unit 102A vectorizes m sentences analyzed by the word extraction unit 101 into q dimensions according to a predetermined rule, so that q (q is an arbitrary integer of 2 or more). ) Is calculated as m sentence vectors consisting of the axis components.
  • the word vector calculation unit 102B calculates n word vectors composed of q axis components by vectorizing n words extracted by the word extraction unit 101 into q dimensions according to predetermined rules. To do.
  • d i) is, for example, paper that the sentence or document describes be evaluated by paragraph vector "" Distributed Representations of Sentences and Documents " by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of It is a value that can be calculated according to the probability p disclosed in "the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014".
  • wt-k, ..., wt + k) described in the paper predicted another word wt from multiple words wt-k, ..., wt + k. The probability of correct answer when.
  • d i) from one sentence d i among the m sentences, n-number of one word w of words j represents the expected correct answer probability. Because predicting a word w j from one sentence d i, specifically, when there sentence d i appeared, that the predict the likelihood that contains the word w j therein is there.
  • the inner product value of the word vector w j ⁇ and the sentence vector d i ⁇ a scalar value in the case where the projection of the word vector w j ⁇ to sentence vector d i ⁇ direction of, in other words, word vector w j ⁇ is Yes to which it can be said that the component values of the sentence vector d i ⁇ direction.
  • equation (1) is symmetrical about the d i and w j, of n one word w j of the word, the probability one sentence d i of the m sentence expected P (d i
  • the inner product value of the sentence vector d i ⁇ and the word vector w j ⁇ a scalar value in the case where the projection of the sentence vector d i ⁇ to the word vector w j ⁇ direction of, in other words, the sentence vector d i ⁇ is Yes It can be said that it is a component value in the direction of the word vector w j ⁇ . This can be thought of as representing the extent to which the sentence d i contributes to the word w j.
  • the vector calculation unit 102 calculates the formula (1) probability by P sentence vector d i ⁇ and word vector w j ⁇ to calculate the like to reduction.
  • the sentence vector calculation unit 102A and word vector calculation unit 102B the above formula (1) probability is calculated by P
  • the vector calculation unit 102 by vectoring the m sentences d i to q dimensions respectively, and calculates the q of m consisting axis component sentence vector d i ⁇ , n pieces By vectorizing each of the words in the q dimension, n word vectors w j ⁇ consisting of q axis components are calculated.
  • This a q-number of axially as a variable, the target variable L described above is equivalent to calculating the sentence vector d i ⁇ and word vectors w j ⁇ that maximizes.
  • Index value calculating section 103 by taking the inner product of m and sentence vector d i ⁇ n number of word vectors w j ⁇ calculated by the vector calculating unit 102, respectively, of m texts d i and the n calculating the (m ⁇ n) similarity index value that reflects the relationship between words w j.
  • the index value calculating section 103 as shown in the following equation (3), m pieces of sentence vectors d i ⁇ the q-number of axial components of the (d 11 ⁇ d mq) and the elements
  • m pieces of sentence vectors d i the q-number of axial components of the (d 11 ⁇ d mq) and the elements
  • each element of the index value matrix DW calculated in this way represents how much which word contributes to which sentence.
  • the element dw 12 of 1 row and 2 columns is a value indicating how much the word w 2 contributes to the sentence d 1 .
  • each row of the index value matrix DW can be used to evaluate the similarity of sentences, and each column can be used to evaluate the similarity of words.
  • FIG. 4 is a diagram for explaining a feature vector Vf composed of a sentence index value group. As shown in FIG. 4, the sentence index value group includes, for example, in the case of the first sentence d1, n similarity index values dw 11 to dw 1n included in the first row of the index value matrix DW. Corresponds to.
  • n similarity index values dw 21 to dw 2n included in the second row of the index value matrix DW correspond to this.
  • the feature vector calculating unit 100 for the m sentence d i extracted from a plurality of document data to calculate the m feature vectors Vf i.
  • a known singular value decomposition a known singular value decomposition (SVD) can be used as a method for decomposing a matrix.
  • the index value calculation unit 103 decomposes the index value matrix DW calculated by the above equation (3) into three matrices U, S, and V.
  • the matrix U is an m ⁇ k-dimensional left singular matrix
  • each column is an eigenvector of DW * DW t (DW t indicates the transposed matrix of the index value matrix DW).
  • the matrix S is a k ⁇ k-dimensional square matrix
  • the diagonal matrix component indicates a singular value of the index value matrix DW
  • all other values are 0.
  • the matrix V is a k ⁇ n-dimensional right singular matrix, and each row is an eigenvector of DW t * DW.
  • the dimension k after compression may be a fixed value determined in advance, or an arbitrary value may be specified.
  • the index value matrix DW can be low-rank approximated without impairing the features represented by the index value matrix DW as much as possible. ..
  • Risk prediction model generation unit 104 based on the m feature vectors Vf i calculated by the feature vector calculating unit 100, generates a risk prediction model for calculating the risk level regarding the prediction object from feature vectors Vf .. That is, the risk prediction model generation unit 104 calculates based on the sentences extracted from the document data of the patient who is known to have a disease (for example, the document data to which the correct answer label of "risk" is given).
  • the risk level becomes higher than a predetermined threshold, and the document data of the patient known not to get sick (for example, risk if the feature vector Vf i that true label of "no-risk" is calculated based on the text extracted from the document data) is attached (either i is 1 ⁇ m) is input levels Generate a risk prediction model adjusted so that is less than or equal to the threshold. Then, the risk prediction model generation unit 104 stores the generated risk prediction model in the risk prediction model storage unit 21.
  • Risk prediction model generation unit 104 for example, respectively to calculate the feature quantity for writing an index value units constituting the feature vector Vf i of each sentence d i, in accordance with the value of the calculated features, Markov Chain Monte Carlo
  • a risk prediction model for calculating a value indicating the high possibility that the feature vector Vf is classified as “at risk” is generated as a risk level.
  • the risk prediction model generated by the risk prediction model generation unit 104 is a learning model that takes the feature vector Vf as an input and outputs the possibility of corresponding to “risk” as a probability.
  • the method for generating the risk prediction model mentioned here is an example, and is not limited to this. Moreover, the form of the learning model is arbitrary.
  • the form of the risk prediction model generated by the risk prediction model generation unit 104 is a regression model (a learning model based on a linear regression, a logistic regression, a support vector machine, etc.), a tree model (a decision tree, a regression tree, a random forest). , Gradient boosting tree-based learning model), Neural network model (Perceptron, Folded neural network, Regressive neural network, Residual network, RBF network, Probabilistic neural network, Spiking neural network, Complex neural network, etc.
  • a regression model a learning model based on a linear regression, a logistic regression, a support vector machine, etc.
  • a tree model a decision tree, a regression tree, a random forest.
  • Gradient boosting tree-based learning model Gradient boosting tree-based learning model
  • Neural network model Perceptron, Folded neural network, Regressive neural network, Residual network, RBF network, Probabilistic neural network, Spiking neural network, Complex neural network, etc.
  • Training model based on Bayesian model (learning model based on Bayesian inference, etc.), clustering model (learning model based on k-neighborhood method, hierarchical clustering, non-hierarchical clustering, topic model, etc.) It is possible to use either of them.
  • the classification model given here is only an example, and is not limited to this.
  • FIG. 5 is a block diagram showing a specific functional configuration example of the feature vector calculation unit 11 shown in FIG.
  • the feature vector calculation unit 11 includes a word extraction unit 111, a vector calculation unit 112, and an index value calculation unit 113 as specific functional configurations thereof.
  • the vector calculation unit 112 includes a sentence vector calculation unit 112A and a word vector calculation unit 112B as more specific functional configurations.
  • the operation of the feature vector calculation unit 11 is basically the same as the operation of the feature vector calculation unit 100 shown in FIG.
  • the feature vector calculation unit 11 inputs document data including one or more sentences to be analyzed as prediction data.
  • the document data input by the feature vector calculation unit 11 is, for example, an electronic medical record of a patient who does not have a specific disease at present and wants to predict whether or not he / she is at risk of developing a specific disease within a predetermined period in the future. (Document data).
  • the feature vector calculation unit 11 may input the document data in a state in which which part of the text in the document data is to be used as the analysis target is set.
  • the feature vector calculation unit 11 may input only the sentence data related to the specified sentence from the document data.
  • the number m'of sentences to be analyzed by the feature vector calculation unit 11 does not necessarily have to be the same as the number m of sentences to be analyzed by the feature vector calculation unit 100.
  • the sentence to be analyzed by the feature vector calculation unit 11 may be one or a plurality.
  • the similarity index value calculated by the index value calculation unit 113 from the sentence determines which word contributes to which sentence and to what extent, and which sentence contributes to which word. Since it is represented, it is preferable that the feature vector calculation unit 11 also has a plurality of sentences to be analyzed. For example, it is conceivable to extract sentences one by one from the electronic medical records of m'patients. Alternatively, a plurality of sentences may be extracted from the medical record of one patient and used for analysis. In this case, a plurality of feature vectors Vf are calculated by the feature vector calculation unit 11 from a plurality of sentences for one patient, and the risk level is calculated by the risk prediction unit 12 for each feature vector Vf.
  • the feature vector calculation unit 11 processes the m'sentence data by the word extraction unit 111, the vector calculation unit 112, and the index value calculation unit 113 (each). Is the same as the processing of the word extraction unit 101, the vector calculation unit 102, and the index value calculation unit 103 of FIG. 3) to obtain m'sentence index value groups (feature vector Vf).
  • the risk prediction unit 12 inputs m'feature vectors Vf calculated by the feature vector calculation unit 11 into the risk prediction model of the risk prediction model storage unit 21 one by one, so that each of the m'sentences can be read. Calculate the risk level.
  • the word extraction unit 111 extracts the same words as the n words extracted by the word extraction unit 101 of FIG. 3 from the m teacher data from the m'prediction data. Since the sentence index value group consisting of n words extracted from the prediction data has the same words as the sentence index value group consisting of n words extracted from the teacher data, the risk prediction model This is because the degree of suitability for the risk prediction model stored in the storage unit 21 is high. However, it is not essential to extract the same n words as during learning at the time of prediction.
  • FIG. 6 is a flowchart showing an operation example of the risk countermeasure analysis system according to the first embodiment configured as described above.
  • the feature vector calculation unit 11 inputs m'sentences as prediction data from electronic medical records relating to one or more patients (step S1).
  • the word extraction unit 111 of the feature vector calculation unit 11 analyzes the input m'sentences and extracts n words from the m'sentences (step S2).
  • the index value calculating section 113 'by taking pieces of sentence vectors d i ⁇ n number of word vectors w j ⁇ inner product of each, m' m-number of sentence d i and n words w j Calculate m'xn similarity index values (index value matrix DW having m'x n similarity index values as each element) reflecting the relationship between them (step S4).
  • the risk prediction unit 12 by inputting the number of feature vectors Vf i risk prediction model of one at risk prediction model storage unit 21, m' m calculated by the feature vector calculating section 11 pieces of text The risk level is calculated for each of the above (step S6). Then, the risk reduction vector identification unit 13 determines whether or not, for example, there is a risk level calculated by the risk prediction unit 12 that is larger than a predetermined threshold value (classified as “possible” for illness). (Step S7).
  • the risk reduction vector specifying unit 13 uses the search vector Vs to obtain a risk reduction vector for the feature vector Vf for which the risk level larger than the threshold value is calculated.
  • Vr ⁇ step S8.
  • the risk reduction vector Vr ⁇ is calculated for each of them.
  • the countermeasure information generation unit 14 identifies the feature vector Vf'that is the same as or similar to the risk reduction vector Vr- from the plurality of feature vectors stored in the analysis target data storage unit 22, and the identified feature vector.
  • Information on risk countermeasures is generated using the analysis target data corresponding to Vf'(step S9).
  • the countermeasure information generation unit 14 presents the generated information on the risk countermeasure to the user by displaying it on, for example, a display (not shown) (step S10).
  • the information may be presented to the user in a state of clearly indicating which sentence is the risk countermeasure or which patient the risk countermeasure is for. As a result, the processing of the flowchart shown in FIG. 6 is completed.
  • the risk level is predicted from the feature vector Vf obtained by analyzing the analysis target data (for example, document data such as an electronic medical record). Further, a search vector Vs whose risk level is reduced when a predetermined calculation is performed together with the feature vector Vf is searched, and a risk reduction vector calculated based on the search vector Vs and the feature vector Vf is searched. Vr- is specified, and information on risk countermeasures is generated using the analysis target data corresponding to the feature vector Vf'similar to or similar to Vr-. Therefore, it is possible not only to predict the risk level of the predicted object, but also to predict the measures that can reduce the risk level.
  • the analysis target data for example, document data such as an electronic medical record.
  • measures are predicted to reduce the risk level of the risk of illness for which the risk level is actually predicted for a specific predicted object (patient in the above example). Therefore, it is more likely that the predicted measures are actually effective for a particular predictive object.
  • the countermeasures that may actually be effective as the risk countermeasures are predicted, and the countermeasures are related. It can be provided as information.
  • FIG. 7 is a block diagram showing a functional configuration example of the risk countermeasure analysis system according to the second embodiment.
  • those having the same reference numerals as those shown in FIG. 1 have the same functions, and therefore, duplicate description will be omitted here.
  • the risk countermeasure analysis system includes the risk reduction vector identification unit 13'instead of the risk reduction vector identification unit 13 and the search topic designation unit 15 as its functional configuration. Further prepared. Further, as a storage medium, a countermeasure prediction model storage unit 23 is further provided.
  • the risk reduction vector identification unit 13 inputs the feature vector calculated by the feature vector calculation unit 11 and the search topic specified by the search topic designation unit 15 into the trained countermeasure prediction model, and inputs the feature vector and the search topic.
  • the risk reduction vector is searched using the search vector included in the search range specified based on. That is, in the second embodiment, the search vector used when calculating the risk reduction vector is limited to the one included in the search range specified based on the feature vector and the search topic. The purpose is to improve the processing efficiency by limiting the search range, and at the same time, to be able to calculate an appropriate risk reduction vector according to the search topic.
  • the search topic shows a rough theme of measures to be taken against the predicted risk, and can be said to be a search condition for the risk reduction vector.
  • the search topic is, for example, "activity” including exercise-related improvement. It can be "amount”, for example, "dietary habits” that include diet-related improvements, and “lifestyles” that include, for example, sleep-related improvements.
  • the countermeasure prediction model is generated in advance by performing machine learning using a plurality of feature vectors calculated from a plurality of analysis target data for which it is known which search topic corresponds to as teacher data. It is stored in the prediction model storage unit 23.
  • the fact that the search topic is known means that the content of the data to be analyzed (for example, document data such as an electronic medical record) is known to which search topic is related.
  • the association between the data to be analyzed and the search topic may be performed by a human or a computer may analyze the contents of the data to be analyzed. For example, when the data to be analyzed is document data, the words contained in the document data are analyzed, and the search topic corresponding to the document data is automatically selected depending on which search topic the frequently contained words correspond to. It is possible to specify to.
  • the countermeasure prediction model stored in the countermeasure prediction model storage unit 23 is generated by machine learning processing using teacher data so that when the search topic and the feature vector are input, the search range corresponding to them is output. ing. That is, the countermeasure prediction model is used for identifying a plurality of risk reduction vectors that can reduce the risk level predicted based on the risk prediction model from the feature vector for each combination of the search topic and the feature vector. It was learned to output the range including a plurality of search vectors that had been used as the search range.
  • the search range output by the countermeasure prediction model includes, for example, a predetermined number of search vectors in order from the one with the smallest search risk level among the search vectors whose search risk level is smaller than the predicted risk level. It can be defined as a range. Also, among the search vectors whose search risk level is smaller than the predicted risk level, the range including the search vector whose inner product value with the search vector that minimizes the search risk level is equal to or greater than a predetermined value. It may be set as a search range.
  • the countermeasure prediction model may output one search vector as a search range for each combination of the search topic and the feature vector.
  • the search vector used when specifying the risk reduction vector that can minimize the risk level may be output as the search range.
  • one vector obtained by averaging the plurality of search vectors described above may be output as a search range.
  • FIG. 8 is a diagram schematically showing search vectors Vs1 to Vs3 and risk reduction vectors Vr-1 to Vr-3 within the search range specified according to the search topic.
  • FIG. 8 shows a search range specified for each of three search topics (activity amount, eating habits, and lifestyle) for one feature vector Vf, and one search vector is used as the search range. An example is shown.
  • the countermeasure prediction model stored in the countermeasure prediction model storage unit 23 is, for example, for one search as a search range when the feature vector Vf shown in FIG. 8 and the information indicating the search topic “activity amount” are input. It is learned to output the vector Vs1.
  • the feature vector input to the countermeasure prediction model does not always exactly match the feature vector Vf shown in FIG.
  • the countermeasure prediction model is trained so that the search range can be output appropriately even in such a case. That is, in the countermeasure prediction model, when a feature vector (for example, a feature vector whose inner product value is equal to or more than a predetermined value) that approximates the feature vector Vf shown in FIG. 8 and information indicating the search topic “activity” are input. Is learned to output the same search vector Vs1 as when the feature vector Vf is given as a search range.
  • a feature vector for example, a feature vector whose inner product value is equal to or more than a predetermined value
  • the search topic used to specify the search range is designated by the search topic designation unit 15.
  • the search topic designation unit 15 receives a designation regarding the search topic from the user and specifies the search topic. For example, when the risk level calculated by the risk prediction unit 12 is equal to or higher than a predetermined value and the risk of illness is predicted, and the patient or doctor wants to take measures on a specific topic. It is possible to specify the search topic desired by the patient or doctor.
  • the risk reduction vector identification unit 13 stores the search topic received by the search topic designation unit 15 and the feature vector calculated by the feature vector calculation unit 11 in the countermeasure prediction model storage unit 23.
  • the search range is specified by inputting to the prediction model. Then, using the search vector included in the specified search range and the feature vector calculated by the feature vector calculation unit 11, the risk is performed by the same processing as the risk reduction vector identification unit 13 described in the first embodiment. Identify the reduction vector.
  • the optimum risk reduction vector that may change depending on the topic is appropriately predicted from the pre-learned countermeasure prediction model by designating the search topic. It can be specified from within the search range. This makes it possible to obtain information on effective countermeasures according to the specified search topic. Further, by limiting the search range of the search vector, there is an advantage that the processing load when specifying the risk reduction vector can be reduced and the processing time can be shortened.
  • the search topic specifying unit 16 may be provided instead of the search topic designating unit 15.
  • the search topic identification unit 16 identifies the search topic by analyzing the analysis target data. For example, when the analysis target data is document data, the search topic identification unit 16 analyzes the words contained in the document data, and depending on which search topic the frequently contained words correspond to, the document data Identify the corresponding search topic. It should be noted that table information or the like in which words and search topics are associated in advance is prepared, and the search topic specifying unit 16 specifies the search topic corresponding to the document data by referring to the table information.
  • a topic prediction model is generated by machine learning using a plurality of document data whose topics are known or feature vectors calculated from them as teacher data, and the document data to be analyzed or the feature vector calculated from this is used as this.
  • the search topic may be specified by inputting it into the topic prediction model.
  • the risk reduction vector identification unit 13 stores the search topic specified by the search topic identification unit 16 and the feature vector calculated by the feature vector calculation unit 11 in the countermeasure prediction model storage unit 23.
  • the search range is specified by inputting to the prediction model. Then, using the search vector included in the specified search range and the feature vector calculated by the feature vector calculation unit 11, the risk is performed by the same processing as the risk reduction vector identification unit 13 described in the first embodiment. Identify the reduction vector.
  • the analysis target is A risk reduction vector can be calculated for a topic specified from the data itself, and information on countermeasures can be obtained based on the risk reduction vector. Therefore, for the risk predicted from the analysis target data related to a specific topic, information on the countermeasure related to the specific topic can be obtained, so that the effective countermeasure having a high affinity for the risk. Information can be obtained.
  • the risk reduction vector identification unit 13' may input a search topic different from the search topic specified by the search topic identification unit 16 into the learned countermeasure prediction model.
  • a risk reduction vector can be calculated for a topic different from the topic specified from the analysis target data itself, and information on countermeasures can be obtained based on the risk reduction vector. Therefore, for the risk predicted from the analysis target data related to a specific topic, information on countermeasures related to topics other than the specific topic can be obtained, and human beings can obtain information from existing knowledge and empirical rules. It can be expected to obtain new countermeasure information that is difficult to obtain by the judgment of.
  • the risk reduction vector uses only the search vector of the search range specified for the search topic specified by the search topic designation unit 15 or the search topic specified by the search topic identification unit 16.
  • the present invention is not limited to this. That is, the risk reduction vector may be calculated using the search vector of the search range related to a plurality of search topics without specifying and specifying the search topic.
  • the risk reduction vector identification unit 13 uses a search vector included in the search range specified by the countermeasure prediction model for each of a plurality of search topics, and a feature vector calculated by the feature vector calculation unit 11. , Search for each of multiple search topics. Then, the vector calculated based on the vector obtained by weighting and adding the search vectors searched for each of the plurality of search topics and the feature vector calculated by the feature vector calculation unit 11 is specified as the risk reduction vector.
  • the search vectors Vs1 to Vs3 are the results of searching as being able to reduce the risk level from the search range specified for each of a plurality of search topics (activity amount, eating habits, lifestyle). It is assumed that it is a vector of.
  • the risk reduction vector identification unit 13 weights and adds these search vectors Vs1 to Vs3, and adds the vector of the addition result and the feature vector Vf calculated by the feature vector calculation unit 11 to obtain a risk reduction vector. Identify Vr-.
  • each search vector Vs1 to Vs3 can be arbitrarily determined. For example, the inner product value of the feature vector Vf and the search vectors Vs1 to Vs3 is calculated, and the weight is set using the inner product value. In this case, assuming that the weights for each search vector Vs1 to Vs3 are w1, w2, w3, the risk reduction vector Vr- can be calculated by the following calculation.
  • the risk reduction vectors Vr-1 to Vr-3 may be weighted and added.
  • the risk reduction vector identification unit 13 adds the three search vectors Vs1 to Vs3 and the feature vector Vf, respectively, so that the three risk reduction vectors Vr-1 to Vr-3 Is calculated, and these risk reduction vectors Vr-1 to Vr-3 are weighted and added to specify the risk reduction vector Vr-.
  • Vr-1 Vf + Vs1
  • Vr-2 Vf + Vs2
  • Vr-3 Vf + Vs3
  • Vr- (w1 ⁇ Vr-1) + (w2 ⁇ Vr-2) + (w3 ⁇ Vr-3)
  • Vr-1' Vf + (1-T) * Vs1 (T is an arbitrary value of 0 ⁇ T ⁇ 1)
  • Vr-2' Vf + (1-T) * Vs2 (T is an arbitrary value of 0 ⁇ T ⁇ 1)
  • Vr-3' Vf + (1-T) * Vs3 (T is an arbitrary value of 0 ⁇ T ⁇ 1)
  • the risk reduction vector specifying unit 13' is used when a specific search topic is input (when the search topic is specified by the search topic designating unit 15 or by the search topic specifying unit 16).
  • the input search topic is input to the trained countermeasure prediction model to specify the risk reduction vector using only the search vector included in the specified search range.
  • the risk reduction vector may be specified by weighted addition using the search vector included in the search range specified for each of a plurality of search topics.
  • any of the predetermined prediction topics (those specified by the user as in the search topic designation unit 15 and those specified by analysis of the analysis target data as in the search topic identification unit 16). Good) may be input to the risk prediction unit 12 to predict the risk level in consideration of the prediction topic.
  • FIG. 10 is a diagram showing a configuration example in this case.
  • the prediction topic designation unit 17 receives the designation regarding the prediction topic from the user and designates the prediction topic. Then, the designated prediction topic is supplied to the risk prediction unit 12'. Further, in FIG. 10B, the prediction topic specifying unit 18 identifies the prediction topic by analyzing the analysis target data. Then, the identified prediction topic is supplied to the risk prediction unit 12'.
  • the risk prediction unit 12 stores the feature vector calculated by the feature vector calculation unit 11 and the prediction topic designated by the prediction topic designation unit 17 or the prediction topic specified by the prediction topic identification unit 18 in a risk prediction model storage. It is input to the trained risk prediction model stored in the part 21', and the risk level according to the prediction topic is predicted for the prediction target.
  • the risk prediction model stored in the risk prediction model storage unit 21' is a teacher so as to output the risk level according to the feature vector and the prediction topic for the prediction target when the feature vector and the prediction topic are input. It is generated by machine learning processing using data.
  • the countermeasure information generation unit 14 when the countermeasure information generation unit 14 generates information on countermeasures against a risk, the analysis target data having the content related to the risk (analysis target data storage unit together with the feature vector).
  • An example of using (previously stored in 22) has been described.
  • the electronic medical record or the like in this case may be an electronic medical record or the like having contents that are not considered to be related to the predicted specific disease.
  • a document data of a type different from the document data related to medical treatment such as an electronic medical record may be used. In this way, it can be expected to obtain new effective countermeasure information that is difficult to obtain by human judgment from existing knowledge and empirical rules, and is not bound by stereotypes or restrictions.
  • first and second embodiments are merely examples of embodiment of the present invention, and the technical scope of the present invention should not be interpreted in a limited manner by these. It must not be. That is, the present invention can be implemented in various forms without departing from its gist or its main features.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Epidemiology (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

リスク予測部12によりリスクレベルを予測する際に算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行い、演算後ベクトルから算出されるリスクレベルが低減するような探索用ベクトルを探索し、当該探索した探索用ベクトルと特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定部13と、リスク低減ベクトルと同一または近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報を生成する対策情報生成部14とを備え、予測対象物についてリスクレベルを予測するだけでなく、リスクに対して適用し得る対策まで予測することができるようにする。

Description

リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム
 本発明は、リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラムに関し、特に、人や企業、環境、物などの対象物について起こり得るリスクとそれに対する対策とを解析するシステムに関するものである。
 一般に、様々な産業分野においてリスク管理が行われている。リスク管理とは、予想されるリスクを特定(発見または認識)し、そのリスクが受容可能か否かを決定し、受容できない場合にリスク軽減またはリスク回避の対策を講じるという一連のプロセスをいう。また、リスクとは、人や企業、環境、物など(以下、これらをまとめて「対象物」という)に対して与える可能性のある悪い影響を意味する。
 従来、ある特定の事象に関してどのようなリスクが起こり得るかの予測をコンピュータによって行うシステムや、ある特定のリスクに対してどのような対策が有効であるかの予測をコンピュータによって行うシステムが知られている(例えば、特許文献1,2参照)。特許文献1には、患者が危険行動を起こすリスクを予測する技術が開示されている。特許文献2には、ベクトル演算によってリスクに対する対策案を立案する技術が開示されている。
 特許文献1に記載の行動予測装置では、患者の危険行動に関するインシデントレポートと紐付けられることによって危険行動が特定されたカルテ情報である既判断カルテ情報からあらかじめ抽出された、当該危険行動に関連する医療情報を記憶部に格納する。関係性評価部は、インシデントレポートが紐付けられていない未判断カルテ情報を取得して、記憶部に格納された危険行動に関連する医療情報をもとに、未判断カルテ情報と当該未判断カルテ情報に対応する患者が取り得る危険行動との関係性を評価する。予測部は、関係性評価部の評価結果に応じて、未判断カルテ情報に対応する患者の危険行動を予測する。
 特許文献2に記載の対策案立案支援システムでは、業務の状態を表す複数の指標を含む一般的業務指標ベクトルfと、一般的業務指標ベクトルfにおける解決すべき場合における対処方法を示す対策案を複数含む一般的対策案ベクトルxと、課題を示す課題指標ベクトルf’とに基づいて、課題指標ベクトルf’と対策案ベクトルx’との対応関係を規定する課題指標-対策案マトリクスMm’を作成する。そして、一般的対策案ベクトルxから、マトリクスMm’の列に存在する対策案を抜粋して、候補対策案ベクトルx’を選択する。
 近年、起こり得るリスクの予測や、リスクに対する有効な対策の解析を人工知能(AI)によって行うシステムの研究開発が盛んである。人工知能の1つとして機械学習がある。機械学習は、人間が行っている学習と同様の機能をコンピュータで実現しようとする技術のことである。最も広く普及している教師あり学習は、正解付きの多数の教師データを用いて学習を行うことにより分類モデルを生成し、生成した分類モデルをもとに予測対象のデータを分類するというものである。何を教師データとして用いるかは多様であるが、文書データを教師データとして用いて機械学習を行うシステムが古くから知られている。
特許第5977898号公報 特開2007-242063号公報
 機械学習を用いた従来のリスク予測システムは、ある特定の事象に関して実際に発生した問題や不具合、事故、障害、疾病などについて記述した複数のレポート情報を解析することによって予測モデルを生成し、特定の対象物について起こり得るリスクを予測モデルにより予測するものが殆どである。また、機械学習を用いた従来のリスク対策解析システムは、ある特定のリスクに関して実際に行われた対策とその結果について記述した複数のレポート情報を解析することによって予測モデルを生成し、ある特定のリスクに対してどのような対策が有効であるかを予測モデルにより予測するものが殆どである。
 しかしながら、従来のリスク予測システムでは、特定の対象物についてリスクを予測することはできても、予測されたリスクに対してどのような対策が有効であるかまでは予測することができないという問題があった。また、従来のリスク対策解析システムでは、特定のリスクに対してある程度の有効な対策を予測することはできるものの、そのリスクが特定の対象物との関係で実際に発生する可能性については考慮されていないため、予測された対策が特定の対象物にとって実際に有効なものとは限らないという問題があった。
 本発明は、このような問題を解決するために成されたものであり、特定の対象物に関して発生する可能性があると予測されたリスクについて、そのリスク対応として実際に有効である可能性のある対策を予測して提供することができるようにすることを目的とする。
 上記した課題を解決するために、本発明では、解析対象データを解析することにより、解析対象の特徴を表す特徴ベクトルを算出し、当該算出された特徴ベクトルを学習済みのリスク予測モデルに入力し、予測対象物に関するリスクレベルを予測する。さらに、本発明では、リスクレベルを予測する際に算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルをリスク予測モデルに対して入力し、その結果得られるリスクレベルが、特徴ベクトルから予測されたリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、当該条件を満たす探索用ベクトルと特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する。そして、複数の解析対象データについて算出される複数の特徴ベクトルの中から、リスク低減ベクトルと同一または近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報を生成するようにしている。
 上記のように構成した本発明によれば、解析対象データを解析することによって得られる特徴ベクトルからリスクレベルが予測され、さらに、その特徴ベクトルと共に所定の演算を行ったときにリスクレベルが低減するような探索用ベクトルが探索されて、当該探索用ベクトルと特徴ベクトルとに基づいて演算されるリスク低減ベクトルと同一または近似する特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報が生成される。このため、予測対象物についてリスクレベルを予測するだけでなく、そのリスクレベルを低減し得る対策まで予測することができる。本発明によれば、特定の予測対象物について実際にリスクレベルが予測されたリスクについて、リスクレベルが低減するような対策が予測されるので、予測された対策が特定の予測対象物にとって実際に有効なものである可能性が高くなる。以上により、本発明によれば、特定の対象物に関して発生する可能性があると予測されたリスクについて、そのリスク対応として実際に有効である可能性のある対策を予測し、対策に関する情報として提供することができる。
第1の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。 第1の実施形態によるリスク低減ベクトル特定部の処理内容を説明するための図である。 リスク予測モデルを生成する予測モデル生成装置の機能構成例を示すブロック図である。 文章指標値群から成る特徴ベクトルを説明するための図である。 第1の実施形態による特徴ベクトル算出部の具体的な機能構成例を示すブロック図である。 第1の実施形態によるリスク対策解析システムの動作例を示すフローチャートである。 第2の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。 探索トピックに応じて特定される探索範囲内の探索用ベクトルおよびリスク低減ベクトルを模式的に示す図である。 第2の実施形態によるリスク対策解析システムの他の機能構成例を示すブロック図である。 第2の実施形態によるリスク対策解析システムの他の機能構成例を示すブロック図である。
(第1の実施形態)
 以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。図1に示すように、第1の実施形態によるリスク対策解析システムは、その機能構成として、特徴ベクトル算出部11、リスク予測部12、リスク低減ベクトル特定部13および対策情報生成部14を備えている。また、第1の実施形態によるリスク対策解析システムは、記憶媒体として、リスク予測モデル記憶部21および解析対象データ記憶部22を備えている。
 上記各機能ブロック11~14は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11~14は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
 上記各機能ブロック11~14および各記憶媒体21~22は、これらの全てを1つの装置が備える構成としてもよいし、複数の装置に分散して設ける構成としてもよい。例えば、各機能ブロック11~14を1つの演算装置が備えるとともに、各記憶媒体21~22を当該演算装置とは異なるサーバ装置またはストレージ装置が備え、演算装置とサーバ装置またはストレージ装置とを通信ネットワークを介して接続する構成とすることが可能である。また、特徴ベクトル算出部11およびリスク予測部12を第1の演算装置が備え、リスク低減ベクトル特定部13および対策情報生成部14を第2の演算装置が備える構成としてもよい。
 第1の演算装置と第2の演算装置とに分ける場合、第2の演算装置は、第1の演算装置で算出された特徴ベクトル(後述する学習済みのリスク予測モデルに適用された特徴ベクトル)と、その特徴ベクトルを入力したリスク予測モデルから出力されたリスクレベルとを取得するリスク情報取得部を備える。そして、第2の演算装置のリスク低減ベクトル特定部13および対策情報生成部14は、リスク情報取得部により取得された特徴ベクトルとリスクレベルとを用いて後述する処理を実行する。
 特徴ベクトル算出部11は、解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する。解析対象データは、複数の特徴量から成る特徴ベクトル(特徴行列と言ってもよい)を算出可能なデータであればよく、例えば文書データ、画像データ、音声データなどである。本実施形態のリスク対策解析システムは、人や企業、環境、物などの対象物について起こり得るリスクとそれに対する対策とを解析するものであるので、解析対象データとしては、何らかのリスクに関連する内容を有するものを用いる。
 例えば、人が特定の病気にかかるリスク(疾病罹患リスク)、患者が特定の危険行動をするリスク(危険行動リスク)などを解析する場合に、電子カルテやインシデントレポート、アンケート回答などの文書データを解析対象データとして用いることが可能である。また、同様に疾病罹患リスクまたは危険行動リスクなどを解析する場合に、身体の外部または内部を撮影した画像データ、患者と医師との対話を録音した音声データ、位置測定装置などで検出される入院患者の移動軌跡を表した移動軌跡データ、人の日時の行動内容をレポート形式等で記録した行動履歴データなどを解析対象データとして用いることが可能である。また、システム障害の発生可能性の有無を解析する場合に、システムの監視または検査の結果を記述したレポートに関する文書データなどを解析対象データとして用いることが可能である。
 また、企業が行う事業に潜むリスクを解析する際に、事業計画書や事業報告書などの文書データ、企業の財務諸表および市場の株価や円相場などの値動きを表す数値データ、労働人口や技術動向、特許取得動向などを表す各種統計データなどを解析対象データとして用いることも可能である。さらに、特定の工事を行う際に発生し得る事故や怪我などのリスクを解析する際に、工事計画書や工事報告書などの文書データ、工事対象物を撮影した画像データ、工事現場で録音した音声データ、工事対象物に設置したセンサにより検出される測定データなどを解析対象データとして用いることも可能である。ここに挙げたものは一例であり、これ以外のデータを解析対象データとして用いることも可能である。
 以下では一例として、電子カルテやインシデントレポートなどの文書データを解析対象データとして用いて、人が特定の病気にかかるリスク(疾病罹患リスク)を解析する場合について説明する。解析対象データとして文書データを用いる場合、解析対象の特徴とは、文書の特徴を意味する。文書の特徴とは、例えば、その文書内に含まれる文章の特徴や、その文書内に含まれる単語の特徴である。特徴ベクトル算出部11は、一例として、文章および単語の少なくとも一方に関して複数の特徴要素を解析対象の文書データから算出することにより、それら複数の特徴要素を含む特徴ベクトルを算出する。なお、この特徴ベクトルの具体的な算出例については後述する。
 リスク予測部12は、特徴ベクトル算出部11により算出された特徴ベクトルを、学習済みのリスク予測モデルに入力し、予測対象物に関するリスクレベルを予測する。リスク予測モデルは、リスクが実際に発生(顕在化)したか否かの正解ラベルを有する複数の解析対象データを教師データとして用いて機械学習を行うことによってあらかじめ生成されたものであり、リスク予測モデル記憶部21に記憶されている。このリスク予測モデルは、特徴ベクトルが入力された際に、予測対象物に関するリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている。リスクレベルとは、リスクが発生する可能性(ここでは、特定の病気にかかる可能性)の程度を表す値であり、例えば0以上1以下のスコア値である。
 ここで、リスクレベルが所定の閾値より大きい場合は疾病罹患の「可能性あり」、リスクレベルが閾値以下の場合は疾病罹患の「可能性なし」などと2つのタイプに分類することが可能である。また、リスクレベルが第1の閾値より大きい場合は疾病罹患の「可能性大」、リスクレベルが第1の閾値以下かつ第2の閾値より大きい場合は疾病罹患の「可能性中」、リスクレベルが第2の閾値以下の場合は疾病罹患の「可能性小」などと3つのタイプに分類することも可能である。もちろん、疾病罹患の可能性について4つ以上のタイプに分類することも可能である。なお、リスク予測モデルの具体的な生成例については後述する。
 リスク低減ベクトル特定部13は、特徴ベクトル算出部11により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルをリスク予測モデルに対して入力し、その結果得られるリスクレベルが、特徴ベクトルをリスク予測モデルに入力した場合に得られるリスクレベル(すなわち、リスク予測部12により予測されたリスクレベル)よりも小さくなるという条件を満たす探索用ベクトルを探索する。そして、探索された探索用ベクトル(条件を満たす探索用ベクトル)と特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する。
 図2は、このリスク低減ベクトル特定部13の処理内容を説明するための図であり、特徴ベクトルVf、探索用ベクトルVs、リスク低減ベクトルVr-を模式的に示している。リスク低減ベクトル特定部13は、探索用ベクトルVsをランダムに生成し、特徴ベクトル算出部11により算出された特徴ベクトルVfに対して探索用ベクトルVsを加算する(V=Vf+Vs)。次いで、リスク低減ベクトル特定部13は、この加算(所定の演算に相当)を行った結果として得られる演算後ベクトルV(=Vf+Vs)を、リスク予測モデル記憶部21に記憶されているリスク予測モデルに対して入力することにより、リスクレベル(以下、これを「探索リスクレベル」という)を算出する。
 そして、リスク低減ベクトル特定部13は、以上のようにして演算後ベクトルVから算出した探索リスクレベルが、特徴ベクトルVfをリスク予測モデルに入力した場合に得られるリスクレベル(リスク予測部12から出力されるリスクレベル。以下、これを「予測リスクレベルという)よりも小さくなるか否かを判定する。ここで、探索リスクレベルが予測リスクレベルより小さくならないと判定した場合は、探索用ベクトルVsの内容を変えて以上と同様の処理を行う。一方、探索リスクレベルが予測リスクレベルより小さくなる場合は、そのときの演算後ベクトルVをリスク低減ベクトルVr-とする(図2(a)の例)。
 なお、探索リスクレベルが予測リスクレベルより小さくなるという条件を満たす探索用ベクトルVsは、1つのみとは限らない。そこで、リスク低減ベクトル特定部13は、ある探索用ベクトルVsについて算出した探索リスクレベルが予測リスクレベルより小さくなる場合でも、探索用ベクトルVsの内容を変えて探索リスクレベルを算出する。そして、予測リスクレベルより小さくなる探索リスクレベルの中で最小のものを特定し、当該最小の探索リスクレベルが算出されたときの演算後ベクトルVをリスク低減ベクトルVr-とするようにしてよい。
 探索リスクレベルが最小となる探索用ベクトルVsを探索する際に、公知の確率的勾配降下法などを適用することにより、探索リスクレベルが小さくなると予想される範囲に限定して探索を行うようにしてもよい。あるいは、所定の収束条件を設定し、収束条件を満たすまで探索用ベクトルVsを変えて探索リスクレベルを順次算出し、収束条件を満たして探索を終了した時点で最小の探索リスクレベルが算出されたときの演算後ベクトルVをリスク低減ベクトルVr-とするようにしてもよい。
 リスク低減ベクトル特定部13は、上記の条件を満たす探索用ベクトルVs(探索リスクレベルが最小となるもの)と特徴ベクトルVfとに基づいて以下のように演算されるベクトルV’をリスク低減ベクトルVr-とするようにしてもよい(図2(b)の例)。
  V’=Vf+(1-T)*Vs (Tは0≦T<1の任意の値)
ここで、パラメータTの値は、コンピュータがランダムに1つを選択するようにしてもよいし、ランダムに複数を選択するようにしてもよい。あるいは、ユーザが任意にパラメータTの値を指定できるようにしてもよい。
 リスク低減ベクトル特定部13は、例えば、疾病罹患の「可能性あり」または「可能性大」と分類された特徴ベクトルVfについて、以上のような演算によってリスク低減ベクトルVr-を算出する。なお、図2(b)のようにリスク低減ベクトルVr-を算出する場合において、Tの値を大きくすると、ベクトルV’は、「リスクあり」と予測された特徴ベクトルVfに近いものとなる。従って、Tの値を大きくし過ぎないようにするのが好ましい。例えば、Tの値は0≦T≦0.5とするようにしてもよい。
 対策情報生成部14は、複数の解析対象データについて特徴ベクトル算出部11により算出される複数の特徴ベクトルの中から、リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’を特定し、特定した特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報を生成する。複数の解析対象データ(文書データ)と、当該複数の文書データについて特徴ベクトル算出部11により算出された複数の特徴ベクトルとが紐付けられて、解析対象データ記憶部22にあらかじめ記憶されている。対策情報生成部14は、この解析対象データ記憶部22に記憶されているデータを用いて、リスク対策に関する情報を生成する。
 ここで、リスク低減ベクトルVr-と近似する特徴ベクトルVf’は、任意に定義することが可能である。例えば、リスク低減ベクトルVr-との内積値が所定値以上となる特徴ベクトルを、リスク低減ベクトルVr-と近似する特徴ベクトルVf’とすることが可能である。このような定義に該当する特徴ベクトルが複数ある場合に、それらの全てを特徴ベクトルVf’として特定するようにしてもよいし、その中でリスク低減ベクトルVr-に最も近いもの(内積値が最も大きいもの)だけ、または、リスク低減ベクトルVr-に最も近い方から順に所定個を特徴ベクトルVf’として特定するようにしてもよい。
 リスク対策に関する情報は、例えば、特定した特徴ベクトルVf’に紐付けられた文書データに含まれている文章または単語である。あるいは、特定した特徴ベクトルVf’に紐付けられた文書データそのものをリスク対策に関する情報としてもよい。リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’は、疾病罹患の「可能性あり」または「可能性大」と分類された特徴ベクトルVfについて、リスクレベルを低減する方向性を示すものと言える。そして、特徴ベクトルVf’に紐付けられた文書データには、リスクレベルを低減する方向性に関連する情報(文章や単語)が含まれていて、それが特徴ベクトルVf’の算出に寄与している可能性があると言える。従って、特徴ベクトルVf’に紐付けられた文書データに含まれている文章または単語は、リスク対策に関する情報として有用なものである可能性があると言える。
 なお、解析対象データが画像データ、音声データ、数値データ、統計データなどの場合についても、対策情報生成部14は、複数の解析対象データについて算出された複数の特徴ベクトルのうち、リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報を生成する。これらの場合は、例えば、解析対象データそのものをリスク対策に関する情報としてもよい。この情報を得たユーザは、リスクの予測に使用した解析対象データと、対策情報生成部14により対策に関する情報として生成された解析対象データとを比較して差異を把握するなどにより、対策情報生成部14により生成された解析対象データに近づけるために有効な対策を講じるためのヒントを得ることも可能である。
 図3は、リスク予測モデル記憶部21に記憶させるリスク予測モデルを生成する予測モデル生成装置の機能構成例を示すブロック図である。図3に示す予測モデル生成装置は、その機能構成として、単語抽出部101、ベクトル算出部102および指標値算出部103を含む特徴ベクトル算出部100と、リスク予測モデル生成部104とを備えて構成されている。ベクトル算出部102は、より具体的な機能構成として、文章ベクトル算出部102Aおよび単語ベクトル算出部102Bを備えている。この予測モデル生成装置は、本実施形態のリスク対策解析システムが備えてもよいし、他の装置として備えるようにしてもよい。
 上記各機能ブロック101~104は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック101~104は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
 特徴ベクトル算出部100は、予測する対象期間内においてリスクが実際に発生したか否か(実際に病気にかかったか否か)の正解ラベルを有する複数の文書データ(例えば、複数の患者に関する電子カルテ)を教師データとして入力する。なお、1つの文書データは、1つの文章(句点によって区切られる単位)から成るものであってもよいし、複数の文章を含むものであってもよい。
 単語抽出部101は、複数の文書データに含まれるm個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する。文章の解析方法としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部101は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。
 なお、1つの文書データの中に複数の文章が含まれている場合に、その中の全部の文章を解析対象としてもよいし、一部の文章を解析対象としてもよい。1つの文書データに含まれる一部の文章を教師データとして使用する場合、特徴ベクトル算出部100は、文書データの中のどの部分の文章を教師データとして使用するのかを設定した状態で、文書データを入力する。例えば、複数の記載項目が存在する電子カルテの中で、特定の記載項目に関する文章を教師データとして使用するように設定することが考えられる。この設定は、ユーザによる操作を通じて行うことが可能である。
 なお、m個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部101は、同じ単語を複数個抽出することはせず、1つのみ抽出する。すなわち、単語抽出部101が抽出するn個の単語とは、n種類の単語という意味である。ここで、単語抽出部101は、m個の文章から同じ単語が抽出される頻度を計測し、出現頻度が大きい方からn個(n種類)の単語、あるいは出現頻度が閾値以上であるn個(n種類)の単語を抽出するようにしてもよい。
 ベクトル算出部102は、m個の文章およびn個の単語から、m個の文章ベクトルおよびn個の単語ベクトルを算出する。ここで、文章ベクトル算出部102Aは、単語抽出部101による解析対象とされたm個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個(qは2以上の任意の整数)の軸成分から成るm個の文章ベクトルを算出する。また、単語ベクトル算出部102Bは、単語抽出部101により抽出されたn個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
 ベクトル算出部102は、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、m個の文章とn個の単語とから成る集合S=<d∈D,w∈W>を考える。ここで、各文章d(i=1,2,・・・,m)および各単語w(j=1,2,・・・,n)に対してそれぞれ文章ベクトルd→および単語ベクトルw→(以下では、記号“→”はベクトルであることを指すものとする)を関連付ける。そして、任意の単語wと任意の文章dに対して、次の式(1)に示す確率P(w|d)を計算する。
Figure JPOXMLDOC01-appb-M000001
 この確率P(w|d)は、例えば、文章や文書をパラグラフ・ベクトルにより評価することについて記述した論文「“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014」に開示されている確率pに倣って算出することが可能な値である。この論文には、例えば、“the”、“cat”、“sat”という3つの単語があるときに、4つ目の単語として“on”を予測するとあり、その予測確率pの算出式が掲載されている。当該論文に記載されている確率p(wt|wt-k,・・・,wt+k)は、複数の単語wt-k,・・・,wt+kから別の1つの単語wtを予測したときの正解確率である。
 これに対し、本実施形態で用いる式(1)に示される確率P(w|d)は、m個の文章のうち一の文章dから、n個の単語のうち一の単語wが予想される正解確率を表している。1つの文章dから1つの単語wを予測するというのは、具体的には、ある文章dが出現したときに、その中に単語wが含まれる可能性を予測するということである。
 式(1)では、eを底とし、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章dと単語wとの組み合わせから計算される指数関数値と、文章dとn個の単語w(k=1,2,・・・,n)との各組み合わせから計算されるn個の指数関数値の合計値との比率を、一の文章dから一の単語wが予想される正解確率として計算している。
 ここで、単語ベクトルw→と文章ベクトルd→との内積値は、単語ベクトルw→を文章ベクトルd→の方向に投影した場合のスカラ値、つまり、単語ベクトルw→が有している文章ベクトルd→の方向の成分値とも言える。これは、単語wが文章dに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、n個の単語w(k=1,2,・・・,n)について計算される指数関数値の合計に対する、1つの単語wについて計算される指数関数値の比率を求めることは、1つの文章dからn個の単語のうち1つの単語wが予想される正解確率を求めることに相当する。
 式(1)はdとwについて対称なので、n個の単語のうち一の単語wから、m個の文章のうち一の文章dが予想される確率P(d|w)を計算してもよい。1つの単語wから1つの文章dを予測するというのは、ある単語wが出現したときに、それが文章dの中に含まれる可能性を予測するということである。この場合、文章ベクトルd→と単語ベクトルw→との内積値は、文章ベクトルd→を単語ベクトルw→の方向に投影した場合のスカラ値、つまり、文章ベクトルd→が有している単語ベクトルw→の方向の成分値とも言える。これは、文章dが単語wに寄与している程度を表していると考えることができる。
 なお、ここでは、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルw→と文章ベクトルd→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。
 次に、ベクトル算出部102は、次の式(2)に示すように、上記式(1)により算出される確率P(w|d)を全ての集合Sについて合計した値Lを最大化するような文章ベクトルd→および単語ベクトルw→を算出する。すなわち、文章ベクトル算出部102Aおよび単語ベクトル算出部102Bは、上記式(1)により算出される確率P(w|d)を、m個の文章とn個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Lとして、当該目標変数Lを最大化する文章ベクトルd→および単語ベクトルw→を算出する。
Figure JPOXMLDOC01-appb-M000002
 m個の文章とn個の単語との全ての組み合わせについて算出した確率P(w|d)の合計値Lを最大化するというのは、ある文章d(i=1,2,・・・,m)からある単語w(j=1,2,・・・,n)が予想される正解確率を最大化するということである。つまり、ベクトル算出部102は、この正解確率が最大化するような文章ベクトルd→および単語ベクトルw→を算出するものと言える。
 上述したように、ベクトル算出部102は、m個の文章dをそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルd→を算出するとともに、n個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルw→を算出する。これは、q個の軸方向を可変として、上述の目標変数Lが最大化するような文章ベクトルd→および単語ベクトルw→を算出することに相当する。
 指標値算出部103は、ベクトル算出部102により算出されたm個の文章ベクトルd→とn個の単語ベクトルw→との内積をそれぞれとることにより、m個の文章dおよびn個の単語w間の関係性を反映したm×n個の類似性指標値を算出する。本実施形態では、指標値算出部103は、次の式(3)に示すように、m個の文章ベクトルd→の各q個の軸成分(d11~dmq)を各要素とする文章行列Dと、n個の単語ベクトルw→の各q個の軸成分(w11~wnq)を各要素とする単語行列Wとの積をとることにより、m×n個の類似性指標値を各要素とする指標値行列DWを算出する。ここで、Wは単語行列の転置行列である。
Figure JPOXMLDOC01-appb-M000003
 このようにして算出された指標値行列DWの各要素は、どの単語がどの文章に対してどの程度寄与しているのかを表したものと言える。例えば、1行2列の要素dw12は、単語w2が文章d1に対してどの程度寄与しているのかを表した値である。これにより、指標値行列DWの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。
 指標値算出部103は、以上のように算出したm×n個の類似性指標値を用いて、1つの文章d(i=1,2,・・・,m)についてn個の類似性指標値dw(j=1,2,・・・,n)から成る文章指標値群を、文章dの特徴ベクトルVfとして特定する。図4は、文章指標値群から成る特徴ベクトルVfを説明するための図である。図4に示すように、文章指標値群とは、例えば1つ目の文章dの場合、指標値行列DWの1行目に含まれるn個の類似性指標値dw11~dw1nがこれに該当する。同様に、2つ目の文章d2の場合、指標値行列DWの2行目に含まれるn個の類似性指標値dw21~dw2nがこれに該当する。以下、m個目の文章dmに関する文章指標値群(n個の類似性指標値dwm1~dwmn)まで同様である。このように、特徴ベクトル算出部100は、複数の文書データから抽出したm個の文章dについて、m個の特徴ベクトルVfを算出する。
 なお、指標値算出部103は、以上のようにして算出したm×n個の類似性指標値を用いて、所定の次元圧縮処理を行うことにより、m×k個(kは1≦k<nを満たす任意の整数)の類似性指標値を算出し、1つの文章d(i=1,2,・・・,m)についてk個の類似性指標値dw(j=1,2,・・・,k)から成る文章指標値群を、文章dの特徴ベクトルVfとして特定するようにしてもよい。次元圧縮処理は、例えば、行列を分解する方法として公知の特異値分解(singular value decomposition:SVD)を用いることが可能である。
 すなわち、指標値算出部103は、上記式(3)のようにして算出された指標値行列DWを、3つの行列U,S,Vに分解する。ここで、行列Uはm×k次元の左特異行列で、各列はDW*DWの固有ベクトルである(DWは指標値行列DWの転置行列を示す)。行列Sはk×k次元の正方行列で、対角行列成分が指標値行列DWの特異値を示し、それ以外の値が全て0となっている。行列Vはk×n次元の右特異行列で、各行はDW*DWの固有ベクトルである。なお、圧縮後の次元kは、あらかじめ定めた固定の値としてもよいし、任意の値を指定可能としてもよい。
 指標値算出部103は、以上のようにして分解した3つの行列のうち、右特異行列Vの転置行列Vによって指標値行列DWを変換することにより、指標値行列DWの次元を圧縮する。すなわち、m×n次元の指標値行列DWと、n×k次元の右特異転置行列Vとの内積を計算することにより、m×n次元の指標値行列DWをm×k次元の指標値行列DWSVDに次元圧縮する(DWSVD=DW*V)。なお、DWSVDは指標値行列DWをSVDにより次元圧縮した行列を示しており、DW≒U*S*V=DWSVD*Vの関係が成り立つ。
 このように、SVDの手法を用いて指標値行列DWの次元を圧縮することにより、指標値行列DWで表現される特徴を可能な限り損ねること無く指標値行列DWを低ランク近似することができる。なお、ここでは右特異行列Vの転置行列Vによって指標値行列DWを変換する例について説明したが、mの値とnの値が一致する場合には、左特異行列Uによって指標値行列DWを変換するようにしてもよい(DWSVD=DW*U)。
 リスク予測モデル生成部104は、特徴ベクトル算出部100により算出されたm個の特徴ベクトルVfをもとに、特徴ベクトルVfから予測対象物に関するリスクレベルを算出するためのリスク予測モデルを生成する。すなわち、リスク予測モデル生成部104は、病気にかかったことが既知である患者の文書データ(例えば、「リスクあり」の正解ラベルが付与された文書データ)から抽出された文章をもとに算出される特徴ベクトルVf(iは1~mの何れか)が入力された場合にはリスクレベルが所定の閾値より大きくなり、病気にかからなかったことが既知である患者の文書データ(例えば、「リスクなし」の正解ラベルが付与された文書データ)から抽出された文章をもとに算出される特徴ベクトルVf(iは1~mの何れか)が入力された場合にはリスクレベルが閾値以下となるように調整されたリスク予測モデルを生成する。そして、リスク予測モデル生成部104は、生成したリスク予測モデルをリスク予測モデル記憶部21に記憶させる。
 リスク予測モデル生成部104は、例えば、各文章dの特徴ベクトルVfを構成している文章指標値群についてそれぞれ特徴量を算出し、当該算出した特徴量の値に応じて、マルコフ連鎖モンテカルロ法による複数群分離の最適化を行うことにより、特徴ベクトルVfが「リスクあり」に分類される可能性の高さを示す値をリスクレベルとして算出するためのリスク予測モデルを生成する。すなわち、リスク予測モデル生成部104が生成するリスク予測モデルは、特徴ベクトルVfを入力として、「リスクあり」に該当する可能性を確率として出力する学習モデルである。なお、ここに挙げたリスク予測モデルの生成法は一例であり、これに限定されるものではない。また、学習モデルの形態は任意である。
 例えば、リスク予測モデル生成部104が生成するリスク予測モデルの形態は、回帰モデル(線形回帰、ロジスティック回帰、サポートベクターマシーンなどをベースとする学習モデル)、木モデル(決定木、回帰木、ランダムフォレスト、勾配ブースティング木などをベースとする学習モデル)、ニューラルネットワークモデル(パーセプトロン、畳み込みニューラルネットワーク、再起型ニューラルネットワーク、残差ネットワーク、RBFネットワーク、確率的ニューラルネットワーク、スパイキングニューラルネットワーク、複素ニューラルネットワークなどをベースとする学習モデル)、ベイズモデル(ベイズ推論などをベースとする学習モデル)、クラスタリングモデル(k近傍法、階層型クラスタリング、非階層型クラスタリング、トピックモデルなどをベースとする学習モデル)などのうち何れかとすることが可能である。なお、ここに挙げた分類モデルは一例に過ぎず、これに限定されるものではない。
 図5は、図1に示した特徴ベクトル算出部11の具体的な機能構成例を示すブロック図である。図5に示すように、特徴ベクトル算出部11は、その具体的な機能構成として、単語抽出部111、ベクトル算出部112および指標値算出部113を備えている。ベクトル算出部112は、より具体的な機能構成として、文章ベクトル算出部112Aおよび単語ベクトル算出部112Bを備えている。特徴ベクトル算出部11の動作は、図3に示した特徴ベクトル算出部100の動作と基本的には同様である。
 特徴ベクトル算出部11は、解析対象とする1つ以上の文章を含む文書データを予測用データとして入力する。特徴ベクトル算出部11が入力する文書データは、例えば、特定の病気に現時点ではかかっていない患者で、将来の所定期間以内に特定の病気になるリスクがあるか否かを予測したい患者の電子カルテ(文書データ)である。ここで、特徴ベクトル算出部11は、文書データの中のどの部分の文章を解析対象として使用するのかを設定した状態で、文書データを入力してよい。なお、特徴ベクトル算出部11は、文書データの中から指定された文章に関する文章データのみを入力するようにしてもよい。
 特徴ベクトル算出部11が解析対象とする文章の数m’は、特徴ベクトル算出部100が解析対象とした文章の数mと必ずしも同数でなくてもよい。特徴ベクトル算出部11が解析対象とする文章は、1つであってもよいし、複数であってもよい。ただし、指標値算出部113が文章から算出する類似性指標値は、どの単語がどの文章に対してどの程度寄与しているのか、どの文章がどの単語に対してどの程度寄与しているのかを表したものであるため、特徴ベクトル算出部11が解析対象とする文章についても複数とするのが好ましい。例えば、m’人の患者の電子カルテから1つずつ文章を抽出することが考えられる。あるいは、1人の患者のカルテから複数の文章を抽出して解析対象とするようにしてもよい。この場合は、1人の患者について複数の文章から複数の特徴ベクトルVfが特徴ベクトル算出部11により算出され、それぞれの特徴ベクトルVfについてリスクレベルがリスク予測部12により算出されることになる。
 特徴ベクトル算出部11は、m’個の文章データが予測用データとして入力された場合、そのm’個の文章データについて単語抽出部111、ベクトル算出部112および指標値算出部113の処理(それぞれの処理は、図3の単語抽出部101、ベクトル算出部102および指標値算出部103の処理と同様)を実行することにより、m’個の文章指標値群(特徴ベクトルVf)を得る。リスク予測部12は、特徴ベクトル算出部11により算出されたm’個の特徴ベクトルVfを1つずつリスク予測モデル記憶部21のリスク予測モデルに入力することにより、m’個の文章のそれぞれについてリスクレベルを算出する。
 ここで、単語抽出部111は、図3の単語抽出部101がm個の教師データから抽出したn個の単語と同じ単語をm’個の予測用データから抽出するのが好ましい。予測用データから抽出されるn個の単語から成る文章指標値群が、教師データから抽出されたn個の単語から成る文章指標値群と同じ単語を要素とするものとなるので、リスク予測モデル記憶部21に記憶されたリスク予測モデルに対する適合度が高くなるからである。ただし、学習時と同じn個の単語を予測時にも抽出することを必須とするものではない。
 図6は、以上のように構成した第1の実施形態によるリスク対策解析システムの動作例を示すフローチャートである。まず、特徴ベクトル算出部11は、1人以上の患者に関する電子カルテの中からm’個の文章を予測用データとして入力する(ステップS1)。特徴ベクトル算出部11の単語抽出部111は、入力されたm’個の文章を解析し、当該m’個の文章からn個の単語を抽出する(ステップS2)。次いで、ベクトル算出部112は、入力されたm’個の文章および単語抽出部111により抽出されたn個の単語から、m’個の文章ベクトルd→およびn個の単語ベクトルw→を算出する(ステップS3)。
 そして、指標値算出部113は、m’個の文章ベクトルd→とn個の単語ベクトルw→との内積をそれぞれとることにより、m’個の文章dおよびn個の単語w間の関係性を反映したm’×n個の類似性指標値(m’×n個の類似性指標値を各要素とする指標値行列DW)を算出する(ステップS4)。さらに、指標値算出部113は、以上のように算出したm’×n個の類似性指標値を用いて、1つの文章d(i=1,2,・・・,m’)についてn個の類似性指標値dw(j=1,2,・・・,n)から成る文章指標値群を、文章dの特徴ベクトルVfとして特定する(ステップS5)。
 次いで、リスク予測部12は、特徴ベクトル算出部11により算出されたm’個の特徴ベクトルVfを1つずつリスク予測モデル記憶部21のリスク予測モデルに入力することにより、m’個の文章のそれぞれについてリスクレベルを算出する(ステップS6)。そして、リスク低減ベクトル特定部13は、例えば、リスク予測部12により算出されたリスクレベルの中に所定の閾値より大きいもの(疾病罹患の「可能性あり」と分類されるもの)があるか否かを判定する(ステップS7)。
 ここで、所定の閾値より大きいリスクレベルが1つも存在しない場合、図6に示すフローチャートの処理は終了する。一方、所定の閾値より大きいリスクレベルが少なくとも1つ存在する場合、リスク低減ベクトル特定部13は、その閾値より大きいリスクレベルが算出された特徴ベクトルVfについて、探索用ベクトルVsを用いてリスク低減ベクトルVr-を算出する(ステップS8)。ここで、リスクレベルが所定の閾値より大きくなる特徴ベクトルVfが複数存在する場合は、そのそれぞれについてリスク低減ベクトルVr-を算出する。
 次いで、対策情報生成部14は、解析対象データ記憶部22に記憶されている複数の特徴ベクトルの中から、リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’を特定し、特定した特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報を生成する(ステップS9)。そして、対策情報生成部14は、生成したリスク対策に関する情報を、例えばディスプレイ(図示せず)に表示することによってユーザに提示する(ステップS10)。ここで、どの文章に対するリスク対策であるか、またはどの患者に対するリスク対策であるかを明示した状態で情報をユーザに提示するようにしてもよい。これにより、図6に示すフローチャートの処理が終了する。
 以上詳しく説明したように、第1の実施形態によれば、解析対象データ(例えば、電子カルテ等の文書データ)を解析することによって得られる特徴ベクトルVfからリスクレベルが予測される。さらに、その特徴ベクトルVfと共に所定の演算を行ったときにリスクレベルが低減するような探索用ベクトルVsが探索されて、当該探索用ベクトルVsと特徴ベクトルVfとに基づいて演算されるリスク低減ベクトルVr-が特定され、それと同一または近似する特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報が生成される。このため、予測対象物についてリスクレベルを予測するだけでなく、そのリスクレベルを低減し得る対策まで予測することができる。
 また、第1の実施形態によれば、特定の予測対象物(上記の例では患者)について実際にリスクレベルが予測された疾病罹患のリスクについて、リスクレベルが低減するような対策が予測されるので、予測された対策が特定の予測対象物にとって実際に有効なものである可能性が高くなる。以上により、第1の実施形態によれば、特定の対象物に関して発生する可能性があると予測されたリスクについて、そのリスク対応として実際に有効である可能性のある対策を予測し、対策に関する情報として提供することができる。
(第2の実施形態)
 次に、本発明の第2の実施形態を図面に基づいて説明する。図7は、第2の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。なお、この図7において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
 図7に示すように、第2の実施形態によるリスク対策解析システムは、その機能構成として、リスク低減ベクトル特定部13に代えてリスク低減ベクトル特定部13’を備えるとともに、探索トピック指定部15を更に備えている。また、記憶媒体として、対策予測モデル記憶部23を更に備えている。
 リスク低減ベクトル特定部13’は、特徴ベクトル算出部11により算出された特徴ベクトルと、探索トピック指定部15により指定された探索トピックとを学習済みの対策予測モデルに入力し、特徴ベクトルと探索トピックとに基づき特定される探索範囲に含まれる探索用ベクトルを用いてリスク低減ベクトルの探索を行う。すなわち、第2の実施形態では、リスク低減ベクトルを算出する際に使用する探索用ベクトルを、特徴ベクトルと探索トピックとに基づいて特定される探索範囲に含まれるものに限定する。探索範囲を限定することによって処理効率を上げると同時に、探索トピックに応じた適切なリスク低減ベクトルを算出できるようにすることが目的である。
 探索トピックは、予測されるリスクに対して採るべき対策の大まかなテーマを示すものであり、リスク低減ベクトルの探索条件とも言えるものである。例えば、特定の病気にかかるリスク(疾病罹患リスク)を予測してその対策に関する情報を提供するリスク対策解析システムを構成する場合において、探索トピックは、例えば運動関連の改善などを内容とする「活動量」、例えば食事関連の改善などを内容とする「食生活」、例えば睡眠関連の改善などを内容とする「生活習慣」などとすることが可能である。
 対策予測モデルは、どの探索トピックに該当するかが既知である複数の解析対象データから算出された複数の特徴ベクトルを教師データとして用いて機械学習を行うことによってあらかじめ生成されたものであり、対策予測モデル記憶部23に記憶されている。探索トピックが既知であるというのは、解析対象データ(例えば、電子カルテ等の文書データ)の内容がどの探索トピックに関連するものであるかが既知であるということである。解析対象データと探索トピックとの関連付けは、人間が行ってもよいし、コンピュータが解析対象データの内容を解析して行ってもよい。例えば、解析対象データが文書データである場合、文書データ内に含まれる単語を解析し、多く含まれる単語がどの探索トピックに該当するものであるかによって、文書データに対応する探索トピックを自動的に特定するようにすることが可能である。
 対策予測モデル記憶部23に記憶される対策予測モデルは、探索トピックと特徴ベクトルとが入力された際にそれらに応じた探索範囲を出力するように、教師データを用いた機械学習処理によって生成されている。すなわち、対策予測モデルは、探索トピックと特徴ベクトルとの組み合わせごとに、その特徴ベクトルからリスク予測モデルに基づいて予測されるリスクレベルを低減させることができる複数のリスク低減ベクトルを特定する際に用いた複数の探索用ベクトルが含まれる範囲を探索範囲として出力するように学習されたものである。
 ここで、対策予測モデルが出力する探索範囲は、例えば、探索リスクレベルが予測リスクレベルより小さくなるような探索用ベクトルのうち、探索リスクレベルが最小の方から順に所定個の探索用ベクトルが含まれる範囲として定義することが可能である。また、探索リスクレベルが予測リスクレベルより小さくなるような探索用ベクトルのうち、探索リスクレベルが最小となる探索用ベクトルとの内積値が所定値以上となるような探索用ベクトルが含まれる範囲を探索範囲とするようにしてもよい。
 なお、対策予測モデルは、探索トピックと特徴ベクトルとの組み合わせごとに、1つの探索用ベクトルを探索範囲として出力するものとしてもよい。例えば、リスクレベルを最も小さくできるリスク低減ベクトルを特定する際に用いた探索用ベクトルを探索範囲として出力するものとしてもよい。あるいは、上述した複数の探索用ベクトルを平均加算した1つのベクトルを探索範囲として出力するものとしてもよい。
 図8は、探索トピックに応じて特定される探索範囲内の探索用ベクトルVs1~Vs3およびリスク低減ベクトルVr-1~Vr-3を模式的に示す図である。図8では、1つの特徴ベクトルVfに対して3つの探索トピック(活動量、食生活、生活習慣)ごとに特定される探索範囲を示したものであり、1つの探索用ベクトルを探索範囲とする例を示している。対策予測モデル記憶部23に記憶される対策予測モデルは、例えば、図8に示す特徴ベクトルVfと、探索トピック「活動量」を示す情報とが入力された際に、探索範囲として1つの探索用ベクトルVs1を出力するように学習されている。
 なお、対策予測モデルに入力される特徴ベクトルが、図8に示す特徴ベクトルVfと完全に一致するものであるとは限らない。対策予測モデルは、このような場合でも適切に探索範囲を出力できるように学習されている。すなわち、対策予測モデルは、図8に示す特徴ベクトルVfに近似する特徴ベクトル(例えば、内積値が所定値以上の特徴ベクトル)と、探索トピック「活動量」を示す情報とが入力された場合には、特徴ベクトルVfが与えられた場合と同じ1つの探索用ベクトルVs1を探索範囲として出力するように学習されている。
 図7に示す例において、探索範囲を特定するために使用する探索トピックは、探索トピック指定部15により指定される。探索トピック指定部15は、ユーザからの探索トピックに関する指定を受け付けて、探索トピックを指定する。例えば、リスク予測部12により算出されたリスクレベルが所定値以上となって疾病罹患のリスクがあると予測された場合において、患者または医師が特定のトピックについて対策を講じたいと考えた場合などに、患者または医師が希望する探索トピックを指定することが可能である。
 リスク低減ベクトル特定部13’は、探索トピック指定部15により受け付けられた探索トピックと、特徴ベクトル算出部11により算出された特徴ベクトルとを、対策予測モデル記憶部23に記憶された学習済みの対策予測モデルに入力することにより、探索範囲を特定する。そして、特定した探索範囲に含まれる探索用ベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとを用いて、第1の実施形態で説明したリスク低減ベクトル特定部13と同様の処理によってリスク低減ベクトルを特定する。
 以上詳しく説明したように、第2の実施形態によれば、トピックによって変わる可能性のある最適なリスク低減ベクトルを、探索トピックを指定することによって、あらかじめ学習済みの対策予測モデルから予測される適切な探索範囲内から特定することができる。これにより、指定した探索トピックに応じて有効な対策に関する情報を得ることができる。また、探索用ベクトルの探索範囲を限定することにより、リスク低減ベクトルを特定する際の処理負荷を軽減し、処理時間の短縮を図ることができるというメリットも有する。
 なお、上記第2の実施形態では、探索トピックをユーザが指定する例について説明したが、本発明はこれに限定されない。例えば、図9に示すように、探索トピック指定部15に代えて探索トピック特定部16を備えるようにしてもよい。探索トピック特定部16は、解析対象データを解析することによって探索トピックを特定する。例えば、解析対象データが文書データである場合、探索トピック特定部16は、文書データ内に含まれる単語を解析し、多く含まれる単語がどの探索トピックに該当するものであるかによって、文書データに対応する探索トピックを特定する。なお、単語と探索トピックとをあらかじめ関連付けたテーブル情報などを用意し、探索トピック特定部16はこのテーブル情報を参照することによって、文書データに対応する探索トピックを特定する。
 なお、ここに示した解析内容は一例であり、これに限定されるものではない。例えば、トピックが既知である複数の文書データまたはこれから算出される特徴ベクトルを教師データとして用いた機械学習によってトピック予測モデルを生成しておき、解析対象の文書データまたはこれから算出される特徴ベクトルをこのトピック予測モデルに入力することにより、探索トピックの特定を行うようにしてもよい。
 リスク低減ベクトル特定部13’は、探索トピック特定部16により特定された探索トピックと、特徴ベクトル算出部11により算出された特徴ベクトルとを、対策予測モデル記憶部23に記憶された学習済みの対策予測モデルに入力することにより、探索範囲を特定する。そして、特定した探索範囲に含まれる探索用ベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとを用いて、第1の実施形態で説明したリスク低減ベクトル特定部13と同様の処理によってリスク低減ベクトルを特定する。
 このように構成した場合、解析対象データから特徴ベクトル算出部11およびリスク予測部12により算出されたリスクレベルが所定値以上となって疾病罹患のリスクがあると予測された場合において、その解析対象データ自体から特定されるトピックについてリスク低減ベクトルを算出し、当該リスク低減ベクトルをもとに対策に関する情報を得ることができる。このため、特定のトピックに関連する解析対象データから予測されたリスクに対して、当該特定のトピックに関連する対策に関する情報を得ることができるため、リスクに対して親和性の高い、有効な対策情報を得ることができる。
 なお、リスク低減ベクトル特定部13’は、探索トピック特定部16により特定された探索トピックとは異なる探索トピックを学習済みの対策予測モデルに入力するようにしてもよい。このように構成した場合、解析対象データ自体から特定されるトピックとは異なるトピックについてリスク低減ベクトルを算出し、当該リスク低減ベクトルをもとに対策に関する情報を得ることができる。このため、特定のトピックに関連する解析対象データから予測されたリスクに対して、当該特定のトピック以外のトピックに関連する対策に関する情報を得ることができるため、既存の知見や経験則などから人間の判断では得にくい新たな対策情報を得ることが期待できる。
 また、上記第2の実施形態では、探索トピック指定部15により指定された探索トピックまたは探索トピック特定部16により特定された探索トピックについて特定される探索範囲の探索用ベクトルのみを用いてリスク低減ベクトルを算出するようにしたが、本発明はこれに限定されない。すなわち、探索トピックの指定および特定はせずに、複数の探索トピックに関連する探索範囲の探索用ベクトルを用いてリスク低減ベクトルを算出するようにしてもよい。
 一例として、リスク低減ベクトル特定部13’は、複数の探索トピックごとに対策予測モデルにより特定される探索範囲に含まれる探索用ベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとを用いて、複数の探索トピックごとに探索を行う。そして、複数の探索トピックについてそれぞれ探索された探索用ベクトルを重み付け加算したベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する。
 これを図8の例で説明する。ここでは、探索用ベクトルVs1~Vs3は、複数の探索トピック(活動量、食生活、生活習慣)ごとに特定される探索範囲の中から、リスクレベルを低減することができるものとして探索された結果のベクトルであるものとする。リスク低減ベクトル特定部13’は、これらの探索用ベクトルVs1~Vs3を重み付け加算し、その加算結果のベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルVfとを加算することによってリスク低減ベクトルVr-を特定する。
 ここで、各探索用ベクトルVs1~Vs3に対する重み付けをどのようにして行うかについては、任意に定めることが可能である。例えば、特徴ベクトルVfと探索用ベクトルVs1~Vs3との内積値をそれぞれ算出し、その内積値を利用して重みを設定する。この場合、各探索用ベクトルVs1~Vs3に対する重みをw1,w2,w3とすると、リスク低減ベクトルVr-は次に示す演算により算出することが可能である。
 w1=exp(Vf,Vs1)/{exp(Vf,Vs1)+exp(Vf,Vs2)+exp(Vf,Vs3)}
 w2=exp(Vf,Vs2)/{exp(Vf,Vs1)+exp(Vf,Vs2)+exp(Vf,Vs3)}
 w3=exp(Vf,Vs3)/{exp(Vf,Vs1)+exp(Vf,Vs2)+exp(Vf,Vs3)}
 Vr-=Vf+{(w1・Vs1)+(w2・Vs2)+(w3・Vs3)}
 なお、ここでは各探索用ベクトルVs1~Vs3を重み付け加算する例を示したが、各リスク低減ベクトルVr-1~Vr-3を重み付け加算するようにしてもよい。これを図8の例で説明すると、リスク低減ベクトル特定部13’は、3つの探索用ベクトルVs1~Vs3と特徴ベクトルVfとをそれぞれ加算することによって3つのリスク低減ベクトルVr-1~Vr-3を算出し、これらのリスク低減ベクトルVr-1~Vr-3を重み付け加算することにより、リスク低減ベクトルVr-を特定する。
 この場合における演算は次の通りである。
 Vr-1=Vf+Vs1
 Vr-2=Vf+Vs2
 Vr-3=Vf+Vs3
 Vr-=(w1・Vr-1)+(w2・Vr-2)+(w3・Vr-3)
 なお、リスク低減ベクトルVr-1~Vr-3を用いることに代えて、以下に示すリスク低減ベクトルVr-1’~Vr-3’を用いるようにしてもよい。
  Vr-1’=Vf+(1-T)*Vs1 (Tは0≦T≦1の任意の値)
  Vr-2’=Vf+(1-T)*Vs2 (Tは0≦T≦1の任意の値)
  Vr-3’=Vf+(1-T)*Vs3 (Tは0≦T≦1の任意の値)
 また、上記第2の実施形態において、リスク低減ベクトル特定部13’は、特定の探索トピックが入力された場合(探索トピック指定部15により探索トピックが指定された場合、または探索トピック特定部16により探索トピックが特定された場合)には、当該入力された探索トピックを学習済みの対策予測モデルに入力して特定される探索範囲に含まれる探索用ベクトルのみを用いてリスク低減ベクトルを特定する一方、特定の探索トピックが入力されていない場合には、複数の探索トピックごとに特定される探索範囲に含まれる探索用ベクトルを用いた重み付け加算によってリスク低減ベクトルを特定するようにしてもよい。
 また、上記第2の実施形態において、所定の予測トピック(探索トピック指定部15と同様にユーザにより指定されるもの、探索トピック特定部16と同様に解析対象データの解析により特定されるものの何れでもよい)をリスク予測部12に入力し、予測トピックを考慮してリスクレベルの予測を行うようにしてもよい。図10は、この場合の構成例を示す図である。
 図10(a)において、予測トピック指定部17は、ユーザからの予測トピックに関する指定を受け付けて、予測トピックを指定する。そして、指定した予測トピックをリスク予測部12’に供給する。また、図10(b)において、予測トピック特定部18は、解析対象データを解析することによって予測トピックを特定する。そして、特定した予測トピックをリスク予測部12’に供給する。
 リスク予測部12’は、特徴ベクトル算出部11により算出された特徴ベクトルと、予測トピック指定部17により指定された予測トピックまたは予測トピック特定部18により特定された予測トピックとを、リスク予測モデル記憶部21’に記憶された学習済みのリスク予測モデルに入力し、予測対象物に関して予測トピックに応じたリスクレベルを予測する。リスク予測モデル記憶部21’に記憶されるリスク予測モデルは、特徴ベクトルと予測トピックとが入力された際に、予測対象物に関して特徴ベクトルおよび予測トピックに応じたリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている。
 なお、リスク予測部12’に入力する予測トピックと、リスク低減ベクトル特定部13’に入力する探索トピックとを同じものとすることにより、予測されるリスクと、そのリスクについて予測される対策に関する情報とが特定のトピックについて関連付けられたものとなるので、より有効な対策情報を得ることができる可能性が高まる。
 上記第1および第2の実施形態では、m×n個の類似性指標値のうち、1つの文章d(i=1,2,・・・,m)についてn個の類似性指標値dw(j=1,2,・・・,n)から成る文章指標値群を特徴ベクトルVfとして特定する例について説明したが、本発明はこれに限定されない。例えば、1つの単語w(j=1,2,・・・,n)についてm個の類似性指標値dw(i=1,2,・・・,m)から成る単語指標値群を特徴ベクトルVfとして特定するようにしてもよい。
 また、上記第1および第2の実施形態では、対策情報生成部14がリスクに対する対策に関する情報を生成する際に、そのリスクに関連する内容を有する解析対象データ(特徴ベクトルと共に解析対象データ記憶部22にあらかじめ記憶されている)を用いる例について説明した。例えば、特定の病気にかかる可能性に係る疾病罹患リスクへの対策に関する情報を生成する際に、患者の電子カルテやインシデントレポートなどの文書データを用いて対策に関する情報を生成することとした。この場合における電子カルテ等は、予測した特定の病気とはいっけん無関係と思われる内容の電子カルテ等であってもよい。また、電子カルテ等の医療に関する文書データとは異なる種類の文書データを用いるようにしてもよい。このようにすれば、既存の知見や経験則などから人間の判断では得ることが難しい、固定観念や制約などに捕らわれない新たな有効な対策情報を得ることが期待できる。
 その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
 11 特徴ベクトル算出部
 12 リスク予測部
 13,13’ リスク低減ベクトル特定部
 14 対策情報生成部
 15 探索トピック指定部
 16 探索トピック特定部
 17 予測トピック指定部
 18 予測トピック特定部
 21 リスク予測モデル記憶部
 22 解析対象データ記憶部
 23 対策予測モデル記憶部

Claims (11)

  1.  解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する特徴ベクトル算出部と、
     上記特徴ベクトル算出部により算出された特徴ベクトルを、学習済みのリスク予測モデルに入力し、予測対象物に関するリスクレベルを予測するリスク予測部と、
     上記特徴ベクトル算出部により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記特徴ベクトルを上記リスク予測モデルに入力した場合に得られるリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定部と、
     複数の上記解析対象データについて上記特徴ベクトル算出部により算出される複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一または近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報を生成する対策情報生成部とを備え、
     上記リスク予測モデルは、上記特徴ベクトルが入力された際に上記予測対象物に関するリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている
    ことを特徴とするリスク対策解析システム。
  2.  上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと探索トピックとを学習済みの対策予測モデルに入力し、上記特徴ベクトルと上記探索トピックとに基づき特定される探索範囲に含まれる上記探索用ベクトルを用いて上記リスク低減ベクトルの探索を行い、
     上記対策予測モデルは、上記探索トピックと上記特徴ベクトルとが入力された際にそれらに応じた探索範囲を出力するように、教師データを用いた機械学習処理により生成されている
    ことを特徴とする請求項1に記載のリスク対策解析システム。
  3.  ユーザからの上記探索トピックに関する指定を受け付ける探索トピック指定部を更に備え、
     上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと、上記探索トピック指定部により受け付けられた探索トピックとを上記学習済みの対策予測モデルに入力する
    ことを特徴とする請求項2に記載のリスク対策解析システム。
  4.  上記解析対象データを解析することによって上記探索トピックを特定する探索トピック特定部を更に備え、
     上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと、上記探索トピック特定部により特定された探索トピックとを上記学習済みの対策予測モデルに入力する
    ことを特徴とする請求項2に記載のリスク対策解析システム。
  5.  上記解析対象データを解析することによって上記探索トピックを特定する探索トピック特定部を更に備え、
     上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと、上記探索トピック特定部により特定された探索トピックとは異なる探索トピックとを上記学習済みの対策予測モデルに入力する
    ことを特徴とする請求項2に記載のリスク対策解析システム。
  6.  上記リスク低減ベクトル特定部は、複数の探索トピックごとに上記対策予測モデルにより特定される探索範囲に含まれる上記探索用ベクトルと、上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて、上記複数の探索トピックごとに探索を行い、上記複数の探索トピックについてそれぞれ探索された探索用ベクトルと、上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて、所定の重み付け加算を行うことによって算出されるベクトルをリスク低減ベクトルとして特定する
    ことを特徴とする請求項2に記載のリスク対策解析システム。
  7.  上記リスク低減ベクトル特定部は、
     特定の探索トピックが入力された場合、当該入力された探索トピックと上記特徴ベクトル算出部により算出された特徴ベクトルとを学習済みの対策予測モデルに入力し、上記対策予測モデルにより特定される探索範囲に含まれる上記探索用ベクトルと上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて上記リスク低減ベクトルを特定し、
     上記特定の探索トピックが入力されていない場合、上記複数の探索トピックごとに上記対策予測モデルにより特定される探索範囲に含まれる上記探索用ベクトルと、上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて、上記複数の探索トピックごとに探索を行い、上記複数の探索トピックについてそれぞれ探索された探索用ベクトルと、上記特徴ベクトルとに基づいて演算されるベクトルとを用いて所定の重み付け加算を行うことによってリスク低減ベクトルを特定する
    ことを特徴とする請求項6に記載のリスク対策解析システム。
  8.  上記リスク予測部は、上記特徴ベクトル算出部により算出された特徴ベクトルと予測トピックとを学習済みのリスク予測モデルに入力し、上記予測対象物に関して上記予測トピックに応じたリスクレベルを予測し、
     上記リスク予測モデルは、上記特徴ベクトルと上記予測トピックとが入力された際にそれらに応じたリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている
    ことを特徴とする請求項2に記載のリスク対策解析システム。
  9.  解析対象データを解析することによって得られる解析対象の特徴を表す特徴ベクトルを入力して予測対象物に関するリスクレベルを出力するように学習済みのリスク予測モデルに適用された特徴ベクトル、および、リスク予測モデルから出力されたリスクレベルを取得するリスク情報取得部と、
     上記リスク情報取得部により取得された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記リスク情報取得部により取得されたリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定部と、
     複数の上記解析対象データを解析することによって得られる複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一または近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報を生成する対策情報生成部とを備えた
    ことを特徴とするリスク対策解析システム。
  10.  予測対象物について起こり得るリスクとそれに対する対策とをコンピュータによって解析する方法であって、
     上記コンピュータの特徴ベクトル算出部が、解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する第1のステップと、
     上記コンピュータのリスク予測部が、上記特徴ベクトル算出部により算出された特徴ベクトルを、上記特徴ベクトルが入力された際に上記予測対象物に関するリスクレベルを出力するように教師データを用いて機械学習済みのリスク予測モデルに入力し、上記予測対象物に関するリスクレベルを予測する第2のステップと、
     上記コンピュータのリスク低減ベクトル特定部が、上記特徴ベクトル算出部により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記特徴ベクトルを上記リスク予測モデルに入力した場合に得られるリスクレベルよりも小さくという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する第3のステップと、
     上記コンピュータの対策情報生成部が、複数の上記解析対象データについて上記特徴ベクトル算出部により算出される複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一または近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報を生成する第4のステップとを有することを特徴とするリスク対策解析方法。
  11.  予測対象物について起こり得るリスクとそれに対する対策とを解析するようにコンピュータを機能させるためのプログラムであって、
     解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する特徴ベクトル算出手段、
     上記特徴ベクトル算出手段により算出された特徴ベクトルを、上記特徴ベクトルが入力された際に上記予測対象物に関するリスクレベルを出力するように教師データを用いて機械学習済みのリスク予測モデルに入力し、上記予測対象物に関するリスクレベルを予測するリスク予測手段、
     上記特徴ベクトル算出手段により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記特徴ベクトルを上記リスク予測モデルに入力した場合に得られるリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定手段、および
     複数の上記解析対象データについて上記特徴ベクトル算出手段により算出される複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一または近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、上記リスク予測手段により予測されたリスクに対する対策に関する情報を生成する対策情報生成手段、
    として上記コンピュータを機能させるためのリスク対策解析用プログラム。
PCT/JP2020/003945 2019-04-09 2020-02-03 リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム WO2020208912A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-073961 2019-04-09
JP2019073961A JP7010267B2 (ja) 2019-04-09 2019-04-09 リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム

Publications (1)

Publication Number Publication Date
WO2020208912A1 true WO2020208912A1 (ja) 2020-10-15

Family

ID=72750561

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003945 WO2020208912A1 (ja) 2019-04-09 2020-02-03 リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム

Country Status (2)

Country Link
JP (1) JP7010267B2 (ja)
WO (1) WO2020208912A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022250143A1 (ja) * 2021-05-28 2022-12-01 国立研究開発法人理化学研究所 疾病リスク評価方法、疾病リスク評価システム、及び健康情報処理装置
JP7333549B2 (ja) * 2021-05-28 2023-08-25 国立研究開発法人理化学研究所 疾病リスク評価方法、疾病リスク評価システム、及び健康情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508859A (ja) * 2009-10-19 2013-03-07 セラノス, インコーポレイテッド 統合型の保健データ取得および分析システム
WO2016035336A1 (ja) * 2014-09-03 2016-03-10 日本電気株式会社 休職予測システム、予測ルール学習装置、予測装置、休職予測方法及びコンピュータ読み取り可能記録媒体
JP2018019611A (ja) * 2016-08-01 2018-02-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America ペット向けリード型バイタル計測装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508859A (ja) * 2009-10-19 2013-03-07 セラノス, インコーポレイテッド 統合型の保健データ取得および分析システム
WO2016035336A1 (ja) * 2014-09-03 2016-03-10 日本電気株式会社 休職予測システム、予測ルール学習装置、予測装置、休職予測方法及びコンピュータ読み取り可能記録媒体
JP2018019611A (ja) * 2016-08-01 2018-02-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America ペット向けリード型バイタル計測装置

Also Published As

Publication number Publication date
JP7010267B2 (ja) 2022-01-26
JP2020173525A (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
Shamout et al. Machine learning for clinical outcome prediction
US10430690B1 (en) Machine learning predictive labeling system
US10354204B2 (en) Machine learning predictive labeling system
Cherkassky et al. Learning from data: concepts, theory, and methods
Sulieman et al. Classifying patient portal messages using Convolutional Neural Networks
Al Banna et al. Attention-based bi-directional long-short term memory network for earthquake prediction
JP6962532B1 (ja) 事象予測装置および事象予測用プログラム
US20230059494A1 (en) Semantic map generation from natural-language text documents
Srinivas et al. Survey on prediction of heart morbidity using data mining techniques
US11379685B2 (en) Machine learning classification system
JP2020042659A (ja) 認知症予測装置、予測モデル生成装置および認知症予測用プログラム
Rijcken et al. Topic modeling for interpretable text classification from EHRs
WO2020208912A1 (ja) リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム
Kaswan et al. AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data
CN112562863A (zh) 流行病监测预警方法、装置、电子设备
Tao et al. Can online consumer reviews signal restaurant closure: A deep learning-based time-series analysis
Liu et al. Age inference using a hierarchical attention neural network
Sahlaoui et al. A review on simulation-based metamodeling in emergency healthcare: methodology, applications, and future challenges
US10872277B1 (en) Distributed classification system
Qin et al. An improved method to determine basic probability assignment with interval number and its application in classification
EP3499386A1 (en) Apparatus, program, and method for storing and processing graph data
Soriano et al. DNER Clinical (named entity recognition) from free clinical text to Snomed-CT concept
Rafatirad et al. Machine learning for computer scientists and data analysts
Katamoura et al. Implication of Data Mining in Healthcare Field
Püschel et al. Comparison of Discrete Choice and Machine Learning Models for Simultaneous Modeling of Mobility Tool Ownership in Agent-Based Travel Demand Models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20786690

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20786690

Country of ref document: EP

Kind code of ref document: A1