WO2022190386A1 - 推論用学習装置および推論用学習方法 - Google Patents

推論用学習装置および推論用学習方法 Download PDF

Info

Publication number
WO2022190386A1
WO2022190386A1 PCT/JP2021/010204 JP2021010204W WO2022190386A1 WO 2022190386 A1 WO2022190386 A1 WO 2022190386A1 JP 2021010204 W JP2021010204 W JP 2021010204W WO 2022190386 A1 WO2022190386 A1 WO 2022190386A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data
inference
acquisition device
image acquisition
Prior art date
Application number
PCT/JP2021/010204
Other languages
English (en)
French (fr)
Inventor
浩一 新谷
憲 谷
学 市川
健世 伊藤
智子 後町
修 野中
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to CN202180003949.5A priority Critical patent/CN115428011A/zh
Priority to PCT/JP2021/010204 priority patent/WO2022190386A1/ja
Publication of WO2022190386A1 publication Critical patent/WO2022190386A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an inference learning device and an inference learning method that collect data from users and generate an inference model using this data.
  • Machine learning such as deep learning creates training data and uses this training data.
  • the creation of training data requires manpower, which incurs a large cost. Therefore, a method for collecting high-quality training data at low cost has been proposed.
  • a first feature vector is used from reference data related to a specific field to generate search conditions for collecting data related to the specific field. Then, data is collected using this search condition, a second feature vector of the collected data is calculated, and if the similarity between the first feature vector and the second feature vector is within a predetermined range, the search condition is used to extract the collected data as training data.
  • Patent Document 1 According to the data collection method described in Patent Document 1, it is possible to collect teacher data at low cost.
  • the data collection method of Patent Document 1 is premised on collecting data in a specific field.
  • inference models generated using training data are not limited to data in a specific field (specific category) assumed in advance, but the range of application expands to unknown categories (unknown fields), and inference must be performed. sometimes it doesn't work.
  • the present invention has been made in view of such circumstances. It is an object of the present invention to provide an inference learning device and an inference learning method capable of making an appropriate inference even if the inference is correct.
  • an inference learning device uses an input unit for inputting image data from the first image acquisition device, and teacher data obtained by annotating the image data.
  • a learning unit that obtains an inference model by learning, in a learning device for inference, when re-learning the inference model for a second image acquisition device having image input characteristics different from those of the first image acquisition device and an image processing unit that processes the image data obtained from the first image acquisition device according to the difference in the image input characteristics to obtain the teacher data.
  • An inference learning device is the inference learning device according to the first invention, wherein the image processing unit converts the first object image data included in the image data obtained from the first image acquisition device into the The second object image data included in the image data obtained from the second image acquisition device is processed so as to match the second object image data.
  • a learning device for inference according to a third invention is the inference learning device according to the first invention, wherein the image input characteristics include at least specifications and performance of an imaging sensor, optical characteristics for imaging, image processing specifications and performance, and types of illumination light. Due to one difference.
  • a learning device for inference according to a fourth aspect is the inference learning device according to the first aspect, wherein the image processing unit converts the image data obtained from the first image acquisition device out of the teacher data according to the difference in the image input characteristics. Change the annotation to the same image so that it becomes the teacher data
  • An inference learning device according to a fifth aspect is the inference learning device according to the first aspect, wherein the image data obtained from the first image acquisition device is existing teacher data, and the image processing unit Image processing is performed on the existing teacher data according to the characteristics of the image data from the image acquisition device.
  • An inference learning device is the inference learning device according to the first aspect, wherein the image data obtained from the first image acquisition device is existing teacher data, and the image processing unit Selection of the existing teacher data is performed according to the characteristics of the image data from the image acquisition device.
  • An inference learning device is the inference learning device according to the fifth aspect, wherein the image processing unit converts the image data obtained from the first image obtaining device out of the teacher data to the second image obtaining device. are processed to match the image data from
  • An inference learning device is the image data from the second image acquisition device in the first invention, which belongs to the unknown category.
  • whether or not it belongs to the unknown category is automatically determined by artificial intelligence, or the user of the second image acquisition device manually determines whether it belongs to the unknown category. to set.
  • whether or not it belongs to the unknown category is determined by the model information of the second image acquisition device and/or the second image acquisition device. Judgment is made based on an image presumed to be the reference image from among the image data from the device.
  • An inference learning device is the inference model in the first aspect, wherein the image data obtained from the first image acquisition device is existing teacher data, and the image processing unit is used for the inference model. are different, image processing is performed on the existing teacher data or selection of the existing teacher data is performed according to the application.
  • An inference learning device is the inference learning device according to any one of the first to eleventh inventions, wherein the image data from the first image acquisition device and the image data from the second image acquisition device are endoscopic This is mirror image data.
  • a learning method for inference according to a thirteenth invention inputs image data from a first image acquisition device, and creates an inference model for a second image acquisition device having characteristics different from those of the first image acquisition device.
  • the image data obtained from the first image acquisition device among the teacher data is processed to become teacher data, and an inference model is obtained by learning using the teacher data obtained by annotating the image data.
  • An inference learning device obtains an inference model by learning using an input unit for inputting image data from a first image acquisition device and teacher data obtained by annotating the image data. and a learning unit, when customizing the inference model for a second image acquisition device that is used under different conditions from the first image acquisition device, the first image acquisition an image processing unit that processes image data obtained from the apparatus, including selection or annotation according to differences in image acquisition characteristics, to obtain the above-mentioned teacher data.
  • a learning method for inference according to a fifteenth invention inputs image data from a first image acquisition device, and for a second image acquisition device used under conditions different from those of the first image acquisition device, When customizing the inference model, the image data obtained from the first image acquisition device is processed, including selection or annotation, according to the difference in image acquisition characteristics to be the teacher data, and the image data.
  • An inference model is obtained by learning using teacher data obtained by annotating .
  • a learning device for inference and a learning method for inference can be provided.
  • FIG. 1 is a block diagram mainly showing an electrical configuration of a learning inference device according to an embodiment of the present invention
  • FIG. FIG. 10 is a diagram showing an example of displaying a guide using an inference model in the learning inference device according to the embodiment of the present invention
  • 4 is a flow chart showing the operation of inference model generation in the learning inference device according to one embodiment of the present invention.
  • 4 is a flow chart showing the operation of an imaging device that cooperates with an inference learning device according to an embodiment of the present invention.
  • 4 is a flow chart showing the operation of generating a corrected inference model in the learning inference device according to one embodiment of the present invention.
  • FIG. 10 is a diagram showing an example of displaying a guide using an inference model in the learning inference device according to the embodiment of the present invention
  • 4 is a flow chart showing the operation of inference model generation in the learning inference device according to one embodiment of the present invention.
  • 4 is a flow chart showing the operation of an imaging device that cooperates with
  • 10 is a diagram illustrating a case where different image data is input to the inference device for learning according to the embodiment of the present invention
  • 5 is a flow chart showing the operation of determining whether AI correction is necessary in the learning inference device according to one embodiment of the present invention.
  • An inference learning device collects image data and creates teacher data by annotating this image data.
  • An inference model is generated using this mother set of teacher data. For example, if the mother set of training data used to generate this inference data uses high-quality image data, when low-quality image data is input to this inference model, the reliability of the High inference may not be possible. It is also assumed that a highly skilled person (expert) generates an inference model for guide display based on image data acquired using an image acquisition device. In this case, when an unskilled person (low-skilled person) uses the image acquisition device and tries to obtain an operation guide display based on inference from this inference model, there is a risk that an appropriate guide display will not be provided.
  • an inference model is generated for inference by inputting data of an unknown category that is different from the time of generating the inference model that has already been proven, such as a different device used or a different skill of the user. In that case, the existing training data accumulated so far is processed to match the characteristics of the data of the unknown category to generate an inference model.
  • the term “category” refers to an inference model that acquires image data and makes inferences to detect a specific object in the image.
  • Image data acquired from an image acquisition device is treated as an unknown category because even if similar images are acquired, the quality of the image differs. Furthermore, there are cases where the objects captured in the captured images are different, and there are cases where the objects to be found are different. It can be said that the data has become an unknown category that is different from assumptions because the manner in which images change differs depending on the person or machine that performs the treatment.
  • the above-mentioned data processing may affect image processing, annotation correction processing, data selection, and inference model specifications.
  • the reason why the inference model specification is described is that the expected inference results may be different between an expert and a non-expert in consideration of the level of proficiency and the like. However, even in such a case, by using the technique of the present embodiment, it is possible to easily divert the valuable training data used in generating an inference model, which has a proven track record in the past.
  • processing the data includes image processing of the existing teacher data.
  • Image processing includes, for example, increasing or decreasing the number of pixels, changing the brightness (luminance value), changing the wavelength (color signal), changing the angle of view, and the like.
  • data processing includes selection of teacher data to be included in the mother set from existing teacher data. That is, inappropriate image data may be eliminated, and new image data may be selected and added.
  • the teacher data also includes test data for judging the performance of the inference model. Although this test data is effective when generating an existing inference model, it may be used in addition to the test data when generating an inference model corresponding to an unknown category. Such measures were included in the selection.
  • the training data obtained by the operation of a low-skilled person can be replaced with the training data obtained by the operation of a low-skilled person. may be added.
  • the same surveillance camera images may sometimes be used to identify criminals (facial features are important), and at other times they may be used to identify criminals in crowded situations. (Facial features are not important, and there are cases where it is better not to know facial features from the viewpoint of personal information). As can be seen from this, even for the same image depending on the intended use, the quality, specifications, and handling required of the training data may change depending on the inference required. Similarly, in the case of medical images, there are cases in which images are handled differently between preventing overlooked lesions and rigorous diagnosis.
  • the input data would be data of an unknown category, resulting in different teacher data. It requires handling and different learning.
  • the target of the inference model may be considered.
  • the affected area where cancer occurs and the type of cancer differ depending on differences in profiles such as region, race, sex, and age.
  • the teacher data used to generate the inference model may also be processed by appropriately changing the existing teacher data in consideration of the use of the inference model.
  • the image inference learning system shown in FIG. 1 is composed of an image inference learning device 1 and an imaging device 6 .
  • the image inference learning device 1 may be a device such as a stand-alone computer, or may be arranged in a server or the like. If the image inference learning device 1 is a stand-alone computer or the like, the imaging device 6 may be connected by wire or wirelessly. If the image inference learning device 1 is installed in a server or the like, it may be possible to connect to the imaging device 6 via an information communication network such as the Internet.
  • the imaging device 6 may be a device provided in a medical device such as an endoscope for photographing an object to be photographed such as an affected part, or a device provided in a scientific instrument such as a microscope for photographing an object to be photographed such as cells. It may be a device, or a device whose main purpose is to take an image, such as a digital camera. In any case, in the present embodiment, the imaging device 6 may be a device whose main function is an imaging function, or may be a device that also has an imaging function in order to perform other main functions. good too. A case where the imaging device 6 is an endoscope and the image acquisition device outputs endoscopic image data will be mainly described below.
  • An image inference device 2 an image acquisition device 3 , a guide section 5 and a control section 7 are provided in the imaging device 6 .
  • the imaging device 6 shown in FIG. 1 describes an example in which the various devices described above are integrally configured. However, it is of course possible that they are arranged in separate devices and connected via an information communication network such as the Internet or a dedicated communication network.
  • the image inference device 2 may be configured separately from the imaging device 6 and connected via the Internet or the like.
  • an operation unit input interface
  • a communication unit communication circuit
  • a recording unit for example, recording of image data acquired by the image acquisition device 3
  • an information acquisition device etc.
  • Various members, circuits, devices, and the like are provided to allow the device 6 to function.
  • the image acquisition unit 3 has various imaging circuits such as an optical lens, an imaging device, an imaging control circuit, and an imaging signal processing circuit, and acquires and outputs image data of an object.
  • it may have an exposure control member (for example, a shutter and a diaphragm) and an exposure control circuit for imaging, and a lens driving device for focusing the optical lens, a focus detection circuit, and a focus adjustment circuit.
  • the optical lens may be a zoom lens.
  • Image acquisition device 3 is used to refer to either image acquisition device 3a (for example, a reusable endoscope) or image acquisition device 3b (for example, a disposable endoscope).
  • image acquisition device 3 is used differently depending on the region, the facility, or the case (object), and different users.
  • image acquisition device 3 is used differently depending on the region, the facility, or the case (object), and different users.
  • the same guide function can be used effectively in both cases, there is a possibility that systems such as inference models can be shared.
  • the inference model itself including the user interface and required guides, will be customized.
  • the image acquisition device 3 includes either one of the image acquisition device 3a and the image acquisition device 3b. It does not preclude providing both the acquisition device 3a and the image acquisition device 3b. This is because there are cases where multiple devices are used depending on the situation.
  • Image data from the image acquisition device 3a belongs to a known category
  • image data from the image acquisition device 3b belongs to an unknown category.
  • the image data output from the image acquisition device 3a and the image acquisition device 3b have different characteristics. The characteristics include image quality, light source, angle of view, and the like.
  • the image acquisition device 3b may have a smaller number of pixels, or the resolution of the optical lens may be coarser, resulting in a different image quality.
  • the category of the data is unknown.
  • the inference model itself is customized for that category, including the user interface and required guides.
  • the information for determining the above-mentioned difference is, for example, information on the model of each image processing apparatus (In addition, information on peripheral systems such as a light source described later and information on treatment instruments may also be included, or may be used separately).
  • information on peripheral systems such as a light source described later and information on treatment instruments may also be included, or may be used separately.
  • This information may be acquired by having data recorded in a memory built into the device or in a system or the like in the usage environment of the device sent to the image inference learning device 1, or may be obtained manually by the user. You can use what you entered.
  • the model information symbols, numerical values, and the like representing the detection performance and processing performance of the image processing apparatus may be used.
  • the information (data) of the use environment and the information (data) of the object such as the patient may also be acquired by communication from each device and determined, or manually input information may be acquired through communication. and may be used.
  • the teacher data may be sorted out or processed based on the difference in the acquired supplementary data.
  • the expected inference model will change depending on the tools and equipment used, as well as the skills, performance, and constraints of the people and robots that handle them. Therefore, such information can also be acquired from information recorded in the memory, manual input, sensor information, and the like.
  • In addition to acquiring memory information if you analyze the image data itself or the transition of the situation (screen) as a video, you can also determine that it is an unknown category that cannot be handled by the assumed inference model. It is possible.
  • the imaging device 6 has a light source and an object illuminated by this light source is photographed, the obtained image differs depending on the wavelength characteristics and light distribution characteristics of the light source.
  • either of the image acquisition devices 3a and 3b may be capable of observation by narrow band imaging (NBI). In this case, the characteristics of the image acquisition devices 3a and 3b is different.
  • the focal length of the optical system of the image acquisition device 3 is different, the angle of view will be different.
  • the focal length of the optical system of the image acquisition device 3 it is possible to obtain a narrow-angle but magnified image of the object.
  • a short focal length lens it is possible to obtain a wide-angle image in which the object is reduced.
  • the optical system is a zoom lens, the image will vary greatly depending on the set focal length.
  • the image acquisition device 3a may also have a distance (distribution) detection function 3D (3Daa). With this 3D, the image acquisition device 3a and the image acquisition device 3b have different characteristics in this respect. 3D etc. 3aa captures a three-dimensional image of an object and acquires three-dimensional image data, etc., but besides the three-dimensional image, reflected light, ultrasonic waves, etc. may be acquired to obtain depth information. . Three-dimensional image data can be used when detecting the position of an object in space, such as the depth of the object from the imaging device 3 .
  • the imaging device 6 is an endoscope
  • the doctor inserts the endoscope into the body and operates it
  • the imaging unit is 3D
  • the positional relationship between the part in the body and the treatment instrument can be determined.
  • the three-dimensional shape of the part can be grasped, and three-dimensional display becomes possible. Further, it is possible to calculate depth information from the relationship between the size of the background and the objects in the foreground without obtaining the depth information strictly.
  • Data such as image data acquired by the image acquisition device 3 (the image acquisition device 3a or the image acquisition device 3b) and set as the training data candidate group are stored in the recording unit 4 in the image inference learning device 1. , and recorded as teacher data A group 4a.
  • a memory may be provided in the imaging device 6 to store the image data and the like acquired by the image acquisition device 3 .
  • An information acquisition device may be arranged in the image acquisition device 3.
  • the information acquisition device is connected to not only image data but also information related to an object, for example, an electronic medical record, and obtains information related to the patient and information related to equipment used for diagnosis and treatment from the electronic medical record. good too.
  • the information acquisition device obtains information such as the patient's name, sex, etc., and the part of the body into which the endoscope is inserted.
  • the information acquisition device may acquire voice data during diagnosis and treatment, and may acquire medical data such as body temperature data, blood pressure data, heartbeat data, and the like. Also good. These data may also be output to the image inference learning device 1 .
  • the image inference device 2 inputs the image data acquired by the image acquisition device 3, performs inference using the inference model generated by the image inference learning device 1, and guides to the guide unit 5 based on the inference result. Print the display.
  • the image inference device 2 has an image input unit 2IN, an inference change unit 2SL, an inference unit 2AI, and an inference result output unit 2OUT.
  • the term "inference model” may also include what kind of guidance (display or voice) is output to the user.
  • the image input unit 2 IN inputs the image data output by the image acquisition device 3 .
  • These data are time series data consisting of a plurality of frames, and are input to the image input unit 2IN moment by moment.
  • non-image information such as voice and other data obtained by sensors may also be referred to as needed.
  • the image to be input to the input unit may be one frame of continuously obtained images, or a plurality of frames may be collectively handled. If an inference engine that makes inferences in multiple frames is assumed, such learning should be performed.
  • the inference unit 2AI has an inference engine, and sets the inference model generated by the image inference learning device 1 in this inference engine.
  • the inference engine has a neural network, similar to the learning unit 1c, which will be described later, and an inference model is set in this neural network.
  • the inference unit 2AI inputs the image data input by the image input unit 2IN to the input layer of the inference engine, and performs inference in the intermediate layer of the inference engine. This inference result is output to the guide unit 5 by the inference result output unit 2OUT.
  • the inference change unit 2SL changes the inference model used in the inference unit 2AI.
  • the imaging acquisition devices 3A and 3B have different characteristics as described above.
  • the inference unit 2AI expects a function similar to the inference model described above.
  • the control unit 7 requests creation of a corrected inference model suitable for the data output by the image acquisition device 3B.
  • the inference changing unit 2SL causes the inference unit 2AI to change to this corrected inference model.
  • the above-mentioned corrected inference model can be rephrased as learned by corrected teacher data.
  • the data such as image data is the same
  • the processing method processing and correction of training data
  • the selection method by changing the processing method (processing and correction of training data) and the selection method, different specifications and performance inference models (corrected inference models) can be created.
  • the guide unit 5 has a display for display and the like, and displays the image of the object acquired by the image acquisition device 3. Further, a guide display based on the inference result output by the inference result output unit 2OUT is performed.
  • the control unit 7 is a processor having a CPU (Central Processing Unit) 7a, a memory 7b, and peripheral circuits.
  • the control unit 7 controls each device and each unit in the imaging device 6 according to a program stored in the memory 7a.
  • CPU Central Processing Unit
  • the image inference learning device 1 uses the image data acquired by the image acquisition device 3 to perform machine learning (including deep learning) to generate an inference model.
  • the image inference learning device 1 has an image input unit 1 b, a learning unit 1 c, an image processing unit 1 d, a learning result using unit 1 e, a teacher data selection unit 1 f, and a recording unit 4 .
  • the recording unit 4 is an electrically rewritable nonvolatile memory for recording image data output from the image acquisition device 3 in the imaging device 6 and various information data. Various data recorded in the recording unit 4 are output to the image input unit 1b.
  • the recording unit 4 can store a teacher data group A 4a and a teacher data group B 4b. Also, the recording unit 4 may record test data for verifying the ability of the inference model. Even if the test data itself is not recorded, part of the teacher data recorded in the recording unit 4 may be extracted and used as test data.
  • the training data group A 4a is a training data group based on the time-series data acquired by the image acquisition device 3a.
  • the teacher data group B 4b is teacher data created by processing the already recorded teacher data group A 4a when generating an inference model for an unknown category, as will be described later.
  • the recording unit 4 records different teacher data groups when the characteristics of the image acquisition device are different.
  • the recording unit 4 records both the group of training data candidates transmitted from the image acquisition device 3 and the group of training data to which annotations, which will be described later, are added.
  • it is recorded in the recording unit 4 that not only the teacher data selected by the teacher data selection unit 1f, but also the rejected teacher data may be used when creating teacher data for an unknown category. You can keep it.
  • the teacher data group is generated by annotating the time-series data acquired by the image acquisition device 3 (transmitted to the image inference learning device 1 in S35 of FIG. 4 described later) by the control unit 1a. do.
  • FIG. 2 which will be described later, shows a case where bleeding occurs when an endoscope is inserted into the body.
  • the bleeding expands, while in FIG. ing.
  • teacher data can be created by annotating the time-series data ID1 and ID2 how the bleeding has changed.
  • the annotation here can be done automatically or manually as needed. Also, at the time of customization, the results of manual annotation may be considered and reflected automatically.
  • annotation is performed automatically, a manual check may be performed, and depending on the check result, a step may be added to prompt redoing.
  • annotating it may be done by changing "processing and correction of teacher data" and "selection of teacher data". For example, even if the bleeding is the same as shown in Fig. 2, the degree of recovery from the situation after bleeding depends on whether there are treatment tools, personnel, and skills that can respond immediately in the event of bleeding (making it possible to acquire such information). This is because the In other words, even if the teacher data is obtained in a perfect system including skills and instruments, and the image is judged to be annotated as "no bleeding", it will be guided in a system with inferior skills and instruments. When creating an inference guide, it is better to annotate with strict judgment.
  • the result of manual input of skill information, the result of pre-registered recording, or past history may be used as information for customization, or the tendency of acquired images may be used for determination.
  • a photograph taken by a professional photographer and a photograph taken by a beginner can be distinguished not only by the difference in equipment, but also in the composition, exposure, focus, etc., so you can judge the skill based on that. This trend is even more pronounced when it comes to videos, and the way you are used to handling the equipment remains in the images.
  • the learning device for inference in this embodiment includes an input unit for inputting image data from the first image acquisition device, and a learning unit for obtaining an inference model by learning using teacher data obtained by annotating the image data. and, in the image inference learning device having, when customizing learning (or re-customizing learning) of the inference model for a second image acquisition device having image input characteristics different from that of the first image acquisition device, an image processing unit that processes the image data obtained from the first image acquisition device among the training data into training data (including changing annotations) in accordance with the difference in the image acquisition characteristics, and uses the training data as training data; equipped.
  • a knife with a hemostatic function and a knife without that function have different coping results after bleeding, so it is better to incorporate this difference into the inference model.
  • the difference in instrument specifications and performance may be determined based on information input in advance, or may be determined based on the features of the image of the treatment instrument reflected in the imaged results. For example, it is better to distinguish between a treatment image using a treatment tool without a hemostatic function and a treatment image using a treatment tool with a hemostatic function.
  • teacher data can be created in a processed and corrected form.
  • by processing and correcting an image with the hemostatic function it is possible to create an inference model for guiding treatment without the hemostatic function. It is not always easy to collect ideal teaching data because operations and other procedures vary greatly depending on the individual's physical constitution and the affected area. become easier.
  • the image input unit 1b inputs the teacher data group A 4a acquired by the image acquisition device 3a and recorded in the recording unit 4. Annotations are added to the teacher data group 4a input to the image input unit 1b.
  • the input teacher data group A 4a is output to the learning unit 1c and the image processing unit 1d.
  • the learning is not limited to image data, and data other than the image acquired by the image acquisition device 3a may be used.
  • the teacher data group B 4b obtained by processing the teacher data group A 4a is input to the image input unit 1b.
  • the image input unit 1b functions as an input unit (input interface) for inputting image data from the first image acquisition device (see, for example, S1 and S5 in FIG. 3 and S1a and S5a in FIG. 5).
  • the image processing unit 1d processes the teacher data input by the image input unit 1b using an image processing circuit or the like or a program. As described above, the image acquisition device 3a and the image acquisition device 3b have different characteristics. Therefore, when teacher data is generated based on the image data acquired by the image acquisition device 3a and the inference model is generated by the learning unit 1c, even if the inference model is created by the image data acquired by the image acquisition device 3b, , unable to make proper inferences. Therefore, the image processing unit 1d performs image processing on the image data input by the image input unit 1b, and converts the data as if it were the image data acquired by the image acquisition device 3A. The image data processed by the image processing unit 1d is output to the learning unit 1c. Details of image processing will be described later with reference to FIG. 6, and generation of the corrected inference model will be described later with reference to FIG.
  • the image processing unit 1d When re-learning an inference model for a second image acquisition device having characteristics different from those of the first image acquisition device, the image processing unit 1d replaces the image data acquired from the first image acquisition device among the teacher data. are processed into teaching data (for example, S1a to S7a in FIG. 5, see FIG. 6B).
  • teaching data for example, S1a to S7a in FIG. 5, see FIG. 6B.
  • the image processing unit converts the first object image data included in the image data obtained from the first image acquisition device among the teacher data to the second object included in the image data obtained from the second image acquisition device. It is processed so as to match the object image data (for example, S1a to S7a in FIG. 5, see FIG. 6B).
  • the image processing unit changes the annotation to the same image so that the image data obtained from the first image acquisition device among the teacher data becomes teacher data according to the difference in the image input characteristics.
  • the image input device is used with some kind of operation, and the contents of the image and the obtained image may change due to changes in the environment, changes in the target object, and even the tools used together.
  • the image input characteristics have changed, and "processing" is performed according to the difference in the image input characteristics.
  • This "processing" according to the difference in image input characteristics is not only the type of image processing or the method of correction, but also the contents of annotations that are part of the teacher data and the specifications of the learning results using the processed teacher data. It also includes corrections such as trigger timing for inference start regarding the method.
  • the image data obtained from the first image acquisition device is existing teacher data. That is, the recording unit 4 accumulates the training data selected by the training data selection unit 1f.
  • the image processing unit performs image processing on the existing teacher data (for example, the S1a, see S5a). Also, the image processing unit selects existing teacher data according to the characteristics of the image data from the second image acquisition device (see S13 in FIG. 5).
  • the image processing unit processes the image data obtained from the first image acquisition device among the teacher data so as to match the image data from the second image acquisition device (for example, S1a, S5a, S13 in FIG. 5). reference).
  • the image processing unit may image-process the existing teacher data or select the existing teacher data according to the use.
  • the image processing unit processes image data obtained from the first image acquisition device as follows: Alternatively, selection or processing including annotation may be performed according to the difference in image acquisition characteristics, and the training data may be used. For example, when a skilled user generates an inference model using teacher data based on image data acquired by operating the imaging device 6, it is appropriate for the unskilled user to perform operation guidance using this inference model. guide can be difficult.
  • the image processing unit 1d or the image selection unit 1f may eliminate inappropriate image data and newly select and add image data. good too. Since these may be linked, communication may be performed between the image processing section 1d and the image selection section 1f. Further, the image processing unit may process and select image data and teacher data in consideration of usage of the inference model. For example, as an inference model used for cancer diagnosis, image data may be selected or processed in consideration of race, sex, age, and the like.
  • the learning unit 1c determines the reliability of the learning result. However, it can be determined whether or not it is a known correct answer (for example, see S11 in FIGS. 3 and 5).
  • the test data for this purpose may be selected from the recording unit 4, and when acquiring from the outside of the learning device, the image selection unit 1f selects appropriate test data, and if necessary, the image processing unit 1d. may be processed. In order to select test data that can be processed appropriately, it is preferable that the image processing section 1d and the image selection section 1f work together. Since the test data verifies the actual performance of the actual machine used, it is better to select images that were actually acquired by the actual machine. In the case where the image selection unit 1f selects a suitable image and the image processing unit 1d processes it, the appropriate image selected by the image selection unit 1f may be processed.
  • the learning unit 1c has an inference engine similar to the inference unit 2AI, and generates an inference model.
  • the learning unit 1c generates an inference model by machine learning such as deep learning using the image data input by the image input unit 1b or the image data processed by the image processing unit 1d. Deep learning will be described later.
  • the learning unit 1c functions as a learning unit (learning engine) that obtains an inference model by learning using teacher data obtained by annotating image data (for example, see S9 in FIGS. 3 and 5).
  • the teacher data selection unit 1f determines the reliability of the inference model generated by the learning unit 1c, and determines whether or not to adopt it as teacher data based on the determination result. That is, when the reliability is low, it is not adopted as teacher data used in generating the inference model, and only the teacher data when the reliability is high is adopted.
  • the learning unit 1c finally generates an inference model from the teacher data adopted by the teacher data selection unit 1f.
  • the teacher data selected by the teacher data selection unit 1f are recorded as the teacher data group A 4a of the recording unit 4.
  • FIG. In some cases, the teacher data selector 1f may have a memory, and the teacher data employed may be recorded in this memory.
  • the inference model generated by the learning unit 1c is output to the learning result utilization unit 1e.
  • the learning result utilization unit 1e transmits the generated inference model to an inference engine such as the image inference unit 2AI.
  • Deep learning is a multilayer structure of the process of "machine learning” using neural networks.
  • a typical example is a "forward propagation neural network” that sends information from front to back and makes decisions.
  • the simplest forward propagation neural network consists of an input layer composed of N1 neurons, an intermediate layer composed of N2 neurons given by parameters, and N3 neurons corresponding to the number of classes to be discriminated. It suffices if there are three output layers composed of neurons.
  • the neurons of the input layer and the intermediate layer, and the intermediate layer and the output layer are connected by connection weights, respectively, and the intermediate layer and the output layer are added with bias values, so that logic gates can be easily formed.
  • the neural network may have three layers for simple discrimination, but by increasing the number of intermediate layers, it is also possible to learn how to combine multiple feature values in the process of machine learning. In recent years, 9 to 152 layers have become practical from the viewpoint of the time required for learning, judgment accuracy, and energy consumption.
  • a process called “convolution” that compresses the feature amount of an image may be performed, and a “convolution neural network” that operates with minimal processing and is strong in pattern recognition may be used.
  • a "recurrent neural network” fully-connected recurrent neural network
  • which can handle more complicated information and can handle information analysis whose meaning changes depending on the order and order, may be used in which information flows in both directions.
  • NPU neural network processing unit
  • machine learning such as support vector machines and support vector regression.
  • the learning involves calculation of classifier weights, filter coefficients, and offsets, and there is also a method using logistic regression processing. If you want a machine to judge something, you have to teach the machine how to judge.
  • a method of deriving image judgment by machine learning was adopted, but any other method that can derive annotation results from teacher data can be based on rules acquired by humans through empirical rules and heuristics. An adaptive rule-based approach may be used.
  • the control unit 1a is a processor having a CPU (Central Processing Unit) 1aa, a memory 1ab, and peripheral circuits.
  • the control unit 1a controls each unit in the image inference learning device 1 according to a program stored in the memory 1ab. For example, the control unit 1a adds annotations to the image data output by the image acquisition device 3 (see S3 and S7 in FIG. 3, and S3a and S7a in FIG. 5).
  • This endoscope has the imaging device 6 shown in FIG.
  • FIG. 2(a) shows an example in which bleeding BL occurs in the body during endoscopic treatment, and the bleeding expands to become extended bleeding BLL.
  • the image acquisition device 3 of the endoscope constantly collects image data at predetermined time intervals while the doctor is performing treatment. recorded as a group.
  • the annotation is performed by the image inference learning device 1 (see S3 in FIG. 3 and S3a in FIG. 6), but is executed by the imaging device 6, and the annotated teacher data is transferred to the image inference learning device 1. may be sent to
  • FIG. 2(b) shows an example in which bleeding occurred in the body during endoscopic treatment, but the bleeding subsequently decreased.
  • the endoscope image acquisition device 3 constantly collects image data at predetermined time intervals during treatment, and the control unit 1a picks up the image data. It is recorded in the memory in the device 6 as a training data candidate group.
  • the annotation is performed by the image inference learning device 1 (see S7 in FIG. 3 and S7a in FIG. 6), but is executed by the imaging device 6, and the annotated teacher data is transferred to the image inference learning device 1. may be sent to A variety of useful information can be obtained by analyzing successive image acquisitions (moving images) in time series in this manner.
  • trigger information is generated, data is collected prior to the specific timing, and causality is organized. I have to.
  • a variety of useful information can be obtained by analyzing successive image acquisitions (moving images) in time series in this way.
  • a large amount of teacher data can be created and treated as big data.
  • the learning unit 1c generates an inference model using these large amounts of teacher data.
  • the inference model By inputting training data (or training data candidates) based on image data up to -5 sec) into the inference model, it is possible to predict whether the bleeding will expand or shrink. If the prediction (inference) result is bleeding expansion, the guide unit 5 of the imaging device 6 displays a warning display Ga. On the other hand, if the prediction (inference) result is bleeding reduction, a guide Go is displayed to the effect that it is okay to bleed.
  • FIGS. 2(a) and 2(b) Next, the creation of the inference model used in FIGS. 2(a) and 2(b) will be described using the flowchart shown in FIG. This flow is realized by the CPU 1aa of the control unit 1a in the image inference learning device 1 according to the program stored in the memory 1ab.
  • process images during bleeding expansion are collected (S1).
  • the control unit 7 performs image analysis of the image data, and when it is determined that the bleeding is expanding, trigger information is generated (see S27 in FIG. 4). ), and retroactively record the magnified bleeding image (see S29 in FIG. 4). This retroactively recorded image is temporarily recorded in the memory within the imaging device 6 .
  • the control unit 1a of the learning device for image inference 1 collects process images from the imaging device 6 or the like during bleeding expansion, and temporarily stores them in the recording unit 4.
  • FIG. 1a of the learning device for image inference 1 collects process images from the imaging device 6 or the like during bleeding expansion, and temporarily stores them in the recording unit 4.
  • step S1 when a process image of bleeding expansion is collected, "bleeding expansion" is annotated to the image data (S3).
  • the control unit 1a annotates the collected individual image data with "expansion of bleeding", and records the annotated image data in the recording unit 4 as the teacher data group A 4a.
  • the process images during bleeding reduction are acquired (S5).
  • a trigger is generated (see S27 in FIG. 4)
  • the bleeding reduction image is retroactively recorded (see S29 in FIG. 4).
  • This retroactively recorded image is temporarily recorded in the memory within the imaging device 6 .
  • the control section 1a of the learning device for image inference 1 collects the process images during bleeding reduction from the imaging device 6 or the like, and temporarily stores them in the recording section 4.
  • step S5 when the process images at the time of bleeding reduction are collected, "bleeding reduction” is annotated to the image data (S7).
  • the control unit 1a annotates the collected individual image data with "bleeding reduction", and records the annotated image data in the recording unit 4 as the teacher data group A 4a.
  • an inference model (S9).
  • the annotated teacher data generated by the imaging device 6 in steps S3 and S7 is recorded as the teacher data group A 4a, and this teacher data is input to the image input unit 1b.
  • the learning unit 1c in the image inference learning device 1 creates an inference model.
  • This inference model makes it possible to make predictions such as outputting "After XX seconds, bleeding expands" when an image is input.
  • the learning unit 1c determines the reliability based on whether or not the output when the image data for reliability confirmation whose answer is known in advance is input to the inference model is the same as the answer. . If the confidence of the inference model created is low, the proportion of matching answers is low.
  • the inference to predict such treatment should reflect the skill of the treating doctor and the difference in treatment tools.
  • the image data that is intentionally collected when creating an inference model is literally teacher data, so it is easy to collect image data in the process of treatment by an excellent doctor using excellent tools.
  • it is more meaningful to display a guide when a procedure is performed by an unskilled person using an unexpected tool and it is desirable to be able to deal with such an unexpected case.
  • a completely novel treatment tool or the like is put on the market, and in many cases, there are many inexperienced users of such tools at first.
  • the degree of unskilled manipulation varies widely, and in many cases, it may be unexpected. In other words, to put it bluntly, it is desirable to present highly reliable guides even for unskilled procedures using tools that have never been seen before, and the learning system for reasoning in this embodiment can handle such cases. is.
  • the teacher data obtained by annotating the image data from the first image acquisition device for example, the image acquisition device 3a
  • the teacher data obtained by annotating the image data from the first image acquisition device for example, the image acquisition device 3a
  • an inference learning device having a learning unit that learns by using the inference model and obtains an inference model through this learning.
  • the training data collected for the first image acquisition device is effectively used to create an inference model for a second image acquisition device (for example, the image acquisition device 3b) having different characteristics from the first image acquisition device. It is possible.
  • the image processing unit uses the first image acquisition device in the teacher data.
  • the inference model for the second image acquisition device having different image input characteristics may be created while processing the image data obtained from the second image acquisition device according to the difference in the image acquisition characteristics and processing the image data as teacher data.
  • Factors that cause differences in image input characteristics include differences in specifications and performance of imaging sensors, imaging optical characteristics, image processing specifications, performance, and types of illumination light.
  • the above-described image processing unit includes the image data of the first object included in the image data obtained from the first image acquisition device among the teacher data, and the image data of the first object included in the image data obtained from the second image acquisition device.
  • the image data may be processed so as to match the image data of the second object.
  • all the features of the image of a similar object detected by the second image acquisition device are added to the object appearing in the image acquired by the first image acquisition device to create new training data.
  • an image of a horse with stripes is used as a substitute. This only changes the colors and patterns, but other differences such as shape characteristics may be corrected and used.
  • a treatment instrument with a relatively round tip may be selected as training data, It is possible to perform learning using an image whose shape has been changed by correcting the difference in the features of the tip shape.
  • image processing expands the range of applications for objects, it may not always meet the expected specifications (for example, a guide function that matches the skill of the user). Therefore, in this case, it is preferable to perform not only image processing but also selection of teacher data and processing (adjustment or change) of content and method of annotation. Also, the method of displaying the inference result may be modified. Alternatively, the expert is warned at the timing of image acquisition with specific reliability, otherwise, even if the reliability is low, at the timing when the reliability is improved, the warning is issued with safety in mind. Such customization is possible.
  • the inference learning device in this embodiment obtains an inference model by learning using an input unit for inputting image data from the first image acquisition device and teacher data obtained by annotating this image data. and a learning unit, wherein the inference model obtained from the first image acquisition device when re-learning the inference model for a second image acquisition device having image input characteristics different from those of the first image acquisition device
  • It has an image processing unit that processes image data, such as changing the reliability determination level, according to the difference in image input characteristics caused by the user's skill, and uses the image data as the teacher data. Users have different skills depending on camera shake, sluggishness, speed of response to specific scene changes, and the like. Based on this difference in skill, a difference in image input characteristics (or a difference in temporal image data change) occurs.
  • the difference in how image data changes over time is expressed as the difference in image input characteristics in a broader concept.
  • the inference model of the second image acquisition device is used as test data for judging the reliability. Since it is for a model, data from a second image acquisition device may be used.
  • step S11 determines whether the reliability is lower than the predetermined value. If the result of determination in step S11 is that the reliability is lower than the predetermined value, the teacher data is sorted out (S13). If the reliability is low, the reliability may be improved by selecting the teacher data. Therefore, in this step, the teacher data selector 1f removes image data that have no causal relationship. For example, supervised data that does not have a causal relationship between the cause and effect of bleeding expansion/reduction is excluded. In this processing, an inference model for inferring causal relationships may be prepared, and teacher data with low causal relationships may be automatically excluded. Also, the condition of the population of training data may be changed. After selecting the teacher data, the process returns to step S9 to create an inference model again.
  • the inference model is transmitted (S15 ).
  • the teacher data selection unit 1f determines the teacher data candidate used at this time as the teacher data.
  • the learning result utilization unit 1 e transmits the generated inference model to the imaging device 6 .
  • the imaging device 6 receives the inference model, it sets the inference model in the inference unit 2AI.
  • the inference model creation flow ends.
  • the learning device inputs image data from the image acquisition device 3 (S1, S5), annotates this image data to create teacher data (S3, S7), An inference model is obtained by learning using the created teacher data (S9).
  • the image data at timings preceding a specific timing are annotated (S3, S7, S13) and used as teacher data (S11, S13).
  • time is traced back from a specific timing when some event occurred (for example, bleeding increased or decreased), and time-series image data is obtained.
  • the image data is annotated and used as training data candidates.
  • An inference model is generated by performing learning using this teacher data candidate, and when the reliability of the generated inference model increases, the teacher data candidate is used as teacher data.
  • an inference model is generated using data going back from a specific timing when some event occurred. That is, an inference model capable of predicting the future can be generated based on causal events, ie, causal relationships, that correspond to outcomes at specific times.
  • causal events ie, causal relationships
  • this inference model even if there is a small action or phenomenon that the user is unaware of, it is possible to predict the future without overlooking it, and to issue a warning or warning when an accident occurs, for example. can. In addition, even if there is a worry that the user has noticed, if it does not lead to a serious problem, it can be notified to that effect.
  • the image inference learning device 1 in this flow can collect the training data group 4A from many imaging devices 6, it is possible to create training data using an extremely large amount of data and generate a highly reliable inference model. is possible. Moreover, in the present embodiment, when an event occurs, data limited to the range related to the event is collected, so an inference model can be efficiently generated.
  • the image inference learning device 1 collects a group of image data that can be candidates for teacher data from the image pickup device 6, and annotates the image data group, such as expansion of bleeding (S3, S7). reference).
  • the imaging device 6 may perform these annotations to generate a teacher data group, and the learning unit 1c may use this teacher data group to generate an inference model.
  • the step of annotating in the image inference learning device 1 can be omitted.
  • the control unit 1a in the image inference learning device 1 and the control unit 7 in the imaging device 6 cooperate to realize this flow.
  • the operation of the imaging device 6 will be described using the flowchart shown in FIG. This operation is executed by the control unit 7 in the imaging device 6 controlling each device and each unit in the imaging device 6 .
  • the imaging device 6 will be described as an example provided in an endoscope device. Also, in this flow, operations that are generally performed, such as turning the power off and on, are omitted.
  • imaging and display are performed (S21).
  • the image acquisition device 3 acquires image data at predetermined time intervals (determined by the frame rate)
  • display is performed on the guide section 5 based on this image data.
  • the imaging device 6 is provided in the endoscope device
  • an image of the inside of the body acquired by an imaging element provided at the distal end of the endoscope is displayed on the guide section 5 .
  • This display is updated every predetermined time determined by the frame rate.
  • aspects of this guide may vary by user, such as by separating novices from experts according to the techniques described herein. It is also assumed that it will be changed depending on the object and the usage environment.
  • the inference model becomes inappropriate due to reasons such as changes in the equipment used as described above, it is preferable to generate the inference model using the image data from this equipment. However, if the data for this instrument is scarce, an inference model cannot be generated until a significant amount of data has been collected. Therefore, in the present embodiment, a corrected inference model is generated by processing the image data collected so far. A detailed operation for determining whether AI correction is necessary will be described later with reference to FIG.
  • step S25 if it is determined that the AI needs to be modified, then the generation of the corrected inference model is requested and obtained (S25).
  • the imaging device 6 requests the image inference learning device 1 to generate a corrected inference model, and when the inference model is generated, it acquires it.
  • a corrected inference model it is advisable to send information such as the parts that need to be corrected. That is, as described above, in the present embodiment, teacher data that has already been used is processed so as to be applied to a new device or the like, and the processed teacher data is used to generate a corrected inference model. . Detailed operations for generating the corrected inference model will be described later with reference to FIG.
  • step S27 it is determined whether or not it is trigger information (S27). For example, as described with reference to FIGS. 2(a) and 2(b), when an event occurs, for example, when bleeding occurs during treatment and the bleeding expands, the trigger information occurs.
  • the trigger information may be output when the control unit 7 analyzes the image data acquired by the image acquisition device 3 and determines that the bleeding is expanding. Further, this image analysis may be performed by AI using an inference model, or the doctor may manually operate a specific button or the like to output trigger information.
  • step S29 retroactive recording is performed for a predetermined period of time (S29).
  • the image data acquired by the image acquisition device 3 is recorded in the memory for image data storage in the imaging device 6 retroactively for a predetermined period of time.
  • predetermined metadata is attached to the image data during a predetermined time period before a specific timing determined by the generation of trigger information. and temporarily recorded as a training data candidate group. If there is no trigger information, the control section 7 may appropriately delete the image data candidate group. In the examples shown in FIGS.
  • the starting point of retroactive recording may be the point of time when the trigger information is generated, or the point of time further before the time when the trigger information is generated may be the starting point of retroactive recording. It is sufficient to determine the retroactive time appropriately so that the range in which the cause of the causal relationship can be found is included. The timing that causes this varies depending on the reliability, and the longer the retrogression time, the lower the reliability. Such things are also expressed as image processing.
  • step S31 If retroactive recording is performed in step S29, or if the result of determination in step S27 is that there is no trigger information, then image inference is performed (S31).
  • the image data acquired by the image acquisition device 3 is input to the image input unit 2IN of the image inference device 2, and the inference unit 2AI performs inference.
  • the inference result output unit 2OUT outputs the inference result
  • display Ga or display Go is performed based on the inference result as to whether the bleeding will expand or contract.
  • a plurality of image reasoning devices such as the image reasoning device 2a are provided, a plurality of inferences can be performed. For example, predictions other than those for predicting bleeding can be made.
  • the image data but also the doctor's voice at the time of diagnosis or treatment may be used to supplement the inference.
  • the reliability of equipment used for diagnosis or treatment may be inferred, and if the reliability is lower than a predetermined value, a highly reliable equipment may be recommended.
  • the treatment tool used for treatment may become noise (obstructing observation on the screen), the image of the treatment tool portion may be processed by image inference.
  • control unit 7 determines whether or not retroactive recording was performed in step S29. If retroactive recording has been performed, the image data at this time is stored in the memory within the imaging device 6 as a teacher data candidate. As a result of this determination, if retroactive recording has not been performed, the process returns to step S21.
  • step S35 the teacher data candidate is output (S35).
  • the control unit 7 outputs the teacher data candidate group stored in the memory in the imaging device 6 to the image inference learning device 1 .
  • the image inference learning device 1 receives the teacher data candidate group, it records it in the recording unit 4 .
  • step S35 after the teacher data candidates are output, the process returns to step S21.
  • the imaging device 6 determines whether the bleeding has expanded or decreased (see S27 in FIG. 4). However, this determination may be made in the control section 1a of the learning device 1 for image reasoning. That is, the expansion or contraction of bleeding can be determined by changes in the shape and size of the blood color occupying the screen, and can be detected both on a logic basis and by reasoning. Further, the determination of enlargement/reduction may be intentionally changed according to the customization of the teacher data. For beginners, in consideration of safety, the image may be annotated to be enlarged even if it is not enlarged, and may be used as teacher data. Such things are also expressed as image processing.
  • the trigger information in step S27 has been explained as an example of bleeding inside the body when using an endoscope.
  • the present embodiment can be applied to other than bleeding.
  • trigger information is generated when body temperature rises sharply, and body temperature data, weight data, and other data (including image data) up to that point are retroactively recorded.
  • An inference model can be generated by transmitting these data as teacher data to an inference learning device.
  • step S35 a training data candidate group created based on the retroactive record was transmitted to the inference learning device.
  • the training data candidate group may be traced back not only to the image data group recorded in the same device (imaging device 6), but also to traced the detection data of other devices to check the causal relationship. .
  • the imaging device determines whether AI correction is necessary. However, the image inference learning device 1 may determine whether or not the AI needs to be modified. The image processing unit 1d (or the control unit If 1a) is detected, it may be determined that the AI needs to be corrected.
  • the reliability of the "normal” judgment by the currently held AI (or the reliability of the "abnormal” judgment is also possible) it is judged whether the AI needs to be corrected, and the judgment result is fixed. In the case of the following reliability, it may be determined that it is the first time, and the AI may be corrected.
  • causal relationship guided inference in the extremely advanced medical field was used as an example.
  • this embodiment is not limited to the medical field, and may be applied to inference for guidance.
  • Many of the inference models that are often used in practice are used to identify what can be seen in images, and various types of human detection and behavior detection by surveillance cameras and obstacle detection by in-vehicle cameras are of this type of image detection. .
  • the technique of canceling the difference in the form of the input image data to improve the performance of inference, as described using this embodiment is also effective for the detection identification type.
  • an image inference learning device having an input unit for inputting image data from a first image acquisition device and a learning unit for obtaining an inference model by learning using teacher data obtained by annotating the image data
  • the learning device for inference in this embodiment customizes the inference model for the second image acquisition device that is used under different conditions from the first image acquisition device (this may not create a completely different model).
  • image of expecting similar specifications that have already been proven the image data obtained from the first image acquisition device among the training data is selected or discarded according to the difference in image acquisition characteristics. and an image processing unit that processes the data including the annotation to make the training data.
  • the teacher data may be corrected by changing the size of the image of the tumor or enlarging/reducing it. If necessary, the color may be corrected, the similar image portion may be modified, and new training data may be created. If such processing is performed in accordance with the information obtained in the operating environment of the second image acquisition section and with reference to situations that may occur there, the reliability will be further improved.
  • FIG. 6(a) shows a case in which, like FIG. 2(a), bleeding occurs during endoscopic treatment and the bleeding expands.
  • FIG. 6(b) shows a case where the bleeding has expanded as in the case of FIG. 6(a).
  • the imaging device 6 uses an image acquisition device (for example, the image acquisition device 3b) having different characteristics from the image acquisition device 3a. Since the number of pixels of the imaging element of the image acquisition device 3b is small, the image data ID3 that can be acquired is greatly different from the image data ID1. Therefore, even if image data such as shown in FIG. 6B is input to an inference model created by accumulating image data having characteristics equivalent to those of image data ID1, only low-reliability inference can be performed. Moreover, even if an inference model is created using a population set in which image data ID3 is mixed with image data accumulated up to that point, only an inference model with low reliability can be created.
  • the characteristics here are based on the specifications and performance of the image reading device, and are based on the specifications and performance of the objects handled there, peripheral devices such as accessories, and related cooperating devices. These may change depending on the usage environment. It can also be said that the image input characteristics are caused by the specifications and performance of the imaging sensor, the imaging optical characteristics, the image processing specifications and performance, and the difference in the type of illumination light. Of course, these factors may change depending on the user's mode settings, and in such cases, these factors should also be taken into consideration.
  • the image processing unit 1d processes (corrects) the image data that has been used up to that point based on the difference in the image input characteristics, and produces the same image data as in FIG. 6B. level (see S1a and S5a in FIG. 5). Then, the corrected image data is annotated (see S3a and S7a in FIG. 5) to create an inference model (see S9 in FIG. 5). If the teacher data used so far has been processed (corrected) based on the differences in image input characteristics, if there is no need to change the annotation of the teacher data, the image data will not be processed. (correction) only.
  • FIG. 4 This flow is executed when the imaging device 6 requests the image inference learning device 1 to create a corrected inference model in step S25 (see FIG. 4).
  • This flow is realized by the controller 1a of the image inference learning device 1 controlling each part in the image inference learning device 1.
  • FIG. This flow is an example in which the image inference learning device 1 creates a corrected inference model based on an image in which the bleeding is enlarged or reduced.
  • process images during bleeding expansion are collected (S1a). As described with reference to FIG. 2(a), this is the case in which bleeding has expanded during treatment. and correct this image data.
  • the collected image data is processed by the image processing unit so as to have the same level of image data as the image data ID3 (for example, image data output from the image acquisition device 3b) as shown in FIG. 6(b). 1d performs correction.
  • customization request it is desirable to obtain a more reliable inference model by customizing it according to the situation, environment, object, etc., in which the user uses the device.
  • customization request selection of images, image correction, correction of annotations, etc. are performed, and appropriate reconstruction (processing, editing, processing) of teacher data is performed.
  • the image data acquired from the image acquisition device of the first specification is not only the performance, specifications, environment, and peripheral systems of the device, but also the objects handled there, accessories, etc.
  • peripheral devices, treatment instruments, operators, etc. do not often match the image data acquired from the image acquisition apparatus of the second specification.
  • learning is performed using teacher data obtained by annotating image data from the image acquisition device of the first specification, and the inference model obtained by this learning is used as it is for the image acquisition device of the second specification.
  • the inference learning device of the present embodiment customizes an inference model for the second (specification) image acquisition device that has image input characteristics different from those of the first (specification) image acquisition device.
  • the image data obtained from the first image acquisition device among the teacher data is used as the image acquisition characteristics (device performance, specifications, environment, peripheral systems, as well as objects handled there, peripheral devices such as accessories, treatment (including equipment, operator, etc.), and an image processing unit is provided to process the data according to the difference and use it as teacher data.
  • an inference model that can be used even in the image acquisition device of the second specification can be generated.
  • the training data set of the treatment tool with the closest shape is used to geometrically transform the image or partially extend or reduce the image.
  • There is a method of performing non-linear transformation such as , and also transforming the annotation information indicating the treatment tool portion according to the transformation. If the shape of the distal end is pointed in the geometric transformation, the annotation is weighted in the direction in which bleeding is likely to occur, or the weighted determination results in "bleeding".
  • the effect of shape change may be determined by another AI (shape change effect prediction AI) that has learned from training data by shape difference, and a method of reflecting the result may be used or used in combination. .
  • the above-mentioned image processing unit effectively uses the first object image data (which is said to have many proven results) included in the image data obtained from the first image acquisition device among the teacher data as much as possible. Since there are many cases where it is desired to obtain the image data of the second object contained in the image data obtained from the second image acquisition device, not only the performance, specifications, environment, and peripheral systems of the device, but also the object to be handled there , peripheral devices such as accessories, treatment tools, and operators are processed according to image acquisition characteristics.
  • the image processing unit 1d (or in cooperation with the image selection unit 1f) is used when an image sensor with poor detection performance or a treatment tool with poor operability is used, the skill level of the user, the target patient, Depending on the affected area, it is devised to shift to the safe side and issue an early warning, and priority is given to the use and collection of supervised data of similar factors as much as possible.
  • the control unit 1a After acquiring and correcting the image in step S1a, next, the timing of "bleeding expansion” is annotated (S3a).
  • the control unit 1a annotates the image data to the effect that it is “expanded bleeding” and the timing at which the image data was acquired, in order to use it as teacher data.
  • the control unit 1a reselects the image data, changes the weighting, or converts the conventional image data or the processed image data into "bleeding Enlargement” etc. and the timing when the image data was acquired are annotated by customizing. This customization measure may be expressed in terms of machining.
  • a process image during bleeding reduction is acquired (S5a). As described with reference to FIG. 2(b), this is the case in which the bleeding during treatment has decreased. to collect.
  • the collected image data is processed by the image processing unit so as to have the same level of image data as the image data ID3 (for example, image data output from the image acquisition device 3b) as shown in FIG. 6(b). 1d performs correction.
  • step S7a the timing of "bleeding reduction” is annotated.
  • the control unit 1a annotates the image data to the effect that it is "reduction of bleeding” and the timing at which the image data was acquired, in order to use it as a candidate for teaching data.
  • the teacher data to which the image data has been corrected (processed) and annotated may be recorded in the recording unit 4 as the teacher data group B 4b.
  • steps S3a and 7a annotations are added to the image data to create teacher data, and then an inference model is created (S9) in the same way as in FIG.
  • the learning unit 1c creates an inference model using the teacher data annotated in steps S3a and S7a. This inference model makes it possible to predict that, when image data ID3S as shown in FIG.
  • the learning unit 1c inputs reliability confirmation image data for which the answer is known in advance to the inference model, and determines whether the output is the same as the answer. to determine reliability. If the confidence of the inference model created is low, the proportion of matching answers is low.
  • test data is input and it is determined whether the expected inference results are output.
  • This test data is the specification environment and conditions of the image acquisition device of the second specification that actually uses this inference model (not only the performance, specifications, environment, and peripheral systems of the device, but also the objects handled there, peripheral devices such as accessories) , treatment tools, operators, etc.), and here, it is desirable to preferentially use data obtained under the specification environment and conditions of the image acquisition apparatus of the second specification. However, there are many cases where such data are not available immediately.
  • the data obtained from the equipment is processed according to the differences in image acquisition characteristics, including not only the performance, specifications, environment, and peripheral systems of the equipment, but also the objects handled there, peripheral equipment such as accessories, treatment tools, and operators. use. Of course, it is also possible to allow the user to manually input what kind of judgment is desired, and adopt it.
  • step S11 determines whether the reliability is lower than the predetermined value. If the result of determination in step S11 is that the reliability is lower than the predetermined value, the teacher data is sorted out (S13), as in FIG. If the reliability is low, the reliability may be improved by selecting the teacher data. Therefore, in this step, image data that have no causal relationship are removed. After selecting the teacher data, the process returns to step S9 to create an inference model again.
  • the inference model is transmitted (S15), as in FIG.
  • the teacher data selection unit 1f determines the teacher data candidate used in the inference as the teacher data.
  • the learning result utilization unit 1 e transmits the generated inference model to the imaging device 6 .
  • the imaging device 6 receives the inference model, it sets the inference model in the inference unit 2AI.
  • the inference model creation flow ends.
  • step S23 the operation of determining whether AI correction is necessary in step S23 (see FIG. 4) will be described using the flowchart shown in FIG. This flow is executed by the CPU 7a in the imaging device 6 controlling each part in the imaging device 6 according to the program stored in the memory 7b.
  • Model information includes, for example, the number of pixels, frame rate, resolution, focal length information, distance information to an object, and the like.
  • Model information includes, for example, the number of pixels, frame rate, resolution, focal length information, distance information to an object, and the like.
  • the specifications and performance differences of the image acquisition device are exemplified.
  • the purpose is customization according to the situation, environment, object, etc. in which the user uses the device, so in order to obtain a more reliable inference model, It is also possible here to determine whether to grasp the specifications (customization request) or the like. For example, even if the model is the same, it is possible to handle the equipment used in combination, the skill of the user, and the difference in the target object in the same way as this model information based on the results of manual input and information recorded in the recording unit. becomes.
  • step S41 determines whether there is model information of the image acquisition device. If the result of determination in step S41 is that there is model information of the image acquisition device, then a correction method is acquired from the image quality information DB based on the model information, and the correction method is determined (S43).
  • the control unit 7 determines the correction method to be performed in steps S1a and S5a. For example, when the number of pixels of the imaging device is small, the number of pixels of the acquired image data may be multiplied and divided (thinning, padding, etc.) according to the pixel number ratio.
  • processing is also expressed as processing, other ways of handling images as teacher data may also be expressed as processing.
  • a reference scene image is an image obtained by imaging an object in order to determine whether or not characteristics such as image data are different.
  • the image data used to create the current inference model is the same as the image data that has just been input. For this purpose, it is easy to understand if images of the same object are compared. However, since it is generally difficult to photograph exactly the same object, it is sufficient to photograph a similar object.
  • the images that can be acquired when the endoscope is inserted into the esophagus from the oral cavity are generally the same images even if the device or subject is different. Just do it.
  • an endoscope there are cases where the blue sky is used as a standard for camera know-how, and in addition to white charts and gray charts, there are also standard charts for performance determination. Even if you do not prepare a special chart, if you take an image of a standardized or known character or pattern, you can obtain information such as changes in the amount of peripheral light and aberration information from the difference from the original shape.
  • step S45 If the result of determination in step S45 is that the image is not the reference scene image, the image of the reference scene is estimated (S47). Since there is no image that serves as a reference scene, a substitute image must be searched for among the images acquired by the image acquisition device 3 . It is desirable that the image that substitutes for the reference scene should be similar enough to compare the two images to determine whether or not the image data characteristics are different, even if it is not as similar as the reference scene. . For example, in endoscopy, treatment tools are sometimes used, and many of the treatment tools have similar shapes. In this case, among the acquired images, an image that shows the shape of the treatment instrument is assumed to be the reference scene.
  • the shape of the treatment tool but also how the treatment tool appears in the screen (such as the position at which it appears) may be used as a judgment criterion when estimating the image of the reference scene.
  • endoscopes but also microscopes, cameras, etc., which are used together, often have similar shapes and colors.
  • step S49 it is determined whether or not the difference from the reference image is permissible. As described above, if two images are compared and the characteristics of the image data are not different, there is no need to modify the inference model. Here, it is determined whether or not the characteristics of the image data acquired from the image acquisition device 3 are so different that the inference model must be corrected. Also, it is determined whether or not there is a large difference between images of similar locations.
  • step S49 If the result of determination in step S49 is that the difference from the reference image is within the allowable range, branch to No (S55). If the image acquired by the image acquisition device 3 does not have a large difference from the reference scene, the inference model does not need to be modified.
  • step S49 if the result of determination in step S49 is that the difference from the reference image is not within the allowable range, then the correction method is determined based on the characteristics of the image (S51). Since the correction method differs depending on the degree of difference between the image acquired by the image acquisition device 3 and the reference scene, the control unit 1a may determine the correction method according to the degree of difference. For example, if the number of pixels differs, a method for increasing or decreasing the number of pixels of the stored image may be determined so that the number of pixels is approximately the same as that of the image acquired by the image acquisition device 3 just now. In addition to differences in optical system performance, imaging sensors, and image processing, frame rate differences, field angle differences, illumination light differences, and the like can be dealt with in a similar manner.
  • step S43 or S51 branch to Yes (S53). Since the image acquired by the image acquisition device 3 is significantly different from the reference scene, it is necessary to correct the inference model.
  • the AI correction necessary flow shown in FIG. 7 if there is model information of the image acquisition device, correction for correcting the image data is determined according to the model (see S41 and S43). .
  • the reference scene image or the image estimated to be the reference scene is used to determine whether or not the inference model needs to be modified (see S49).
  • the correction method is determined from the features of the image (S51). In this flow, based on the model information of the image acquisition device, the reference scene image, etc., it is determined whether or not correction is necessary, and if so, what correction method to use. However, since there are various factors for determining whether AI correction is necessary, such information may be added, and this determination itself may be made by AI.
  • the image data from the image acquisition device of the first specification (including the factors listed below) is not only the performance, specifications, environment, and peripheral systems of the device, but also the objects and accessories handled there. In many cases, there are few peripheral devices, treatment instruments, operators, etc. that match those of the image acquisition apparatus of the second specification. In this case, it tends to be difficult to use the inference model obtained by learning with the teacher data obtained by annotating the image data from the image acquisition device of the first specification as it is. end up This embodiment can solve such a situation.
  • the present embodiment customizes an inference model for a second (specific) image capture device that has different image input characteristics than the first (specification) image capture device.
  • the image acquisition characteristics performance, specifications, environment, peripheral system of the device, as well as the objects handled there are peripheral devices such as accessories, treatment tools, operation
  • the image processing unit is provided with an image processing unit that performs processing according to the difference between the training data and the training data. By optimizing the teacher data by this image processing unit, it is possible to generate an inference model compatible with the second image acquisition device. Acquisition of information that is the basis of this image processing and an example of the processing have been described with reference to FIG.
  • the image processing unit effectively uses the first object image data (which is said to have many proven results) included in the image data obtained from the first image acquisition device among the teacher data as much as possible. Since there are many cases where it is desired to obtain the image data of the second object contained in the image data obtained from the second image acquisition device, not only the performance, specifications, environment, and peripheral systems of the device, but also the object to be handled there Also, peripheral devices such as accessories, treatment tools, operators, etc. are processed according to the image acquisition characteristics. By implementing the above-described measures, for example, it is possible to optimally detect a specific object from an image in accordance with the performance of the device. It is an effective technique for object detection and segmentation in images, which are important categories of image inference models.
  • control unit 1a converts the reselected image data, the weighted image data, or the conventional image data or the processed image data to be used as the teacher data.
  • the data is customized and annotated to indicate that it is "expanded bleeding” or the like and the timing at which the image data was acquired. This customization measure may be expressed in terms of machining.
  • the image was marked as "reduced bleeding”, if the area of the bleeding area did not decrease for a certain period of time or longer, it was re-annotated as "enhanced bleeding", and the image obtained by the treatment by an expert was re-annotated as "expanded bleeding”. Modifications such as making teacher data for creating an inference model for use can also be said to be “processing”.
  • the imaging device 6 determines whether or not this AI correction is necessary. However, this determination may be made not only by the imaging device 6 but also by the image inference learning device 1 . In this case, when acquiring image data from the imaging device 6, information such as model information may be acquired and used. Alternatively, a database of reference scene images or the like may be prepared and compared with the image data from the imaging device 6 to determine whether or not the reference scene image is included. Of course, in accordance with manual input and other customization requests, not only image quality and feature processing (image correction), but also image selection itself, annotation correction, etc. may be reflected. Configuration (processing, editing, processing) may be performed.
  • the correction includes not only the performance, specifications, environment, and peripheral systems of the device, but also the objects handled therein, peripheral devices such as accessories, treatment tools, and operators.
  • peripheral devices such as accessories, treatment tools, and operators.
  • image inference engine these can also be considered as image acquisition characteristics in a broad sense, since the basis of the input data is an image.
  • AI correction is necessary when the data from the image acquisition device 3 belongs to an unknown category.
  • the user of the image acquisition device 3b may set manually. Further, whether or not it belongs to an unknown category is determined from the model information of the second image acquisition device (for example, the image acquisition device 3b) and/or the image data from the second image acquisition device. You may make it determine based on the image which carried out.
  • image data from a first image acquisition device is input (see, for example, S1a and S5a in FIG. 5), and characteristics different from those of the first image acquisition device are obtained.
  • the image data obtained from the first image acquisition device among the teacher data is processed and used as teacher data (for example, S3a and S7a in FIG. 5). ), and an inference model is obtained by learning using teacher data obtained by annotating image data (for example, see S9 in FIG. 5).
  • teacher data for example, see S9 in FIG. 5
  • appropriate inference can be performed not only in the data of the previously assumed category but also in the unknown category, even if the characteristics of the data have changed with respect to the data accumulated so far.
  • image data is input from the first image acquisition device (see, for example, S1a and S5a in FIG. 5), and is used under conditions different from those of the first image acquisition device.
  • the image data acquired from the first image acquisition device is selected or processed, including annotation, according to the difference in image acquisition characteristics.
  • An inference model is obtained by learning using the teacher data obtained by annotating image data as teacher data (for example, see S3a and S7a in FIG. 5). For this reason, it is possible to make an appropriate inference not only for the data of the previously assumed category but also for the previously accumulated data in an unknown category, even if the characteristics of the data are changed. In other words, even when dealing with unexpected data, it is possible to make inferences about the unexpected data by sorting out and processing the data from the first image acquisition device that has been accumulated up to that point. can generate an inference model that can
  • valuable teacher data can be processed and used according to the situation. For this reason, we will build a system that can respond immediately to situations where it is necessary, and realize a society that promises people's safety and security by making it possible to utilize advanced AI in various situations around the world. becomes possible. Of course, in consumer use and entertainment use, it can be used effectively to support output without failure and to boost high-quality content and creations. In this way, the diverse data that has been made open with the assistance of AI and the data that has been improved in quality can also become effective teaching data, and can support the realization of such a world.
  • the imaging device 6 only transmits the image data acquired by the image acquisition device 6 to the learning device 1 for image reasoning. may be created, and this teacher data may be transmitted to the learning device 1 for image inference. In this case, if the AI needs to be modified, the image inference learning device 1 may process the teacher data to correct the inference model.
  • the photographing device 6 determines whether or not AI correction is necessary (see S23 in FIG. 4), whether or not AI correction is necessary is determined not only by the photographing device 6, but also by the image inference learning device. 1 may be determined.
  • the image inference learning device 1 analyzes image data and the like transmitted from various imaging devices 6, compares them with known data, and determines characteristics (device performance, specifications, environment, peripheral systems, If it is determined that there is a difference in the objects handled there, peripheral devices such as accessories, treatment instruments, operators, etc.) are different, the AI may be corrected.
  • an inference model is generated by learning using teacher data created from image data.
  • the teacher data is not limited to image data, and may of course be created based on other data such as time-series vital data such as body temperature and blood pressure.
  • the logic-based determination has been mainly described, but the determination is not limited to this, and may be determined by inference using machine learning. Either of these may be used in this embodiment.
  • a hybrid judgment may be made by partially utilizing the merits of each.
  • control unit 7 and the control unit 1a have been described as devices configured from a CPU, a memory, and the like.
  • a part or all of each part may be configured by a hardware circuit, and a gate generated based on a programming language written in Verilog.
  • a hardware configuration such as a circuit may be used, or a hardware configuration using software such as a DSP (Digital Signal Processor) may be used. Of course, these may be combined as appropriate.
  • control unit is not limited to a CPU, and may be any element that functions as a controller, and the processing of each unit described above may be performed by one or more processors configured as hardware.
  • each unit may be a processor configured as an electronic circuit, or may be each circuit unit in a processor configured with an integrated circuit such as an FPGA (Field Programmable Gate Array).
  • FPGA Field Programmable Gate Array
  • a processor composed of one or more CPUs may read and execute a computer program recorded on a recording medium, thereby executing the function of each unit.
  • the image inference learning device 1 includes a control unit 1a, an image input unit 1b, a learning unit 1c, an image processing unit 1d, a learning result utilization unit 1e, a teacher data selection unit 1f, a recording It has been described as having part 4. However, they do not need to be provided in an integrated device, and the above-described units may be distributed as long as they are connected by a communication network such as the Internet. Similarly, the imaging device 6 has been described as having the image inference section 2 , the image acquisition device 3 , and the guide section 5 . However, they do not need to be provided in an integrated device, and the above-described units may be distributed as long as they are connected by a communication network such as the Internet.
  • control described mainly in the flowcharts can often be set by a program, and may be stored in a recording medium or recording unit.
  • the method of recording in the recording medium and the recording unit may be recorded at the time of product shipment, using a distributed recording medium, or downloading via the Internet.
  • the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the spirit of the present invention at the implementation stage. Also, various inventions can be formed by appropriate combinations of the plurality of constituent elements disclosed in the above embodiments. For example, some components of all components shown in the embodiments may be omitted. Furthermore, components across different embodiments may be combined as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

予め想定していたカテゴリのデータに限らず未知のカテゴリにおいて、それまで蓄積したデータに対してデータの特性が変わった場合であっても、適切な推論を行うことができる推論用学習装置および推論用学習方法を提供する。第1の画像取得装置からの画像データを入力し(S1a、S5a)第1の画像取得装置とは異なる画像入力特性の第2の画像取得装置用に、推論モデルを再学習する際に、第1の画像取得装置から得た画像データを画像入力特性の差異に応じた加工を行って教師データとし(S3a、S7a)、画像データにアノテーションを行って得た教師データによる学習によって推論モデルを得る(S9)。

Description

推論用学習装置および推論用学習方法
 本発明は、ユーザからデータを収集し、このデータを用いて推論モデルを生成する推論用学習装置および推論用学習方法に関する。
 深層学習等の機械学習は、教師データを作成し、この教師データを用いて行う。教師データの作成には人手を必要とし、大きなコストが掛かってしまう。そこで、質の高い教師データを低コストで収集する方法が提案されている。例えば、特許文献1には、特定の分野に関する参照データの中から第1の特徴ベクトルを用いてその特定分野に関するデータを収集するための検索条件を生成する。そして、この検索条件を用いてデータを収集し、この収集したデータの第2の特徴ベクトルを算出し、第1の特徴ベクトルと第2の特徴ベクトルの類似度が所定範囲にあれば、検索条件を用いて収集したデータを教師データとして抽出するようにしている。
特開2018-124617号公報
 上述した特許文献1に記載のデータ収集方法によれば、教師データを低コストで収集することが可能となる。しかし、特許文献1のデータ収集方法は、特定分野のデータを収集することを前提としている。一方、教師データを用いて生成された推論モデルは、予め想定していた特定分野(特定カテゴリ)におけるデータに限らず、未知のカテゴリ(未知の分野)にも適用範囲が広がり、推論しなければならないことがある。
 そこで、未知のカテゴリにおいて、従来のデータと異なる特性のデータを用いて推論モデルを生成すれば、この未知のカテゴリのデータに対しても推論を行うことができる。しかし、未知のカテゴリに対応できる推論モデルを生成するには、その特性に合ったデータを収集しなければならず、時間やコストが掛かってしまう。
 本発明は、このような事情を鑑みてなされたものであり、予め想定していたカテゴリのデータに限らず未知のカテゴリにおいて、それまで蓄積したデータに対してデータの特性が変わった場合であっても、適切な推論を行うことができる推論用学習装置および推論用学習方法を提供することを目的とする。
 上記目的を達成するため第1の発明に係る推論用学習装置は、第1の画像取得装置からの画像データを入力する入力部と、上記画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る学習部と、を有する推論用学習装置において、上記第1の画像取得装置とは異なる画像入力特性の第2の画像取得装置用に、上記推論モデルを再学習する際に、第1の画像取得装置から得た画像データを上記画像入力特性の差異に応じた加工を行って上記教師データとする画像加工部と、を具備する。
 第2の発明に係る推論用学習装置は、上記第1の発明において、上記画像加工部は、第1の画像取得装置から得た画像データに含まれる第1の対象物画像データが、上記第2の画像取得装置から得た画像データに含まれる第2の対象物画像データに適合するように加工する。
 第3の発明に係る推論用学習装置は、上記第1の発明において、上記画像入力特性は、撮像センサの仕様、性能、撮像用光学特性、画像処理仕様、性能、および照明光の種別の少なくとも1つの差異に起因する。
 第4の発明に係る推論用学習装置は、上記第1の発明において、上記画像加工部は、上記教師データのうち第1の画像取得装置から得た画像データを上記画像入力特性の差異に応じた教師データとなるように、同一画像へのアノテーションを変更する。
 第5の発明に係る推論用学習装置は、上記第1の発明において、上記第1の画像取得装置から得た画像データは、既存の教師データであり、上記画像加工部は、上記第2の画像取得装置からの画像データの特性に応じて、上記既存の教師データを画像処理する。
 第6の発明に係る推論用学習装置は、上記第1の発明において、上記第1の画像取得装置から得た画像データは、既存の教師データであり、上記画像加工部は、上記第2の画像取得装置からの画像データの特性に応じて、上記既存の教師データの取捨選択を行う。
 第7の発明に係る推論用学習装置は、上記第5の発明において、上記画像加工部は、上記教師データのうち第1の画像取得装置から得た画像データを、上記第2の画像取得装置からの画像データと適合するように加工する。
 第8の発明に係る推論用学習装置は、上記第1の発明において、上記第2の画像取得装置からの画像データは未知のカテゴリに属する。
 第9の発明に係る推論用学習装置は、上記第8の発明において、上記未知のカテゴリに属するか否かは、人工知能によって自動判断し、または上記第2の画像取得装置の使用者が手動で設定する。
 第10の発明に係る推論用学習装置は、上記第8の発明において、上記未知のカテゴリに属するか否かは、上記第2の画像取得装置の機種情報、および/または上記第2の画像取得装置からの画像データの中から基準画像と推定した画像に基づいて、判定する。
 第11の発明に係る推論用学習装置は、上記第1の発明において、上記第1の画像取得装置から得た画像データは、既存の教師データであり、上記画像加工部は、推論モデルの用途が異なる場合に、該用途に応じて、上記既存の教師データを画像処理し、または上記既存の教師データの取捨選択を行う。
 第12の発明に係る推論用学習装置は、上記第1ないし第11の発明において、上記第1の画像取得装置からの画像データ、および上記第2の画像取得装置からの画像データは、内視鏡画像データである。
 第13の発明に係る推論用学習方法は、第1の画像取得装置からの画像データを入力し、 上記第1の画像取得装置とは異なる特性の第2の画像取得装置用に、推論モデルを学習する際に、上記教師データのうち第1の画像取得装置から得た画像データを加工して教師データとし、上記画像データにアノテーションを行って得た教師データによる学習によって推論モデルを得る。
 第14の発明に係る推論用学習装置は、第1の画像取得装置からの画像データを入力する入力部と、上記画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る学習部と、を有する推論用学習装置において、上記第1の画像取得装置とは異なる条件で使用される第2の画像取得装置用に、上記推論モデルをカスタマイズする際に、第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工を行って上記教師データとする画像加工部と、を具備する。
 第15の発明に係る推論用学習方法は、第1の画像取得装置からの画像データを入力し、 上記第1の画像取得装置とは異なる条件で使用される第2の画像取得装置用に、推論モデルをカスタマイズする際に、上記第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工を行って上記教師データとし、上記画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る。
 本発明によれば、予め想定していたカテゴリのデータに限らず未知のカテゴリにおいて、それまで蓄積したデータに対してデータの特性が変わった場合であっても、適切な推論を行うことができる推論用学習装置および推論用学習方法を提供することができる。
本発明の一実施形態に係る学習用推論装置の主として電気的構成を示すブロック図である。 本発明の一実施形態に係る学習用推論装置において、推論モデルを用いてガイド表示を行う例を示す図である。 本発明の一実施形態に係る学習用推論装置において、推論モデル生成の動作を示すフローチャートである。 本発明の一実施形態に係る推論用学習装置と協働する撮像装置において、この撮像装置の動作を示すフローチャートである。 本発明の一実施形態に係る学習用推論装置において、補正した推論モデル生成の動作を示すフローチャートである。 本発明の一実施形態に係る学習用推論装置において、今までと異なる画像データを入力したときを説明する図である。 本発明の一実施形態に係る学習用推論装置において、AI修正必要かを判断する動作を示すフローチャートである。
 本発明の一実施形態に係る推論用学習装置は、画像データを収集し、この画像データにアノテーションすることによって教師データを作成している。この教師データから成る母集合を用いて、推論モデルを生成する。この推論データを生成する際に基となった教師データの母集合が、例えば高画質の画像データを使用していたとすると、低画質の画像データをこの推論モデルに入力した場合に、信頼性の高い推論を行うことができないおそれがある。また、技量の高い者(熟練者)が画像取得装置を使用して取得した画像データを基にして、ガイド表示用の推論モデルを生成したとする。この場合、技量の低い者(低熟練者)が画像取得装置を使用する際に、この推論モデルによる推論によって操作のガイド表示を得ようとしても、適切なガイド表示がなされないおそれがある。
 このように、推論モデルを生成する際に基にしたデータの特性が、実際に推論する際に入力されるデータの特性と異なっている場合には、信頼性の高い推論を行うことができない可能性がある。このような場合には、実際に推論する際に入力されるデータと同程度の特性を有するデータをすでに実績がある上記推論モデル生成時と同様に収集すればよいが、時間と費用がかかってしまう。そこで、本実施形態においては、使用機器が異なるとか、使用者の技量が異なる等、すでに実績がある上記推論モデル生成時と差異がある未知のカテゴリのデータを入力して推論する推論モデルを生成する場合には、それまでに蓄積している既存教師データを、未知のカテゴリのデータの特性に合わせて、データを加工して推論モデルを生成するようにしている。
 ここで、カテゴリと記載したのは、最もわかりやすい例を挙げるとすると、画像データを取得して推論することによって、画像内に特定の対象物を検出するための推論モデルであれば、異なる仕様の画像取得機器から取得した画像データは、類似の画像を取得したとしても画像の質などが異なるので未知のカテゴリとして扱われる。さらには、取得画像に写ったものが異なる場合もあり、見つけようとする対象物が異なる場合もあり、画像取得をする時の操作者やロボットの差異や、また画像に写り込んだ対象物を処置する人や機械の差異によっても画像の変化の仕方などが異なるので、データが想定とは異なる未知のカテゴリとなったと言える。
 上述のデータ加工は、画像処理による加工の場合やアノテーションの修正加工の場合や、データの取捨選択、推論モデルの仕様にまで影響を及ぼす場合がある。推論モデル仕様と記載したのは、熟練度などを考慮した場合、専門家とそれ以外では、期待する推論結果が異なる場合があるからである。ただし、こうした場合でも本実施形態における技術を利用することによって、従来から実績のある推論モデル生成時に使った貴重な教師データを、簡単に流用することが可能となる。
 ここで、データが画像データである場合には、データの加工は既存の教師データの画像処理を含んでいる。画像処理としては、例えば、画素数を増減や、また明暗(輝度値)の変更や、波長(色信号)の変更や、画角の変更等、種々の画像処理がある。また、データの加工としては、既存の教師データの中から母集合に含める教師データの選択がある。すなわち、不適当な画像データを排除し、画像データの中から新たに選択して追加してもよい。例えば、教師データとしては、推論モデルの出来栄えを判定するテストデータなども含んでいる。このテストデータは、既存の推論モデル生成の際には有効でも、未知のカテゴリ対応の推論モデルを生成する場合には、テストデータ以外に使用する場合もある。このような措置も含めて取捨選択とした。また、画像情報に基づいて何らかの作業の様子や道具の扱い方等が検出できる場合があれば、例えば、熟練者の操作によって取得した教師データを除き、低熟練者の操作によって取得した教師データを追加してもよい。
 また、監視カメラを用いて画像を収集している場合、同じ監視カメラの画像が、ある時は犯罪者の特定(顔の特徴が重要)に使われることがあり、またある時は、混雑状況の調査(顔の特徴は重要でなく、むしろ個人情報の観点から顔の特徴が分からない方が良い場合もある)に使われることもある。このことから分かるように、使用用途によって同じ画像であっても、求められる推論によって、教師データに求められる品質や仕様や扱いが変わることがある。同様に、医療用の画像でも、病変見逃し防止と厳密な診断では、画像の取り扱いが異なる場合がある。つまり、もともとの推論モデルが入力データに対して適正に推論することができたとしても、推論モデルの用途や対象が違ってしまうと、その入力データは未知のカテゴリのデータとなり、異なる教師データの扱いや、異なる学習が求められることになる。
 また、未知のカテゴリとしては、推論モデルの使用対象を考慮してもよい。例えば、癌の診断のために使用される医療機器では、地域、人種、性別、年齢等のプロフィールの差異によって、罹患する癌の発生する患部や、癌の種類が異なっている。また、地域差については、病院のシステムや医療機器の違い、医師の技量、流派、あるいは患者プロフィールの傾向などが異なる事を想定するのが望ましく、こうした要因の差異で、想定していたカテゴリが異なってしまい、未知のカテゴリに属する場合もある。そこで、推論モデルの生成に使用する教師データについても、推論モデルの用途を考慮して、既存教師データを適宜変更して加工するようにしてもよい。
 以下、図を用いて、本発明の一実施形態として画像推論用学習システムに本発明を適用した例について説明する。図1に示す画像推論用学習システムは、画像推論用学習装置1と撮像装置6とから構成される。
 画像推論用学習装置1は、スタンドアロンのコンピュータ等の機器であってもよく、また、サーバ内等に配置されていてもよい。画像推論用学習装置1がスタンドアロンのコンピュータ等の場合には、撮像装置6は有線または無線等によって接続可能であればよい。また画像推論用学習装置1がサーバ等内に配置されている場合には、撮像装置6とはインターネット等の情報通信網によって接続可能であればよい。
 また、撮像装置6は、内視鏡等の医療機器等に設けられ患部等の撮影対象を撮影する装置であってもよく、顕微鏡等の科学機器等に設けられ細胞等の撮影対象を撮影する装置であってもよく、デジタルカメラ等、画像の撮影を主目的とする装置であってもよい。いずれにしても、本実施形態においては、撮像装置6は撮像機能が主たる機能である装置であってもよく、また他の主機能を実行するために、撮像機能も併せて有する装置であってもよい。以下、撮像装置6が内視鏡であり、画像取得装置が内視鏡画像データを出力する場合を主に説明する。
 撮像装置6内には、画像推論装置2、画像取得装置3、ガイド部5、制御部7が設けられている。なお、図1に示す撮像装置6は、上述の種々の装置が一体に構成されている例について説明している。しかし、別々の装置に分かれて配置され、インターネット等の情報通信網や、専用の通信網で接続するよう構成しても勿論かまわない。例えば、画像推論装置2は、撮像装置6とは別体に構成され、インターネット等で接続されていてもよい。また、図1には、図示しないが、操作部(入力インターフェース)や通信部(通信回路)、記録部(例えば、画像取得装置3において取得された画像データの記録)、情報取得装置等、撮像装置6を機能させるための種々の部材・回路・機器等が設けられている。
 画像取得部3は、光学レンズや、撮像素子や、撮像制御回路および撮像信号処理回路等の種々の撮像回路を有し、対象物の画像データを取得し、出力する。なお、撮像にあたっての露光制御用部材(例えば、シャッタや絞り)や露光制御回路を有していてもよく、また光学レンズのピント合わせを行うためのレンズ駆動装置や、焦点検出回路・焦点調節回路等を有していてもよい。さらに、光学レンズはズームレンズであってもよい。
 画像取得装置3内には、画像取得装置3aおよび画像取得装置3bの内のいずれか一方が配置されている。図1においては、画像取得装置3aと画像取得装置3bの両方が記載されているが、これは、いずれも機能的には略同様のものであるため、後段の部分が共用できることを想定して、説明を容易にするためであって、上述したように、いずれか一方が撮像装置6に搭載されている。画像取得装置3は、画像取得装置3a(例えば、リユースの内視鏡)および画像取得装置3b(例えば、ディスポーザブルの内視鏡)のいずれかを指すものとして使用する。つまり、画像取得装置3は、地域や施設、あるいは症例(対象物)によって使い分けられるもので、使用者が異なることも想定している。ただし、いずれも、同様のガイド機能などが有効利用できることを想定しているので、推論モデルなどのシステムは共用できる可能性がある。また、ユーザーインターフェースや求められるガイドなども含め、推論モデル自身はカスタマイズされることを想定している。
 なお、本実施形態においては、画像取得装置3内には、画像取得装置3aおよび画像取得装置3bの内のいずれか一方が配置されているとして説明しているが、画像取得装置3が、画像取得装置3aと画像取得装置3bの両方を備えことを妨げるものではない。これは、状況に応じて複数の装置を利用するケースがあるからである。画像取得装置3aからの画像データは既知のカテゴリに属し、画像取得装置3bからの画像データは未知のカテゴリに属しているとして説明する。そして、画像取得装置3aと画像取得装置3bから出力される画像データは、特性が異なっている。この特性としては、画質、光源、画角等がある。例えば、画像取得装置3aに比較し、画像取得装置3bの方が、画素数が少ない場合があり、また光学レンズの解像度が粗い場合がある等の場合には、画像の画質が異なっている。その他、使用者や対象物や使用環境が異なっても、データのカテゴリが未知になる。そのカテゴリに合わせて、ユーザーインターフェースや求められるガイドなども含め、推論モデル自身はカスタマイズされる。
 上述の違いを判別する情報は、例えば、各画像処理装置の機種の情報(その他、後述の光源など周辺システムの情報や処置具情報なども含んでもよく、また、別途、利用してもよい)とデータベース等を照合することによって取得できる。この情報は、装置内蔵のメモリ、あるいは装置の使用環境におけるシステム等に記録されているデータを画像推論用学習装置1に送信してもらうことによって、取得してもよいし、またユーザが手動で入力したものを使用してもよい。機種情報ではなく、画像処理装置の検出性能、処理性能を表す記号や数値等を使用してもよい。さらに、使用環境の情報、患者など対象物の情報(データ)に関しても同様に各装置からの通信によって取得して判定するようにしてもよいし、また手動入力された情報を、通信等を通じて取得し、使用してもよい。これらの取得した補足データの差異から、教師データの取捨選択や加工などを行ってもよい。また、使用されるツールや装置や、またこれらを扱う人やロボットの技量や性能、制約によっても、期待される推論モデルは変わってくる。このため、これらの情報も、メモリに記録された情報や、マニュアル入力やセンサ情報などから取得可能にする。メモリ情報の取得以外にも、画像データそのもの、あるいは、動画としての状況(画面)推移からも、それを分析すれば、想定していた推論モデルでは扱えない未知のカテゴリであると判定することも可能である。
 また、撮像装置6が光源を有し、この光源で照らされた対象物を撮影する場合にも、光源の波長特性や、配光特性によって得られる画像が異なってくる。また、画像取得装置3a、3bのいずれかが、狭帯域光法(NBI(Narrow Band Imaging))による観察が可能な場合でもよく、この場合には、画像取得装置3aと画像取得装置3bの特性が異なっている。
 また、画像取得装置3の光学系の焦点距離が異なると画角が異なる。長焦点レンズの場合には、狭角ではあるが対象物が拡大された画像を得ることができる。一方、短焦点レンズの場合には、広角であるが対象物が縮小された画像を得ることができる。光学系がズームレンズの場合には、設定された焦点距離によって、画像が大きく異なる。
 また、画像取得装置3aは、距離(分布)検出機能3D(3Daa)を有していてもよい。この3Dを有していれば、この点で画像取得装置3aと画像取得装置3bは特性が異なっている。3D等3aaは、対象物を3次元で撮像し、3次元画像データ等を取得するが、3次元画像以外にも、反射光や超音波等を取得して奥行情報を得るようにしてもよい。3次元画像データは、撮像装置3からの対象物の奥行等、対象物の空間内における位置を検出する際に使用できる。例えば、撮像装置6が内視鏡である場合に、医師が内視鏡を体内に挿入し、操作している際に、撮像部が3Dであれば、体内の部位と処置具の位置関係を把握することができ、また部位の3次元的な形状も把握することができ、3次元表示が可能となる。また、厳密に奥行き情報を取得せずとも、背景と手前にあるものの大きさの関係から、奥行き情報を算出することも可能である。
 画像取得装置3(画像取得装置3a、または画像取得装置3b)において取得された画像データ等のデータであって、教師データ候補群とされたデータは、画像推論用学習装置1内の記録部4に出力され、教師データA群4aとして記録される。この場合、撮像装置6内にメモリを設け、画像取得装置3において取得された画像データ等を記憶してもよい。
 なお、画像取得装置3内には、情報取得装置を配置していてもよい。情報取得装置は、画像データに限らず、対象物に関する情報、例えば、電子カルテ等と接続し、この電子カルテから患者に関する情報や、診断や処置に使用した機器に関する情報等を入手するようにしてもよい。例えば、医師が内視鏡を用いて処置している場合には、情報取得装置は、この患者の氏名、性別等や、内視鏡を挿入した体内の部位等の情報を得る。また、情報取得装置は、電子カルテからの情報以外にも、診断や処置時における音声データを取得してもよく、また医療関係のデータ、例えば体温データ、血圧データ、心拍データ等を取得しても良い。これらのデータも画像推論用学習装置1に出力するようにしてもよい。
 処置のリスク等を推論する場合には、上述の要素も加味して信頼性を向上することが可能である。本実施形態においては、主に画像の例で説明しているが、上述の数値データからも推論は可能である。また、特定の前提で集められた教師データが、異なる環境ではカスタマイズ必要である点は、画像を用いた推論と同様である。したがって、本実施形態における手法は画像に関わらず、データ一般に対して有効な提案であることが分かる。動画像による状況推移が重要なように、これらのデータの時間推移も同様の考え方で、本実施形態の手法を適用することが可能となる。以下の実施形態では、このような時間遷移を考慮した、推論モデルをあえて例にして説明する。静止画とか単体データを使った推論は、これより単純なのであえて例示していないが、以上、説明した内容で、大筋、理解がなされるはずである。
 画像推論装置2は、画像取得装置3が取得した画像データ等を入力し、画像推論用学習装置1が生成した推論モデルを用いて、推論を行って、推論結果に基づいてガイド部5にガイド表示を出力する。画像推論装置2は、画像入力部2INと、推論変更部2SLと、推論部2AIと、推論結果出力部2OUTを有する。なお、ユーザにどのようなガイド(表示であったり音声であったり)を出力するかも含めて、「推論モデル」と記載している場合がある。
 画像入力部2INは、画像取得装置3が出力した画像データを入力する。これらのデータは、複数のコマから成る時系列的なデータであり、時々刻々画像入力部2INに入力される。また、音声やその他のセンサで得られるデータなど、画像でない情報を必要に応じて合わせて参照してもよい。また、画像入力に限らず、データ入力部としてもよい。また、入力部に入力する画像は、連続して得られる画像の一コマずつでも良いし、複数コマをまとめて扱うようにしてもよい。複数コマで推論する推論エンジンを前提にする場合は、そのような学習をすればよい。
 推論部2AIは、推論エンジンを有し、画像推論用学習装置1が生成した推論モデルを、この推論エンジンに設定する。推論エンジンは、後述する学習部1cと同様に、ニューラル・ネットワークを有し、このニューラル・ネットワークに推論モデルが設定される。推論部2AIは、画像入力部2INが入力した画像データを、推論エンジンの入力層に入力し、推論エンジンの中間層において、推論を行う。この推論結果は、推論結果出力部2OUTがガイド部5に出力する。
 推論変更部2SLは、推論部2AIにおいて使用する推論モデルを変更する。撮像取得装置3A、3Bは、前述したように、特性が異なっている。撮像取得部3Aからのデータに基づいて作成した推論モデルが推論部2AIに設定されている場合に、例えば、別の環境下で、上述の推論モデルのような機能を期待して、推論部2AIに対し画像取得装置3Bからのデータを入力しても、適切な推論を行い、ガイド表示できない可能性がある。このように特性の異なるデータが画像入力部2INに入力した場合には、制御部7は、画像取得装置3Bが出力するデータに適合する、補正した推論モデルの作成を依頼する。推論変更部2SLは、推論部2AIにおいて、この補正した推論モデルに変更させる。
 上述の補正した推論モデルは、補正した教師データによって学習されたものと言い換えてもよい。つまり、画像データ等、データとしては同一であっても、このデータを基にした教師データを作成する際に、加工のやり方(教師データの加工、補正)や、取捨選択のやり方を変えることによって、異なる仕様、性能の推論モデル(補正した推論モデル)を作成することが出来るからである。
 ガイド部5は、表示用のディスプレイ等を有し、画像取得装置3が取得した対象物の画像を表示する。また、推論結果出力部2OUTが出力した推論結果に基づくガイド表示を行う。
 制御部7は、 CPU(Central Processing Unit)7a、メモリ7b、および周辺回路を有するプロセッサである。制御部7は、メモリ7aに記憶されているプログラムに従って、撮像装置6内の各装置や各部を制御する。
 画像推論用学習装置1は、画像取得装置3が取得した画像データを用いて、機械学習(深層学習を含む)を行って、推論モデルを生成する。画像推論用学習装置1は、画像入力部1b、学習部1c、画像加工部1d、学習結果利用部1e、教師データ選択部1f、記録部4を有する。
 記録部4は、撮像装置6内の画像取得装置3から出力された画像データや各種情報データを記録するための電気的に書き換え可能な不揮発性メモリである。記録部4に記録されている各種データは、画像入力部1bに出力される。記録部4は、教師データA群4aと教師データB群4bが記憶可能である。また、記録部4には、推論モデルの実力を検証するようなテストデータを記録してもよい。このテストデータ自体を記録しておかなくても、記録部4に記録してある教師データの一部を取り出してテストデータとして利用してもよい。
 教師データA群4aは、画像取得装置3aが取得した時系列データに基づく教師データ群である。教師データB群4bは、後述するように、未知のカテゴリ用に推論モデルを生成する際に、既に記録されている教師データA群4aを加工して作成した教師データである。記録部4としては、画像取得装置の特性が異なると、それぞれ異なる教師データ群として記録するようにする。記録部4には、画像取得装置3から送信されてきた教師データの候補群と、後述するアノテーションが付与された教師データ群の両方が記録される。また、教師データ選択部1fによって採用された教師データに限らず、不採用の教師データも、未知のカテゴリ用の教師データを作成する際に使用できる可能性もあることが、記録部4に記録しておいてもよい。
 教師データ群は、画像取得装置3において取得した時系列データ(後述する図4のS35において、画像推論用学習装置1に送信されてくる)に対して、制御部1aがアノテーションを施すことによって生成する。例えば、後述する図2においては、内視鏡を体内に挿入した際に出血した場合を示し、図2(a)においては出血が拡大し、一方、図2(b)においては出血が縮小している。このような場合に、出血がどのように変化したかを、時系列データID1、ID2にアノテーションすることによって、教師データを作成することができる。ここでのアノテーションは、自動で出来るものであっても、必要に応じて、手動で行うものであってもよい。また、カスタマイズ時に、手動によるアノテーションの結果を考慮・反映して自動で行ってもよい。自動でアノテーションを行った場合に、マニュアルでチェックを行い、チェック結果によっては、やり直しを促すようなステップを入れてもよい。
 アノテーションを付与するにあたって、「教師データの加工、補正」、「教師データの取捨選択」を変えることによって行うこともある。例えば、図2に示す出血と同じであっても、出血した際に即応できる処置具や人員やスキル(こうした情報も取得できるようにする)があるかないかによって、出血後の状況の挽回の度合いが変わってくるからである。つまり、スキルや器具類を含めた体制が万全の体制で得た教師データであって、「出血なし」とアノテーションするよう判断した画像であっても、スキルや器具類で劣る体制においてガイドするための推論ガイドを作成する際には、厳しめの判断によってアノテーションを付与する方が良い。
 こうしたスキルの情報などをランク分けするような情報を持ってもよい。スキル情報を手動入力した結果や、予め登録した記録結果や、これまでの来歴で判定して、カスタマイズ時の情報としてもよく、取得画像の傾向から判定してもよい。わかりやすい例で言えば、プロカメラマンの撮影した写真と、初心者の撮影した写真では、機材の差異以外に構図や露出、ピントなどで違いが分かるので、それでスキル判定してもよい。動画になるとさらにその傾向は強く、機材の取り扱いの慣れ方が、その画像に残る。音声などを同時に取得して参考にする方法もある。また、画像のゆがみやボケなどから使用機材を判定することもできる。
 つまり、本実施形態における推論用学習装置は、第1の画像取得装置からの画像データを入力する入力部と、上記画像データにアノテーションを行って得た教師データによる学習によって推論モデルを得る学習部と、を有する画像推論用学習装置において、上記第1の画像取得装置とは異なる画像入力特性の第2の画像取得装置用に、上記推論モデルをカスタマイズ学習(または再カスタマイズ学習)する際に、上記教師データのうち第1の画像取得装置から得た画像データを上記画像取得特性の差異に応じた教師データ化の加工(アノテーションの変更を含む)を行って教師データとする画像加工部とを具備している。
 一例を挙げると、止血機能が付いたメスとその機能がないメスでは、出血後の対処結果が異なるので、この差異を推論モデルに入れ込んだ方がよい。この器具の仕様や性能の差異は、予め入力されている情報によって判定してもよいし、撮像された結果に映り込んだ処置具の画像の特徴によって判定してもよい。例えば、止血機能なしの処置具使用での処置画像と止血機能ありの処置具使用での処置画像は区別した方がよく、その差異を織り込んで学習すれば、一方の画像を他方の画像として、いわば加工、補正した形で教師データを作成できる。つまり、止血機能ありの画像から、加工、補正を行うことによって、止血機能なしの処置時のガイド用の推論モデルを作成することが可能となる。手術等は、個人の体質や患部などによって、千差万別の態様を呈するので、必ずしも、理想的な教師データが集めやすいわけではないので、こうした工夫によって信頼性の高い推論モデルを作ることが容易になる。
 画像入力部1bは、画像取得装置3aが取得し、記録部4に記録されている教師データA群4aを入力する。この画像入力部1bに入力する教師データ群4aには、アノテーションが付与されている。入力した教師データA群4aは学習部1cと画像加工部1dに出力する。学習にあたっては、画像データに限らず、画像取得装置3aが取得した画像以外のデータを用いるようにしても勿論かまわない。なお、学習装置が再学習し、補正した推論モデルを生成した場合には、教師データA群4aを加工した教師データB群4bを、画像入力部1bに入力する。画像入力部1bは、第1の画像取得装置から画像データを入力する入力部(入力用インターフェース)として機能する(例えば、図3のS1、S5、図5のS1a、S5a参照)。
 画像加工部1dは、画像加工回路等またはプログラムによって、画像入力部1bが入力した教師データの加工を行う。前述したように、画像取得装置3aと画像取得装置3bでは、画像取得装置の特性が異なっている。このため、画像取得装置3aで取得した画像データに基づいて教師データを生成し、学習部1cが推論モデルを生成した場合に、画像取得装置3bで取得した画像データで推論モデルを作成したとしても、適切な推論を行うことができない。そこで、画像加工部1dが画像入力部1bにおいて入力した画像データに対して画像加工を行い、あたかも画像取得装置3Aによって取得した画像データと同様に変換する。画像加工部1dが加工した画像データは、学習部1cに出力される。なお、画像の加工の詳細については、図6を用いて後述し、また補正した推論モデルの生成については、図5を用いて後述する。
 画像加工部1dは、第1の画像取得装置とは異なる特性の第2の画像取得装置用に、推論モデルを再学習する際に、教師データのうち第1の画像取得装置から得た画像データを加工して教師データとする画像加工部(画像加工用プロセッサ)として機能する(例えば、図5のS1a~S7a、図6(b)参照)。上述の画像入力特性は、撮像センサの仕様、性能、撮像用光学特性、画像処理仕様、性能、および照明光の種別の少なくとも1つの差異に起因する。
 画像加工部は、教師データのうち第1の画像取得装置から得た画像データに含まれる第1の対象物画像データが、第2の画像取得装置から得た画像データに含まれる第2の対象物画像データに適合するように加工する(例えば、図5のS1a~S7a、図6(b)参照)。画像加工部は、教師データのうち第1の画像取得装置から得た画像データを画像入力特性の差異に応じた教師データとなるように、同一画像へのアノテーションを変更することを含む。
 また、画像入力装置は、何らかの操作を伴って使用されるものであり、環境の変化や対象物の変化やさらには併用するツールによって画像の内容や得られた画像に変化が生じる場合がある。この場合は、画像入力特性が変化したと考えられ、画像入力特性の差異に応じた「加工」を行う。この画像入力特性の差異に応じた「加工」は、画像処理の種別、あるいは補正の仕方のみならず、教師データの一部でもあるアノテーションの内容や、加工した教師データを用いた学習結果の仕様方法に関する推論開始のトリガタイミングなどの補正などをも含んでいる。これは、実際にこの推論モデルを利用する第2の仕様の画像取得装置の使用環境、条件(装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含む)の変化にも対応できるような「加工」処理をも想定しているからである。
 ここで、第1の画像取得装置から得た画像データは、既存の教師データである。すなわち、記録部4には、教師データ選択部1fによって採用された教師データが蓄積されている。画像加工部は、第2の画像取得装置(すなわち、第1の画像取得装置とは特性が異なる)からの画像データの特性に応じて、既存の教師データを画像処理する(例えば、図5のS1a、S5a参照)。また、画像加工部は、第2の画像取得装置からの画像データの特性に応じて、既存の教師データの取捨選択を行う(図5のS13参照)。画像加工部は、教師データのうち第1の画像取得装置から得た画像データを、第2の画像取得装置からの画像データと適合するように加工する(例えば、図5のS1a、S5a、S13参照)。
 また、画像加工部は、推論モデルの用途が異なる場合に、該用途に応じて、既存の教師データを画像処理し、または既存の教師データの取捨選択を行うようにしてもよい。画像加工部は、第1の画像取得装置とは異なる条件で使用される第2の画像取得装置用に、推論モデルをカスタマイズする際に、第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工を行って教師データとしてもよい。例えば、熟練した使用者が撮像装置6を操作して取得した画像データに基づく教師データを用いて推論モデルを生成した場合、この非熟練者がこの推論モデルを用いて操作ガイドを行っても適切なガイドが難しい場合がある。このような場合には、画像加工部1dや画像選択部1fによって、不適当な画像データを排除し、画像データの中から新たに選択して追加してもよく、適宜、画像を修正してもよい。これらは連携してもよいので、画像加工部1dや画像選択部1f間で通信を行ってもよい。また、画像加工部は、推論モデルの使用用途を考慮して、画像データや教師データを加工、選択してもよい。例えば、癌の診断のために使用される推論モデルとして、人種、性別、年齢等を考慮して、画像データの選択や、また加工を行ってもよい。
 また、学習を行い、推論モデルを生成した際には、学習部1cが学習結果の信頼性を判定する、この判定は、テストデータを用意し、このテストデータを推論モデルに入力した際の出力が、予め分かっている正解であったか否かによって、判定することができる(例えば、図3および図5のS11参照)。このためのテストデータは記録部4の中から選択してもよく、また学習装置の外部から取得する際に、画像選択部1fが適正なテストデータを選択し、必要に応じて画像加工部1dが加工してもよい。適正に加工できるテストデータを選択するには、画像加工部1dと画像選択部1fが連携して行うのがよい。なお、テストデータは、使用される実機の実際のパフォーマンスを検証するものであるから、実機で実際に取得された画像を選択する方が良い。画像選択部1fが相応しい画像を選択し、画像加工部1dが加工する場合も、画像選択部1fが選択した適切な画像を加工してもよい。
 学習部1cは、推論部2AIと同様に推論エンジンを備え、推論モデルを生成する。学習部1cは、画像入力部1bが入力した画像データ、または画像加工部1dが加工した画像データを用いて、深層学習等の機械学習によって推論モデルを生成する。深層学習については、後述する。学習部1cは、画像データにアノテーションを行って得た教師データを用いた学習によって推論モデルを得る学習部(学習用エンジン)として機能する(例えば、図3および図5のS9参照)。
 教師データ選択部1fは、学習部1cにおいて生成された推論モデルの信頼性を判定し、この判定結果に基づいて教師データとして採用するか否かを判定する。すなわち、信頼性が低い場合には、推論モデルを生成するにあたって使用した教師データとして採用せず、信頼性が高い場合の教師データのみを採用する。学習部1cは、教師データ選択部1fによって採用された教師データによって推論モデルを最終的に生成する。また、教師データ選択部1fによって採用された教師データは、記録部4の教師データA群4aとして記録しておく。場合によっては、教師データ選択部1fがメモリを有し、このメモリに採用された教師データを記録しておいてもよい。
 学習部1cにおいて生成された推論モデルは、学習結果利用部1eに出力される。学習結果利用部1eは、生成された推論モデルを画像推論部2AI等の推論エンジンに送信する。
 ここで、深層学習について、説明する。「深層学習(ディープ・ラーニング)」は、ニューラル・ネットワークを用いた「機械学習」の過程を多層構造化したものである。情報を前から後ろに送って判定を行う「順伝搬型ニューラル・ネットワーク」が代表的なものである。順伝搬型ニューラル・ネットワークは、最も単純なものでは、N1個のニューロンで構成される入力層、パラメータで与えられるN2個のニューロンで構成される中間層、判別するクラスの数に対応するN3個のニューロンで構成される出力層の3層があればよい。入力層と中間層、中間層と出力層の各ニューロンはそれぞれが結合加重で結ばれ、中間層と出力層はバイアス値が加えられることによって、論理ゲートを容易に形成できる。
 ニューラル・ネットワークは、簡単な判別を行うのであれば3層でもよいが、中間層を多数にすることによって、機械学習の過程において複数の特徴量の組み合わせ方を学習することも可能となる。近年では、9層~152層のものが、学習にかかる時間や判定精度、消費エネルギーの観点から実用的になっている。また、画像の特徴量を圧縮する、「畳み込み」と呼ばれる処理を行い、最小限の処理で動作し、パターン認識に強い「畳み込み型ニューラル・ネットワーク」を利用してもよい。また、より複雑な情報を扱え、順番や順序によって意味合いが変わる情報分析に対応して、情報を双方向に流れる「再帰型ニューラル・ネットワーク」(全結合リカレントニューラルネット)を利用してもよい。
 これらの技術を実現するために、CPUやFPGA(Field Programmable Gate Array)等の従来からある汎用的な演算処理回路を使用してもよい。しかし、これに限らず、ニューラル・ネットワークの処理の多くが行列の掛け算であることから、行列計算に特化したGPU(Graphic Processing Unit)やTensor Processing Unit(TPU)と呼ばれるプロセッサを利用してもよい。近年ではこのような人工知能(AI)専用ハードの「ニューラル・ネットワーク・プロセッシング・ユニット(NPU)」がCPU等その他の回路とともに集積して組み込み可能に設計され、処理回路の一部になっている場合もある。
 その他、機械学習の方法としては、例えば、サポートベクトルマシン、サポートベクトル回帰という手法もある。ここでの学習は、識別器の重み、フィルター係数、オフセットを算出するものあり、これ以外にも、ロジスティック回帰処理を利用する手法もある。機械に何かを判定させる場合、人間が機械に判定の仕方を教える必要がある。本実施形態においては、画像の判定を、機械学習によって導出する手法を採用したが、そのほか、教師データに対してアノテーション結果が導き出せる手法であれば、人間が経験則・ヒューリスティクスによって獲得したルールを適応するルールベースの手法を用いてもよい。
 制御部1aは、 CPU(Central Processing Unit)1aa、メモリ1ab、および周辺回路を有するプロセッサである。制御部1aは、メモリ1abに記憶されているプログラムに従って、画像推論用学習装置1内の各部を制御する。例えば、制御部1aは、画像取得装置3が出力した画像データ等に対して、アノテーションを付与する(図3のS3、S7、図5のS3a、S7a参照)。
 次に、図2(a)(b)を用いて、画像収集の例と、この画像に基づくガイド表示の例として、内視鏡を用いて処置を行っている場合について説明する。この内視鏡は、図1に示した撮像装置6を有しており、従って、画像取得装置3、画像推論装置2、およびガイド部5を有している。
 図2(a)は、内視鏡で処置している際に、体内で出血BLが生じ、その出血が拡大し拡大出血BLLとなってしまった例を示す。内視鏡の画像取得装置3は、医師が処置をしている間、所定時間間隔で、常時、画像データを収集し、この画像データを制御部1aが撮像装置6内のメモリに教師データ候補群として記録している。図2(a)の例は、時刻T=0において出血が生じ、時刻T=T1aにおいて、出血が拡大したと認識できる。この場合には、この時刻T=0から時間を遡り5秒前の時刻からの画像データID1を、出血拡大時画像として記録する。画像推論用学習装置1が、この収集した画像データID1に対して、時刻T=T1a以降において拡大出血BLLとなる旨のアノテーションを付与すれば、出血拡大時の教師データとなる。本実施形態においては、アノテーションは画像推論用学習装置1において行うが(図3のS3、図6のS3a参照)、撮像装置6において実行し、アノテーションを施した教師データを画像推論用学習装置1に送信してもよい。
 図2(b)は、内視鏡で処置している際に、体内で出血が生じたが、その出血はその後、縮小した例を示す。内視鏡の画像取得装置3は、図2(a)の例と同様に、処置をしている間、所定時間間隔で、常時、画像データを収集し、この画像データを制御部1aが撮像装置6内のメモリに教師データ候補群として記録している。図2(b)の例は、時刻T=0において出血が生じ、時刻T=T1bにおいて、出血が縮小したと認識できる。この場合にも、この時刻T=0から時間を遡り5秒前の時刻からの画像データID2を、出血拡大時画像として収集する。画像推論用学習装置1が、この収集した画像データID2に対して、時刻T=T1b以降において縮小出血BLSとなる旨のアノテーションを付与すれば、出血縮小時の教師データとなる。本実施形態においては、アノテーションは画像推論用学習装置1において行うが(図3のS7、図6のS7a参照)、撮像装置6において実行し、アノテーションを施した教師データを画像推論用学習装置1に送信してもよい。このように時系列に連続した画像取得(動画)を分析することによって、様々な有効情報を得ることができる。
 図2(a)(b)において、時刻T=0は、ユーザが出血に気付くタイミングであるが、出血の原因となる行為や現象は、時刻T=0よりも前のタイミングに発生していることが多い。そこで、本実施形態においては、イベント(例えば、出血拡大、出血縮小等)があると、トリガ情報を発生させ、その特定タイミングよりも時間を遡って、データを収集し、因果関係を整理するようにしている。このように時系列に連続した画像取得(動画)を分析することによって、様々な有効情報を得ることができる。
 図2(a)(b)のような例を多数収集し、アノテーションすることによって、多数の教師データを作成することができ、ビックデータとして扱うことができる。学習部1cはこれらの多数の教師データを用いて、推論モデルを生成する。この推論モデルは、時刻T=0において、出血が生じた場合に、所定時間経過後(図2(a)(b)の例では、T1aまたはT1bに)に出血が拡大するか縮小するかを推論することができる。
 このような推論モデルが作成され、撮像装置6の推論部2AIにこの推論モデルを設定しておけば、画像取得部3によって取得した画像に基づいて、将来を予測することができる。すなわち、撮像装置6は、時刻T=1にならない時刻T=0のタイミングにおいて、出血を認識すると、図2(a)(b)に示すように、そのタイミングから所定時間遡った時刻(T=-5sec)までの画像データに基づく教師データ(あるいは教師データ候補)を、推論モデルに入力することによって、出血が拡大するか、縮小するかを予測できる。この予測(推論)結果が出血拡大の場合には、撮像装置6のガイド部5に、注意表示Gaを表示する。一方、予測(推論)結果が出血縮小の場合には、出血していても大丈夫である旨のガイドGoを表示する。
 次に、図2(a)(b)で使用する推論モデルの作成について、図3に示すフローチャートを用いて説明する。このフローは、画像推論用学習装置1内の制御部1aのCPU1aaがメモリ1abに記憶されたプログラムに従って実現する。
 図3に示す推論モデル作成のフローが開始すると、まず、出血拡大時過程画像を収集する(S1)。前述したように、撮像装置6は、画像取得装置3が取得した連続画像の中で、図2(a)に示すような、時刻T=-5からT=T1aの間で、出血している部分の面積が増加している画像を収集する。具体的には、前述した図2(a)において、制御部7が画像データの画像解析を行い、出血が拡大していると判断した場合には、トリガ情報を発生し(図4のS27参照)、出血拡大画像を遡り記録する(図4のS29参照)。この遡り記録された画像は、撮像装置6内のメモリに、一旦、記録される。このステップS1では、画像推論用学習装置1の制御部1aが、出血拡大時の過程画像を撮像装置6等から収集し、記録部4に一旦記憶する。
 ステップS1において、出血拡大時の過程画像を収集すると、その画像データに「出血拡大」をアノテーションする(S3)。ここでは、制御部1aが、収集した個々の画像データに「出血拡大」のアノテーションを施し、アノテーションを施した画像データは記録部4に教師データA群4aとして記録する。
 次に、出血縮小時過程画像を収集する(S5)。前述したように、撮像装置6は、画像取得装置3が取得した連続画像の中で、図2(b)に示すような、時刻T=-5からT=T1bの間で、出血している部分の面積が減少している画像を収集する。具体的には、前述した図2(b)において、制御部7が画像データの解析を行い、出血が縮小していると判断した場合には、トリガが発生し(図4のS27参照)、出血縮小画像を遡り記録する(図4のS29参照)。この遡り記録された画像は、撮像装置6内のメモリに、一旦、記録される。このステップS5では、画像推論用学習装置1の制御部1aが、出血縮小時の過程画像を撮像装置6等から収集し、記録部4に一旦記憶する。
 ステップS5において、出血縮小時の過程画像を収集すると、その画像データに「出血縮小」をアノテーションする(S7)。ここでは、制御部1aが、収集した個々の画像データに「出血縮小」のアノテーションを施し、アノテーションを施した画像データは記録部4に教師データA群4aとして記録する。
 図3に示すフローでは、出血拡大の後に出血縮小の画像を収集している。しかし、実際には、画像取得装置3によって収集した画像中に出血が生じているか否か、また出血が生じている場合には、その範囲が拡大しているか縮小しているかに応じて、ステップS1からS7を適宜選択して実行する。
 次に、推論モデルを作成する(S9)。ここでは、ステップS3、S7において撮像装置6が生成したアノテーションを施した教師データは、教師データA群4aとして記録され、この教師データは画像入力部1bに入力される。この教師データを用いて、画像推論用学習装置1内の学習部1cが推論モデルを作成する。この推論モデルは、画像を入力した場合に、「〇秒後、出血が拡大」を出力するような予測できるようにする。
 推論モデルを作成すると、信頼性がOKか否かを判定する(S11)。ここでは、学習部1cが、予め回答が分かっている信頼性確認用の画像データを、その推論モデルに入力した場合の出力が、回答と同じであるか否かに基づいて信頼性を判定する。作成された推論モデルの信頼性が低い場合には、回答が一致する割合が低い。
 このような処置に対する予測の推論では、処置する医師などの技量や処置具の違いなどが推論に反映されることが望ましい。しかし、多くの場合、推論モデル作成時に意図して収集する画像データとしては、文字通り教師データとするために、優れた医師の処置の優れた道具での処置過程の画像データが集めやすい。しかし、想定外の道具を使っての熟練していない者によって行われる状況での処置の方が、ガイド表示する意味があり、こうしたいわば、想定外事例に対応できるようにすることが望ましい。さらには、まったく新奇な処置具などが上市されたような場合も想定外となり得るし、こうした道具に関しては、多くの場合、始めは未熟なユーザが多くなる。また、熟練していない手技の程度は千差万別であり、多くの場合、想定外となりうる。つまり、極論すれば、見たこともない道具で、熟練していない手技に対しても、信頼性の高いガイドを提示するのが望ましく、こうしたケースに本実施形態における推論用学習システムは対応可能である。
 このように、学習によって、信頼性の高い推論モデルを生成することによって、もっぱら、第1の画像取得装置(例えば、画像取得装置3a)からの画像データにアノテーションを行って得た教師データを用いて学習を行い、この学習によって推論モデルを得る学習部を有する推論用学習装置が提供できる。また、第1の画像取得装置用に収集された教師データを、第1画像取得装置とは特性が異なる第2画像取得装置(例えば、画像取得装置3b)用の推論モデル作成にも有効利用することも出来る。
 つまり、第1の画像取得装置とは異なる画像入力特性の第2の画像取得装置用に、教師データを有効利用して学習する際に、画像加工部が教師データのうち第1の画像取得装置から得た画像データを画像取得特性の差異に応じた加工をして教師データとする画像加工をしながら、異なる画像入力特性の第2の画像取得装置用の推論モデルを作成してもよい。画像入力特性の差異の要因としては、撮像センサの仕様、性能、撮像用光学特性、画像処理仕様、性能、照明光の種別の差異に起因するものがある。
 また、画像取得装置に差異がある場合、その他の装置にも差異があることが考えられる。例えば、そのような環境における撮像対象はおのずと、異なる外観を呈している可能性がある。したがって、上述の画像加工部は、教師データのうち第1の画像取得装置から得た画像データに含まれる第1の対象物の画像データと、第2の画像取得装置から得た画像データに含まれる第2対象物の画像データと適合するように加工するようにしてもよい。
 例えば、第2の画像取得装置で検出された類似の対象物の画像の特徴を、すべて、第1の画像取得装置で得た画像に写っている対象物に付与して、新しい教師データを作成することが考えられる。例えば、学会発表等では、シマウマの画像がない場合、馬の画像に縞を付けて代用するなどの例がある。これは色や模様を変更するだけであるが、その他形状の特徴などの差異を補正して利用してもよい。また、例えば、先端の形状が丸い処置具に対して、先端の形状が四角い処置部の教師データを利用する場合、処置具の先端が比較的丸いものを選んで教師データにしてもよいし、その先端形状の特徴の差異の補正を行って形状を変えた画像で学習すればよい。
 ただし、画像を処理することによって、対象物の応用範囲は広がるが、必ずしも期待する仕様(例えばそのユーザのスキルに合わせたガイド機能)が満たせない場合がある。そこで、この場合には、画像処理だけではなく、教師データの取捨選択やアノテーションの内容や方法の加工(調整や変更)を行うとよい。また、推論結果の表示の仕方に加工を加えてもよい。あるいは、熟練者には、特定の信頼性がある画像取得タイミングで警告を出すが、そうでない場合には、信頼性が低くても、信頼性が向上したタイミングで、安全を見て警告を出すといったカスタマイズが可能となる。
 つまり、本実施形態における推論用学習装置は、第1の画像取得装置からの画像データを入力する入力部と、この画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る学習部と、を有し、さらに第1の画像取得装置とは異なる画像入力特性の第2の画像取得装置用に、上記推論モデルを再学習する際に、第1の画像取得装置から得た画像データをユーザのスキルによって生じる画像入力特性の差異に応じた、信頼性判定レベルの変更などの加工を行って上記教師データとする画像加工部を有している。手振れやもたつき、特定のシーン変化の対応の速さ等において、使用者のスキルが分かれる。このスキルの相違に基づいて、画像入力特性の差異(あるいは時間的な画像データ変化の差異)が生じる。ここでは時間的な画像データ変化の仕方の差異を上位概念的に画像入力特性の差異と表現している。
 また、補正や加工によって作成した教師データを用いて、第2の画像取得装置用に生成した推論モデルに対して、信頼性を判定する時に使うテストデータとしては、第2の画像取得装置の推論モデル用であるので、第2の画像取得装置からのデータを利用してもよい。
 また、見たこともない道具に対する学習では、類似形状の道具を複数組み合わせて確率を上げたり、見た事のない部分の形状に類似な道具を使って学習を行えばよく、従来の教師データにて撮像された処置具画像を置き換えたり、一部形状変更して学習させればよい。安全サイドにたって学習するためには、従来の処置具教師データの出血タイミングを時間的に前倒しにして使用したり、出血の広がりを厳しく設定したりする等の方法が考えられる。
 未熟練者の手技に対して学習する場合について、先に、信頼性レベルを変える方策を説明したが、この方法以外にも、従来の教師データにて得られた道具の動きのぶれを強調したり、時間推移を早めたりする方法が考えられる。従来の手技教師データの出血タイミングを、同様に、時間的に前倒しにして使用したり、ガイドを出すタイミングを前倒したりする等の工夫を行ってもよい。
 ステップS11における判定の結果、信頼性が所定値より低い場合には、教師データを取捨選択する(S13)。信頼性が低い場合には、教師データを取捨選択することによって、信頼性が向上する場合がある。そこで、このステップでは、教師データ選択部1fが、因果関係がないような画像データを除くようにする。例えば、出血拡大・縮小の原因と結果の間に因果関係がないような教師データを除く。この処理は、因果関係を推論する推論モデルを用意しておき、因果関係が低い教師データを自動的に排除するようにしてもよい。また、教師データの母集団の条件を変更するようにしてもよい。教師データを取捨選択すると、ステップS9に戻り、再度、推論モデルを作成する。
 一方、ステップS11における判定の結果、例えば、想定するシステムで得たデータなどを優先的に利用して信頼性を検証し、信頼性がOKとなった場合には、推論モデルを送信する(S15)。ここでは、生成された推論モデルが信頼性の基準を満たしたことから、教師データ選択部1fは、このとき使用した教師データ候補を、教師データとして確定する。また、学習結果利用部1eは、撮像装置6に生成された推論モデルを送信する。撮像装置6は推論モデルを受信すると、推論部2AIに推論モデルを設定する。推論モデルを送信すると、推論モデル作成のフローを終了する。なお、この送信した推論モデルは、その仕様などの情報も併せて送信すれば、撮像装置における推論時に単体画像で推論するとか、複数画像で判定するとか、その時間差がどれくらいあるか(フレームレートなど)等についても反映した制御が出来るようになる。その他の情報を扱えるようにしてもよい
 このように、本フローにおいては、学習装置は、画像取得装置3からの画像データを入力し(S1、S5)、この画像データにアノテーションを行って教師データを作成し(S3、S7)、この作成した教師データを用いた学習によって推論モデルを得ている(S9)。特に、画像取得装置3から時系列で連続的に得た画像において、特定タイミングから遡ったタイミングの画像データに対してアノテーションを行い(S3、S7、S13)、教師データとしている(S11、S13)。このように、常時出力されている画像データの内、何らかのイベントが生じた特定タイミング(例えば、出血が拡大した、出血が縮小した)から時間を遡り、時系列的な画像データを取得し、この画像データにアノテーションを行って教師データ候補としている。この教師データ候補を用いて学習を行うことによって推論モデルを生成し、生成した推論モデルの信頼性が高くなれば、教師データ候補を教師データとしている。
 つまり、本フローにおいては、何らかのイベントが発生した特定タイミングから遡ったデータを用いて推論モデルを生成している。すなわち、特定タイミング時における結果に対応する原因となる事象に基づいて、すなわち因果関係に基づいて、将来を予測することのできる推論モデルを生成することができる。この推論モデルを利用すれば、ユーザが気づかないような小さな行為や現象があった場合であっても、見逃さず、将来を予測でき、例えば事故が起きるような場合に注意や警告を行うことができる。また、ユーザが気づいた心配事があっても、それが大事に至らない場合には、その旨を告知することができる。
 本フローにおける画像推論用学習装置1は、多数の撮像装置6から教師データ群4Aを収集できるので、極めて多くのデータを用いて、教師データを作成でき、信頼性の高い推論モデルを生成することが可能である。またに、本実施形態においては、イベントが発生した場合に、これと関係する範囲に絞ったデータを収集するようにしているので、効率よく推論モデルを生成することができる。
 なお、本フローにおいては、画像推論用学習装置1が、撮像装置6から教師データの候補となり得る画像データ群を収集し、この画像データ群に出血拡大等のアノテーションを行っていた(S3、S7参照)。しかし、撮像装置6が、これらのアノテーションを行って教師データ群を生成し、学習部1cがこの教師データ群を用いて、推論モデルを生成するようにしてもよい。この場合には、画像推論用学習装置1において、アノテーションを行う工程を省略することができる。この場合には、本フローは、画像推論用学習装置1内の制御部1aと、撮像装置6内の制御部7が、協働して実現することになる。
 次に、図4に示すフローチャートを用いて、撮像装置6の動作について説明する。この動作は、撮像装置6内の制御部7が撮像装置6内の各装置や各部を制御することによって実行する。なお、この撮像装置6は、内視鏡装置内に備えられている例として説明する。また、このフローでは、電源のオフ・オフ等、一般的に行われる操作は省略している。
 図4に示すフローが開始すると、まず、撮像および表示を行う(S21)。ここでは、画像取得装置3が、所定時間間隔(フレームレートで決まる)で、画像データを取得すると、この画像データに基づいて、ガイド部5に表示を行う。例えば、撮像装置6が内視鏡装置内に備えてられていれば、内視鏡の先端部に設けられた撮像素子によって取得された体内の画像が、ガイド部5に表示される。この表示は、フレームレートで決まる所定時間毎に、更新される。このガイドの態様を、本明細書に記載に技術によって、初心者と熟練者で分けるなど、ユーザによって変えてもよい。対象物や使用環境で変える場合も想定している。
 次に、AI修正が必要か否かを判定する(S23)。使用している機器(撮像装置6Aを備えている)が、画像取得装置6Bに変更されたり、またバージョンアップされたりして画像データの特性が変更されることによって、推論部2AIに搭載されている推論モデルが適切でなくなる場合がある。また、これらの理由以外にも、他の理由等によって、適切でなくなる場合がある。このような場合には、推論部2AIに設定されている推論モデルを修正するのが好ましい。そこで、このステップでは、制御部7が推論モデルを修正することが必要か否かを判定する。
 上述したような使用機器が変更される等の理由によって、推論モデルが不適切となった場合には、この機器からの画像データを用いて推論モデルを生成するのが好ましい。しかし、この機器のデータが少ない場合には、相当数のデータを収集するまで、推論モデルを生成することができない。そこで、本実施形態においては、今まで収集した画像データを加工することによって、補正した推論モデルを生成するようにする。AI修正必要か否かの詳しい動作について、図7を用いて後述する。
 ステップS23における判定の結果、AIが修正必要と判定されると、次に、補正した推論モデルの生成を依頼し、取得する(S25)。ここでは、撮像装置6は、画像推論用学習装置1に、補正した推論モデルの生成を依頼し、推論モデルが生成されると、これを取得する。補正した推論モデルの依頼の際には、修正が必要な箇所等の情報も送信するとよい。すなわち、前述したように、本実施形態においては、既に使用したことのある教師データを、新しい機器等に適用するように加工し、この加工した教師データを用いて、補正した推論モデルを生成する。この補正した推論モデルの生成の詳しい動作については、図5を用いて後述する。
 補正した推論モデルを取得すると、またはステップS23における判定の結果、AI修正が必要でなかった場合には、次に、トリガ情報か否かを判定する(S27)。例えば、図2(a)(b)を用いて説明したように、イベントが発生した場合、例えば、処置の最中に出血が発生し、この出血が拡大しているような場合には、トリガ情報が発生する。トリガ情報の出力は、この例では、制御部7が、画像取得装置3が取得した画像データを解析し、出血が拡大していると判断した場合に行えばよい。また、この画像解析は、推論モデルを利用したAIによって行っても良く、また、医師が手動で特定の釦等を操作する等によって、トリガ情報を出力するようにしてもよい。
 ステップS27における判定の結果、トリガ情報が発生した場合には、所定時間遡り記録を行う(S29)。ここでは、画像取得装置3が取得した画像データを、所定時間遡って撮像装置6内の画像データ記憶用のメモリに記録する。通常は、画像取得装置3が取得したすべての画像データをメモリに記録しておき、トリガ情報の発生から決まる特定タイミングから所定時間遡った時間の間の画像データに対して所定のメタデータを付して、教師データ候補群として一時記録しておく。トリガ情報がなければ、制御部7は、適宜、画像データ候補群を消去してもよい。図2(a)(b)に示す例では、特定タイミングは出血が拡大した時点であり、遡り時間は、所定時刻(例えば、T=-1sec)からT=-5secの時間である。なお、画像データ群に、T=0~T=T1aの画像データを加えておけば、出血の拡大の経過も含めて学習することができる。遡り記録の始点はトリガ情報が発生した時点からでもよく、またトリガ情報が発生した時点よりも更に遡った時点を遡り記録の始点としてもよい。因果関係の原因を探し出すことができる範囲が含まれるように、適宜遡り時間を決めればよい。この原因となるタイミングは、信頼性によって変わり、遡り時間が長くなるほど、信頼性が下がるが、初心者用には、安全を考慮して、信頼性が低いタイミングを使ってもよい。こうしたものも画像加工と表現している。
 ステップS29において遡り記録を行うと、またはステップS27における判定の結果、トリガ情報がなかった場合には、次に、画像推論を行う(S31)。ここでは、画像取得装置3によって取得された画像データを画像推論装置2の画像入力部2INに入力し、推論部2AIが推論を行う。推論結果出力部2OUTが推論結果を出力すると、ガイド部5が出力結果に基づくガイドを行う。例えば、図2(a)(b)に示すように、時刻T=―5secにおいて、推論を行い、5秒後(T=0)に出血が開始しそうとの表示を行うことができる。また時刻T=0において、出血があった場合には、出血が拡大するか縮小するかの推論結果に基づいて、表示Gaまたは表示Goを行う。なお、画像推論装置2以外にも、画像推論装置2a等、複数の画像推論装置を有する場合には、複数の推論を行うことができる。例えば、出血の予想用以外にも他の予想を行うことが可能となる。
 また、画像の推論を行う際に、画像データのみならず、診断や処置時における医師の声で推論を補足するようにしてもよい。また、診断や処置に使用している機器について、信頼性を推論し、信頼性が所定値より低い場合には、信頼性の高い機器を薦めてもよい。また、処置に使用している処置具がノイズ(画面で観察する際に邪魔になる)となる場合もあることがあることから、画像推論によって処置具の部分の画像を加工してもよい。
 画像推論を行うと、次に、教師データ候補を出力するか否かを判定する(S33)。ここでは、制御部7が、ステップS29において遡り記録を行っていたか否かを判定する。遡り記録を行っていた場合には、このときの画像データが教師データ候補として、撮像装置6内のメモリに記憶されている。この判定の結果、遡り記録を行っていなかった場合には、ステップS21に戻る。
 ステップS33における判定の結果、Yesの場合には、教師データ候補を出力する(S35)。ここでは、制御部7が撮像装置6内のメモリに記憶された教師データ候補群を画像推論用学習装置1に出力する。なお、画像推論学習装置1は教師データ候補群を受信すると、記録部4に記録しておく。ステップS35において、教師データ候補を出力すると、ステップS21に戻る。
 なお、本実施形態においては、撮像装置6において、出血が拡大した、あるかは出血が縮小したという判定を行っている(図4のS27参照)。しかし、この判定を画像推論用学習装置1の制御部1aにおいて行ってもよい。すなわち、出血の拡大・縮小は、画面内に占める血の色の形状や大きさの変化によって判定することができ、ロジックベースでも推論によっても検出が可能である。また、拡大・縮小の判定は、教師データのカスタマイズに応じて、敢えて、変更してもよい。初心者用には、安全を考慮して、拡大しない場合でも拡大するアノテーションを行った画像として教師データ化してもよい。こうしたものも画像加工と表現している。
 また、ステップS27におけるトリガ情報は、内視鏡を使用した際に体内で出血した例について説明した。しかし、出血以外にも、本実施形態を適用することができる。例えば、ウエラブルのセンサによって体温や体重を計測できる場合に、体温が急上昇した場合にはトリガ情報を発生し、それまでの体温データや体重データや他のデータ(画像データを含む)を遡り記録してもよい。これらのデータを教師データとして、推論用学習装置に送信すれば、推論モデルを生成することが可能となる。
 また、ステップS35において、遡り記録に基づいて作成した教師データ候補群を推論用学習装置に送信していた。このときの教師データ候補群は、同一の機器(撮像装置6)に記録されていた画像データ群を遡るだけではなく、他の機器の検出データを遡って、因果関係を調べるようにしてもよい。
 また、ステップS23において、撮像装置において、AI修正が必要か否かを判定していた。しかし、AIの修正が必要か否かを、画像推論用学習装置1において行ってもよい。画像推論用学習装置1の画像入力部1bにおいて入力した教師データ群が、それまで蓄積している教師データ群の特性(用途も含む)と異なっていることを、画像加工部1d(または制御部1a)が検知した場合に、AIの修正が必要と判定すればよい。
 また、初めて見たものでも、正常である場合の画像に対して、正常とアノテーションを行って教師データを作成し、この教師データを用いて学習することによって、正常でないことを判定する推論が出来る。例えば、胃の画像から病変や色や形状などの異常判定する判定部を用意すればよく、異常と認識した場合に、それがどう異常かを判別するAIが必要であるとしてもよい。
 また、現在保有しているAIによる「正常」判定の信頼性(あるいは「異常」判定の信頼性でもよい)を用いて、AIの修正が必要であるかを判断し、この判断結果が、一定以下の信頼性の場合には、初見であると判断し、AIの修正を実施するようにしてもよい。
 また、ここでは、推論モデル生成の学習例として、極めて先進的な医療分野における因果関係ガイド推論を例にして説明した。しかし、本実施形態は医療分野に限らず、ガイド用の推論に応用してもよい。実際によく用いられる推論モデルは、画像の中に見えるものを同定する用途のものが多く、監視カメラの様々な人物検知、行動検知や車載カメラの障害物検知等は、こうした画像検出型である。本実施形態を用いて説明したような、入力画像データの態様の差異をキャンセルさせて推論の性能を向上させる技術は、検出同定タイプでも有効であることは言うまでもない。
 つまり、第1の画像取得装置からの画像データを入力する入力部と、この画像データにアノテーションを行って得た教師データによる学習によって推論モデルを得る学習部とを有する画像推論用学習装置において、その適用範囲を広げて、有用な推論モデルについては効率的に、様々な制約を超えて、様々な分野で利用できる可能性がある。しかし、制約等によって、すぐには、有用な教師データを集めることは困難な場合がある。そこで、本実施形態における推論用学習装置は、第1の画像取得装置とは異なる条件で使われる第2の画像取得装置用に、推論モデルをカスタマイズ(これは、完全に違うものを作るのではなく、すでに実績がある同様の仕様を期待しているイメージ)する際に、教師データのうち第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工をして教師データとする画像加工部とを具備するようにしている。この工夫によって、直ぐに有用な教師データを集めることができなくても、有用な推論モデルを作成することが可能となる。
 また、第1の画像取得部から得られた教師データのみ、或いは教師データをそのままを使うことに限る必要はない。例えば、第1の画像取得部では得られていなくても、論文などに掲載された、或いはその他で報告された、対象物の異常情報等を用いてもよい。例えば、対象物の異常として腫瘍等の情報がある場合には、この腫瘍の画像の大きさを変形したり、拡大・縮小したりして教師データを補正してもよい。必要に応じて、色の修正や類似画像部位の変形などを行って、新たに教師データ化してもよい。こうした加工は、第2の画像取得部の使用環境で得られた情報に応じて、そこで起こり得る状況を参考にして行えば、さらに信頼度が向上する。
 次に、図5に示す補正した推論モデル作成のフローを説明するに先立って、図6を用いて、画像データの加工について説明する。図6(a)は、図2(a)と同様に、内視鏡による処置を行っていた際に出血し、この出血が拡大した場合を示す。
 図6(b)は、図6(a)の場合と同様に、出血が拡大した場合を示している。この例では、撮像装置6は、画像取得装置3aとは異なる特性の画像取得装置(例えば、画像取得装置3b)を使用している。この画像取得装置3bの撮像素子の画素数が小さいために、取得できる画像データID3は、画像データID1とは大きく異なっている。このため、画像データID1と同等の特性を有する画像データを蓄積して作成した推論モデルに、図6(b)のような画像データを入力しても、信頼性の低い推論しかできない。また、画像データID3を、それまでに蓄積した画像データと混合した母集合を用いて、推論モデルを作成しても、信頼性の低い推論モデルしか生成できない。
 ここでの特性とは、画像読み取り装置の仕様や性能に基づいているものであり、そこで扱う対象物、アクセサリ等の周辺装置、関連連携装置の仕様や性能に基づいているものであり、さらにはこれらの使用環境によって変化しうるものである。画像入力特性は、撮像センサの仕様、性能、撮像用光学特性、画像処理仕様、性能、照明光の種別の差異に起因するという言い方も出来る。もちろん、ユーザのモード設定によって、こうした要素が変化する場合もあり、その場合には、それらの要素も考慮するとよい。
 そこで、本実施形態においては、画像加工部1dが、画像入力特性の差異に基づいて、それまでに使用した画像データの加工(補正)を行って、図6(b)と同様の画像データのレベルに調整している(図5のS1a、S5a参照)。そして、この補正した画像データにアノテーションを行って(図5のS3a、S7a参照)、推論モデルを作成している(図5のS9参照)。なお、それまでに使用した教師データについて、画像入力特性の差異に基づいて、画像データの加工(補正)を行っている場合に、教師データのアノテーションを変更する必要がなければ、画像データの加工(補正)のみを行う。
 次に、図5に示すフローチャートを用いて、補正した推論モデル作成の動作について説明する。このフローは、ステップS25(図4参照)において、撮像装置6から画像推論用学習装置1に補正した推論モデルの作成の依頼がなされた際に実行される。このフローは、画像推論用学習装置1の制御部1aが、画像推論用学習装置1内の各部を制御することによって実現する。このフローは、画像推論用学習装置1が、出血が拡大した場合や縮小した場合の画像に基づいて、補正した推論モデルを作成する例である。
 図5に示す補正した推論モデル作成のフローが開始すると、まず、出血拡大時過程画像を収集する(S1a)。図2(a)を用いて説明したように、処置時に出血が拡大した場合であり、画像加工部1dは、画像推論用学習装置1内の記録部や撮像装置6から、このときの画像データを収集し、この画像データを補正する。図2(a)に示す例では、T=-5秒~T=-1秒の間の画像データを収集する。そして、この収集した画像データに対して、図6(b)に示すような画像データID3(例えば、画像取得装置3bの出力する画像データ)と同レベルの画像データとなるように、画像加工部1dは補正を行う。
 また、前述したように、ユーザが装置を利用する状況、環境、対象物などに従った、カスタマイズによって、より信頼性の推論モデルを得たいので、このステップS1aでは、希望仕様を把握するようなこと(カスタマイズ要求)も行ってもよい。このカスタマイズ要求に合わせて、画像の取捨選択や画像補正、アノテーションの修正等を行い、適切な教師データの再構成(加工、編集、処理)を行う。
 例えば、第1の仕様(以下に列挙する要因も含めている)の画像取得装置から取得した画像データは、装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリ等の周辺機器、処置具、操作者等についても、第2の仕様の画像取得装置から取得した画像データとは一致するものが少ない状況であることが多い。このため、第1の仕様の画像取得装置からの画像データにアノテーションを行って得た教師データを用いて学習し、この学習によって得た推論モデルのままでは、そのまま第2の仕様の画像取得装置において利用することが困難な状況になりがちである。そこで、本実施形態の推論用学習装置は、第1の(仕様の)画像取得装置とは異なる画像入力特性を有する、第2の(仕様の)画像取得装置用に、推論モデルをカスタマイズして学習する際に、教師データのうち第1の画像取得装置から得た画像データを画像取得特性(装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含む)の差異に応じた加工をして教師データとする画像加工部を備えるようにしている。この画像加工部によって、教師データを最適化することで、第2の仕様の画像取得装置においても利用できる推論モデルが生成できる。
 処置具等を使用する場合における補正の一例として、処置具形状が変化したと判断できる場合には、最も形状が近い処置具の教師データセットを用い、画像の幾何学変換や一部引き延ばし・縮小等の非線形変換などを行うとともに、その変換に合わせて処置具部分を示すアノテーション情報も変換する方法がある。幾何学変換で先端部形状が尖り方向である場合、アノテーションも出血しやすい方向に重みづけしたり、重みづけ判定した結果、「出血」となるようにアノテーションしたりする。形状の変化がどのような影響を及ぼすかを、形状差異別教師データで学習した他のAI(形状変化効果予測AI)で判定して、その結果を反映する方法を利用、併用してもよい。
 上述の画像加工部は、教師データのうち第1の画像取得装置から得た画像データに含まれる第1の対象物画像データ(これは実績があるものが多いとしている)を極力、有効に使用したい場合も多いので、第2の画像取得装置から得た画像データに含まれる第2対象物の画像データと適合するように装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含む画像取得特性に応じて加工するようにしている。
 また、画像加工部1d(または画像選択部1fと協働して)は、検出性能に劣る画像センサや操作性に劣る処置具を使用する場合や、使用者の熟練度、対象となる患者や患部に応じて、安全サイドに振って早めに警告を出すような工夫や、極力、類似の要因の教師データを優先して利用したり集めたりする。
 ステップS1aにおいて、画像を収集し補正すると、次に、「出血拡大」とタイミングをアノテーションする(S3a)。ここでは、制御部1aは、教師データとして使用するために、画像データに、「出血拡大」である旨と、その画像データを取得したタイミングを、アノテーションする。具体的には、制御部1aは、教師データとして使用するために、画像データを選択し直したり、重みづけを変えたりし、あるいは、従来の画像データ、あるいはそれを加工したものに、「出血拡大」等である旨と、その画像データを取得したタイミングを、カスタマイズ措置を行ってアノテーションする。このカスタマイズ措置を加工と言う言い方で表してもよい。また、「出血縮小」とされていた画像でも、特定の時間以上、出血部面積が縮小しなかったものは、「出血拡大」としてアノテーションし直して、熟練者の処置で得た画像を、初心者用の教師データ化するといった変更も「加工」と言える。なお、画像データが補正(加工)され、アノテーションが付された教師データは、教師データB群4bとして、記録部4に記録しておいてもよい。
 次に、出血縮小時過程画像を収集する(S5a)。図2(b)を用いて説明したように、処置時の出血が縮小した場合であり、画像加工部1dは、画像推論用学習装置1内の記録部や撮像装置6から、このときの画像を収集する。図2(b)に示す例では、T=-5秒~T=-1秒の間の画像を収集する。そして、この収集した画像データに対して、図6(b)に示すような画像データID3(例えば、画像取得装置3bの出力する画像データ)と同レベルの画像データとなるように、画像加工部1dは補正を行う。
 ステップS5aにおいて、画像を収集し、補正すると、次に、「出血縮小」とタイミングをアノテーションする(S7a)。ここでは、制御部1aは、教師データ候補として使用するために、画像データに、「出血縮小」である旨と、その画像データを取得したタイミングを、アノテーションする。なお、画像データが補正(加工)され、アノテーションが付された教師データは、教師データB群4bとして、記録部4に記録しておいてもよい。
 ステップS3aおよび7aにおいて、画像データに対してアノテーションを付与し、教師データを作成すると、図3と同様に、推論モデルを作成する(S9)。ここでは、ステップS3a、S7aにおいてアノテーションを施した教師データを用いて、学習部1cが推論モデルを作成する。この推論モデルは、図6(b)に示すような画像データID3Sを入力した場合に、「〇秒後、出血が拡大」を出力するというような予測ができるようにする。
 推論モデルを作成すると、信頼性がOKか否かを判定する(S11)。ここでは、図3と同様に、学習部1cが、予め回答が分かっている信頼性確認用の画像データを、その推論モデルに入力した場合の出力が、回答と同じであるか否かに基づいて信頼性を判定する。作成された推論モデルの信頼性が低い場合には、回答が一致する割合が低い。
 このステップでは、テストデータを入力し、期待するような推論結果を出力するかを判定する。このテストデータは、実際にこの推論モデルを利用する第2の仕様の画像取得装置の仕様環境、条件(装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含む)に合わせたものであることが好ましく、ここでは、第2の仕様の画像取得装置の仕様環境、条件で得られたデータを優先的に使いのが望ましい。ただし、そのようなデータがすぐに揃わない場合も多いことから、第2の画像取得装置から得た画像データに含まれる第2対象物の画像データと適合するように、第1の画像取得装置から得ていたデータを、装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物もアクセサリなど周辺機器、処置具、操作者なども含む画像取得特性の差異に応じて加工して利用する。もちろん、利用者がどのような判定をして欲しいかをマニュアル入力できるようにして、それを採用してもよい。
 ステップS11における判定の結果、信頼性が所定値よりも低い場合には、図3と同様に、教師データを取捨選択する(S13)。信頼性が低い場合には、教師データを取捨選択することによって、信頼性が向上する場合がある。そこで、このステップでは、因果関係がないような画像データを除くようにする。教師データを取捨選択すると、ステップS9に戻り、再度、推論モデルを作成する。
 一方、ステップS11における判定の結果、信頼性がOKとなった場合には、図3と同様に、推論モデルを送信する(S15)。ここでは、生成された推論モデルが信頼性の基準を満たしたことから、教師データ選択部1fは、推論の際に使用した教師データ候補を、教師データとして確定する。また、学習結果利用部1eは、撮像装置6に生成された推論モデルを送信する。撮像装置6は推論モデルを受信すると、推論部2AIに推論モデルを設定する。推論モデルを送信すると、推論モデル作成のフローを終了する。
 このように、図5に示す補正した推論モデル作成のフローでは、教師データとして使用する画像データを収集し(S1a、S5a)、収集した画像データに対して画像加工部1ddが補正(加工)している(S3a、S7a)。推論の対象となる画像データ等のデータの特性が変わったことから、推論モデルの補正が依頼されている。そこで、このフローでは、新たなデータの特性に応じた推論モデルが生成されるように、蓄積されているデータを、新たなデータの特性に適合するように補正している。このため、新たな特性を有するデータを、収集し直すことが必要なく、迅速かつ安価に推論モデルを作成することができる。
 次に、図7に示すフローチャートを用いて、ステップS23(図4参照)のAI修正必要かの判断の動作について説明する。このフローは、撮像装置6内のCPU7aがメモリ7bに記憶されたプログラムに従って撮像装置6内の各部を制御することによって実行する。
 図7に示すAI修正必要かの動作を開始すると、まず、画像取得装置の機種情報が有るか否かを判定する(S41)。ここでは、画像取得装置3について、機種の詳しい情報があるか否かを判定する。機種情報としては、例えば、画素数、フレームレート、解像度、焦点距離情報、対象物までの距離情報等がある。なお、撮像装置6内に、画像取得装置3が一体に構成されている場合には、機種情報を取得することは容易であるが、別体に構成されている場合には、インターネット等の情報通信網を通じて取得して、必要に応じてデータベース等も参照しても良い。
 ここでは、単純化して、画像取得装置の仕様、性能の差異について例示している。しかし、実際には、前述したように、ユーザが装置を利用する状況、環境、対象物などに従った、カスタマイズを目的とするものであるから、より信頼性の推論モデルを得るために、希望仕様を把握するようなこと(カスタマイズ要求)の判定等もここで行ってもよい。例えば、機種は同じでも、併用する機材や使用者の力量や対象物の差異なども、マニュアル入力結果や記録部に記録されている情報等をもとに、この機種情報と同様の扱いが可能となる。
 ステップS41における判定の結果、画像取得装置の機種情報が有る場合には、次に、機種情報に基づく画質情報DBによって、補正方法を取得し、補正方法を決定する(S43)。ここでは、制御部7は、ステップS1a、S5aにおいて行う補正方法を決定する。例えば、撮像素子の画素数が少ない場合には、画素数比に応じて、取得した画像データの画素数を乗除(間引き、水増し等)すればよい。こうした処理も加工と表現したが、その他、教師データとしての画像の扱い方も加工と表現している場合がある。
 ここで、画質差について、特に詳しく判定する方法の説明を続ける。ステップS41における判定の結果、機種情報がない場合には、基準シーン画像があるか否かを判定する(S45)。基準シーン画像は、画像データ等の特性が異なっているか否かを判定するために対象物を撮像して得た時の画像である。すなわち、AIが修正か否かを判断するには、現在の推論モデルを作成するに使用した画像データと、今、入力した画像データが同じであるか否かを判定するのがよい。このためには、同じ対象物を撮影した画像を比較すれば分かり易い。ただ、一般には、全く同じ対象物を撮影するのは困難であることから、同じような対象物を撮影すれば十分である。内視鏡であれば、例えば、口腔から食道に挿入する際に取得できる画像は、機器や被検者が異なっても、大体同じような画像となるので、この時の画像を基準シーンとすればよい。内視鏡以外の例としては、カメラのノウハウとして青空が基準になるという場合もあり、白チャート、グレーチャートの他、性能判定用の基準チャートなどもある。特別なチャートを用意しなくとも、文字やパターンで既知のものや、標準化されたものを撮像すれば、本来の形状などからの差異から周辺光量の変化や収差情報などが得られる。
 ステップS45における判定の結果、基準シーン画像でなかった場合には、基準シーンの画像を推定する(S47)。基準シーンとなる画像がないことから、画像取得装置3が取得した画像の中から代替画像を探さなければならない。この基準シーンの代替となる画像としては、基準シーン程ではないにしても、2つの画像を比較して、画像データの特性が相違しているかどうかを判定できる程度に類似していることが望ましい。例えば、内視鏡検査では、処置具を使用することがあり、処置具の形状は、類似しているものが多い。この場合には、取得した画像の中で、処置具の形状が分かる画像を基準シーンと推定する。また、単に処置具の形状のみならず、処置具が画面内への現れ方(現れた位置等)についても、基準シーンの画像を推定する際に判断基準として使用してもよい。内視鏡に限らず、顕微鏡やカメラ等でも、併用する機材は似たような形状や色のものが多いので、これらの機材等の映り込みを判定して比較可能にしてもよい。
 ステップS47において基準シーンの画像を推定すると、またはステップS45における判定の結果、基準シーン画像があった場合には、次に、基準画像との差異が許容可能か否かを判定する(S49)。前述したように、2つの画像を比較して、画像データの特性が相違していなければ、推論モデルを修正する必要がない。ここでは、推論モデルを修正しなければならないほど、画像取得装置3から取得した画像データの特性が異なっているかどうかを判定する。また、同じような箇所の画像でありながら、差異が大きいかい否かを判定する。
 ステップS49における判定の結果、基準画像との差異が許容範囲であれば、Noに分岐する(S55)。今、画像取得装置3が取得した画像が、基準シーンとの差異が大きくなければ、推論モデルを修正しなくても済むことから、Noに分岐し、図4のステップS27に進む。
 一方、ステップS49における判定の結果、基準画像との差異が許容範囲になければ、次に、画像の特徴に基づいて補正方法を決定する(S51)。今、画像取得装置3が取得した画像と、基準シーンとの差異の程度によって、補正方法が異なるので、制御部1aは差異の程度等に応じて補正方法を決定すればよい。例えば、画素数が異なる場合には、今、取得した画像取得装置3の画像と同程度の画素数となるように、蓄積されている画像の画素数を増減する方法を決定すればよい。光学系の性能や撮像センサ、画像処理の差異以外にもフレームレートの差異や画角の差異、照明光の差異等についても、同様の方法で対処可能である。
 ステップS43またはS51において補正方法を決定すると、Yesに分岐する(S53)。今、画像取得装置3が取得した画像が、基準シーンとの差異が大きいので、推論モデルを修正する必要があり、Yesに分岐し、図4のステップS25に進む。
 このように、図7に示すAI修正必要かのフローにおいては、画像取得装置の機種情報があれば、機種に応じて画像データを補正するための補正を決定している(S41、S43参照)。一方、画像取得装置の機種情報がなければ、基準シーン画像または基準シーンと推定された画像を用いて、推論モデルの修正が必要か否かを判定し(S49参照)、必要と判定された場合には、画像の特徴から補正方法を決定している(S51)。本フローにおいては、画像取得装置の機種情報や、基準シーン画像等に基づいて、補正が必要か否か、また補正するとすれば補正方法をどうするかについて決定していた。しかし、AI修正が必要か否かは、多種多様は判断要素があることから、これらの情報を追加してもよく、またこの判断そのものをAIによって行ってもよい。
 前述したように、ここでは、機器使用環境に差異があるケースにおけるカスタマイズのうち、主に撮像部の性能、機能、仕様の差異に対するカスタマイズ、それに合わせた教師データの加工について説明した。しかし、カスタマイズ要求に合わせて、画像品質、特徴の加工(画像補正)を行うだけではなく、画像の取捨選択そのものや、アノテーションの修正等を行いながら、適切な教師データの再構成(加工、編集、処理)を行うことが可能なシステム、装置、方法を提供することができる。
 繰り返しになるが、第1の仕様(以下に列挙する要因も含めている)の画像取得装置からの画像データは、装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなどの周辺機器、処置具、操作者なども第2の仕様の画像取得装置とは一致するものが少ない状況であることが多い。この場合には、第1の仕様の画像取得装置からの画像データにアノテーションを行って得た教師データによる学習によって得た推論モデルのままでは、そのまま利用することが困難な状況になりがちになってしまう。本実施形態は、このような状況を解決することができる。
 上述した状況を解決するために、本実施形態は、第1の(仕様の)画像取得装置とは異なる画像入力特性を有する第2の(仕様の)画像取得装置用に、推論モデルをカスタマイズして学習する際に、第1の画像取得装置から得た画像データを画像取得特性(装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物もアクセサリなど周辺機器、処置具、操作者なども含む)の差異に応じた加工をして教師データとする画像加工部を備えている。この画像加工部によって教師データを最適化することで、第2の画像取得装置にも対応する推論モデルを生成することができる。この画像加工のもととなる情報の取得や、その加工の一例については、図7を用いて説明した。
 つまり、画像加工部は、教師データのうち第1の画像取得装置から得た画像データに含まれる第1の対象物画像データ(これは実績があるものが多いとしている)を極力、有効に使用したい場合も多いので、第2の画像取得装置から得た画像データに含まれる第2対象物の画像データと適合するように装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物もアクセサリなど周辺機器、処置具、操作者なども含む画像取得特性に応じて加工している。上述したような工夫を行うことにより、例えば、画像の中から、特定の対象物を、その装置の性能に合わせ、最適な検出を行うことが可能となる。画像推論モデルの重要なカテゴリである、画像内対象物検出やセグメンテーションなどには有効な技術となる。
 さらに、「出血拡大」や「出血縮小」といったアクシデントを推論するべく、タイミングを予測アノテーションする場合では、単に、画質の差異に留まらない加工を行うことが好ましい。検出性能に劣る画像センサに関しては、上述の補正(加工)方法で対処可能だが、操作性に劣る処置具を使う場合や、使用者の熟練度が低い場合や、対象となる患者や患部に応じて、安全サイドに振って早めに警告を出すような工夫や、極力、類似の要因の教師データを優先して利用したり集めたりしてもよい。
 上述のような場合には、制御部1aは、教師データとして使用するために、選択し直した画像データに、重みづけを変えたりした画像データに、或いは従来の画像データ若しくはそれを加工した画像データに、「出血拡大」等である旨と、その画像データを取得したタイミングについて、カスタマイズ措置を行ってアノテーションする。このカスタマイズ措置を加工と言う言い方で表してもよい。また、「出血縮小」とされていた画像でも、特定の時間以上、出血部面積が縮小しなかったものは、「出血拡大」としてアノテーションし直して、熟練者の処置で得た画像を、初心者用の推論モデル作成用に教師データ化するといった変更も「加工」と言える。
 なお、このAIの修正が必要か否かの判定は、図7においては、撮像装置6において行っている。しかし、撮像装置6に限らず、画像推論用学習装置1において、この判定を行ってもよい。この場合には、撮像装置6からの画像データを取得する際に、機種情報等の情報を取得し利用してもよい。また、基準シーン画像等のデータベースを用意しておき、撮像装置6からの画像データと比較することによって、基準シーン画像が含まれているか否かを判定してもよい。もちろん、マニュアル入力その他のカスタマイズ要求に合わせて、画像品質、特徴の加工(画像補正)のみならず、画像の取捨選択そのものや、アノテーションの修正等に反映してもよく、適切な教師データの再構成(加工、編集、処理)を行ってもよい。AIの修正という書き方であれば、装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含んでの修正である。これらも画像推論エンジンの場合、入力データの基本が画像であるので、広義には画像取得特性と考えることが出来る。
 また、AIの修正が必要なのは、画像取得装置3からのデータが未知のカテゴリに属する場合であり、未知のカテゴリに属するか否かは、人工知能によって自動判断し、または第2の画像取得装置(例えば、画像取得装置3b)の使用者が手動で設定してもよい。また、未知のカテゴリに属するか否かは、第2の画像取得装置(例えば、画像取得装置3b)の機種情報、および/または第2の画像取得装置からの画像データの中から基準画像と推定した画像に基づいて、判定するようにしてもよい。
 以上説明したように、本発明の一実施形態においては、第1の画像取得装置からの画像データを入力し(例えば、図5のS1a、S5a参照)、第1の画像取得装置とは異なる特性の第2の画像取得装置用に、推論モデルを再学習する際に、教師データのうち第1の画像取得装置から得た画像データを加工して教師データとし(例えば、図5のS3a、S7a参照)、画像データにアノテーションを行って得た教師データによる学習によって推論モデルを得る(例えば、図5のS9参照)。このため、予め想定していたカテゴリのデータに限らず未知のカテゴリにおいて、それまで蓄積したデータに対してデータの特性が変わった場合であっても、適切な推論を行うことができる。つまり、想定外のデータを扱う場合であっても、それまでに蓄積してあるデータを加工することによって、想定外のデータに対しても推論することができる推論モデルを生成することができる。
 また、本発明の一実施形態においては、第1の画像取得装置からの画像データを入力し(例えば、図5のS1a、S5a参照)、第1の画像取得装置とは異なる条件で使用される第2の画像取得装置用に、推論モデルをカスタマイズする際に、第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工を行って教師データとし(例えば、図5のS3a、S7a参照)、画像データにアノテーションを行って得た上記教師データを使用した学習によって推論モデルを得ている。このため、予め想定していたカテゴリのデータに限らず未知のカテゴリにおいて、それまで蓄積したデータについて、データの特性が変わった場合であっても、適切な推論を行うことができる。つまり、想定外のデータを扱う場合であっても、それまでに蓄積してある第1の画像取得装置からのデータの取捨選択や加工することによって、想定外のデータに対しても推論することができる推論モデルを生成することができる。
 ここでは、「想定外のデータ」と書いたが、この想定外のデータは、十分な教師データを収集できない「想定外の装置」からのデータであったり、「想定外の環境」からのデータであったりする。つまり、装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含む画像取得特性の結果としての「想定外のデータ」である。そこで、想定外とする要因に対応して、教師データの取捨選択や画像処理等の加工を行うことによって、既知のデータを最大限有効活用することができ、AIの解決すべき期待領域を拡張して、機材や使用者の制約を少なくして安心、安全な世界を切り開くことが可能となる。
 上述したように、本発明の一実施形態では、貴重な教師データを状況に応じて加工して利用することができる。このため、必要とされる状況に対して、即座に対応できるシステムを構築し、世界中の様々な状況下で、高度なAIの活用が可能となり、人々の安全と安心を約束する社会の実現が可能となる。もちろん、コンシューマユース、エンタメユースにおいても、失敗のないアウトプットを補助し、高品質なコンテンツや創造物の後押しに有効利用が出来る。このようにAIの補助で後押しされてオープンになった多様なデータや、高品質化されたデータがまた、有効な教師データとなって、こうした世界の実現を後押しすることができる。
 なお、本発明の一実施形態においては、撮像装置6は画像取得装置6が取得した画像データを画像推論用学習装置1に送信するだけであったが、撮像装置6においてアノテーションを行って教師データを作成し、この教師データを画像推論用学習装置1に送信するようにしてもよい。この場合には、AIの修正が必要な場合には、画像推論用学習装置1において、教師データに対して加工を行い、推論モデルを補正すればよい。また、撮影装置6がAIの修正が必要か否かを判定していたが(図4のS23参照)、AIの修正が必要か否かは、撮像装置6に限らず、画像推論用学習装置1において判定してもよい。例えば、画像推論用学習装置1は、種々の撮像装置6から送信されてくる画像データ等を解析し、既知のデータと比較し、特性(装置の性能、仕様、環境、周辺システムのみならず、そこで扱う対象物、アクセサリなど周辺機器、処置具、操作者なども含む要因によって差異が出るもの)が異なっていると判定した場合には、AIの修正を行ってもよい。
 また、本発明の一実施形態においては、画像データから作成した教師データを用いての学習し、推論モデルを生成していた。しかし、教師データは、画像データに限らず、他のデータ、たとえば、体温や血圧等の時系列バイタルデータ等に基づいて作成しても勿論かまわない。
 また、本発明の一実施形態においては、ロジックベースの判定を主として説明したが、これに限らず、機械学習を使用した推論による判定を行ってもよい。これらは、本実施形態においてはどちらを使用してもよい。また、判定の過程で、部分的にそれぞれの良さを利用してハイブリッド式の判定をしてもよい。
 また、本発明の一実施形態においては、制御部7や制御部1aは、CPUやメモリ等から構成されている機器として説明した。しかし、CPUとプログラムによってソフトウエア的に構成する以外にも、各部の一部または全部をハードウエア回路で構成してもよく、ヴェリログ(Verilog)によって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよく、またDSP(Digital Signal Processor)等のソフトを利用したハードウエア構成を利用してもよい。これらは適宜組み合わせてもよいことは勿論である。
 また、制御部は、CPUに限らず、コントローラとしての機能を果たす素子であればよく、上述した各部の処理は、ハードウエアとして構成された1つ以上のプロセッサが行ってもよい。例えば、各部は、それぞれが電子回路として構成されたプロセッサであっても構わないし、FPGA(Field Programmable Gate Array)等の集積回路で構成されたプロセッサにおける各回路部であってもよい。または、1つ以上のCPUで構成されるプロセッサが、記録媒体に記録されたコンピュータプログラムを読み込んで実行することによって、各部としての機能を実行しても構わない。
 また、本発明の一実施形態においては、画像推論用学習装置1は、制御部1a、画像入力部1b、学習部1c、画像加工部1d、学習結果利用部1e、教師データ選択部1f、記録部4を有しているものとして説明した。しかし、これらは一体の装置内に設けられている必要はなく、例えば、インターネット等の通信網によって接続されていれば、上述の各部は分散されていても構わない。同様に、撮像装置6は、画像推論部2、画像取得装置3、ガイド部5を有しているものとして説明した。しかし、これらは一体の装置内に設けられている必要はなく、例えば、インターネット等の通信網によって接続されていれば、上述の各部は分散されていても構わない。
 また、近年は、様々な判断基準を一括して判定できるような人工知能が用いられる事が多く、ここで示したフローチャートの各分岐などを一括して行うような改良もまた、本発明の範疇に入るものであることは言うまでもない。そうした制御に対して、ユーザが善し悪しを入力可能であれば、ユーザの嗜好を学習して、そのユーザにふさわしい方向に、本願で示した実施形態はカスタマイズすることが可能である。
 また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを通じてダウンロードしたものでもよい。
 また、本発明の一実施形態においては、フローチャートを用いて、本実施形態における動作を説明したが、処理手順は、順番を変えてもよく、また、いずれかのステップを省略してもよく、ステップを追加してもよく、さらに各ステップ内における具体的な処理内容を変更してもよい。
 また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。
 本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせによって、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1・・・画像推論用学習装置、1a・・・制御部、1aa・・・CPU、1ab・・・メモリ、1b・・・画像入力部、1c・・・学習部、1d・・・画像加工部、1e・・・学習結果利用部、1f・・・教師データ選択部、2・・・画像推論装置、2IN・・・画像入力部、2SN・・・推論変更部、2AI・・・推論部、2OUT・・・推論結果出力部、3・・・画像取得装置、3a・・・画像取得装置、3aa・・・3D等、3b・・・画像取得装置、4・・・記録部、4a・・・教師データA群、4b・・・教師データB群、 5・・・ガイド部

Claims (15)

  1.  第1の画像取得装置からの画像データを入力する入力部と、
     上記画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る学習部と、
     を有する推論用学習装置において、
     上記第1の画像取得装置とは異なる画像入力特性の第2の画像取得装置用に、上記推論モデルを再学習する際に、第1の画像取得装置から得た画像データを上記画像入力特性の差異に応じた加工を行って上記教師データとする画像加工部と、
     を具備することを特徴とする推論用学習装置。
  2.  上記画像加工部は、第1の画像取得装置から得た画像データに含まれる第1の対象物画像データが、上記第2の画像取得装置から得た画像データに含まれる第2の対象物画像データに適合するように加工することを特徴とする請求項1に記載の推論用学習装置。
  3.  上記画像入力特性は、撮像センサの仕様、性能、撮像用光学特性、画像処理仕様、性能、および照明光の種別の少なくとも1つの差異に起因することを特徴とする請求項1に記載の推論用学習装置。
  4.  上記画像加工部は、上記教師データのうち第1の画像取得装置から得た画像データを上記画像入力特性の差異に応じた教師データとなるように、同一画像へのアノテーションを変更することを含むことを特徴とする請求項1に記載の推論用学習装置。
  5.  上記第1の画像取得装置から得た画像データは、既存の教師データであり、
     上記画像加工部は、上記第2の画像取得装置からの画像データの特性に応じて、上記既存の教師データを画像処理することを特徴とする請求項1に記載の推論用学習装置。
  6.  上記第1の画像取得装置から得た画像データは、既存の教師データであり、
     上記画像加工部は、上記第2の画像取得装置からの画像データの特性に応じて、上記既存の教師データの取捨選択を行うことを特徴とする請求項1に記載の推論用学習装置。
  7.  上記画像加工部は、上記教師データのうち第1の画像取得装置から得た画像データを、上記第2の画像取得装置からの画像データと適合するように加工することを特徴とする請求項1に記載の推論用学習装置。
  8.  上記第2の画像取得装置からの画像データは未知のカテゴリに属することを特徴とする請求項1に記載の推論用学習装置。
  9.  上記未知のカテゴリに属するか否かは、人工知能によって自動判断し、または上記第2の画像取得装置の使用者が手動で設定することを特徴とする請求項8に記載の推論用学習装置。
  10.  上記未知のカテゴリに属するか否かは、上記第2の画像取得装置の機種情報、および/または上記第2の画像取得装置からの画像データの中から基準画像と推定した画像に基づいて、判定することを特徴とする請求項5に記載の推論用学習装置。
  11.  上記第1の画像取得装置から得た画像データは、既存の教師データであり、
     上記画像加工部は、推論モデルの用途が異なる場合に、該用途に応じて、上記既存の教師データを画像処理し、または上記既存の教師データの取捨選択を行うことを特徴とする請求項1に記載の推論用学習装置。
  12.  上記第1の画像取得装置からの画像データ、および上記第2の画像取得装置からの画像データは、内視鏡画像データであることを特徴とする請求項1ないし請求項11に記載の推論用学習装置。
  13.  第1の画像取得装置からの画像データを入力し、
     上記第1の画像取得装置とは異なる特性の第2の画像取得装置用に、推論モデルを学習する際に、上記教師データのうち第1の画像取得装置から得た画像データを加工して教師データとし、
     上記画像データにアノテーションを行って得た教師データによる学習によって推論モデルを得る、
     ことを特徴とする推論用学習方法。
  14.  第1の画像取得装置からの画像データを入力する入力部と、
     上記画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る学習部と、
     を有する推論用学習装置において、
     上記第1の画像取得装置とは異なる条件で使用される第2の画像取得装置用に、上記推論モデルをカスタマイズする際に、第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工を行って上記教師データとする画像加工部と、
     を具備することを特徴とする推論用学習装置。
  15.  第1の画像取得装置からの画像データを入力し、
     上記第1の画像取得装置とは異なる条件で使用される第2の画像取得装置用に、推論モデルをカスタマイズする際に、上記第1の画像取得装置から得た画像データに対して、画像取得特性の差異に応じた取捨選択もしくはアノテーションを含む加工を行って上記教師データとし、
     上記画像データにアノテーションを行って得た教師データを使用した学習によって推論モデルを得る、
     ことを特徴とする推論用学習方法。
PCT/JP2021/010204 2021-03-12 2021-03-12 推論用学習装置および推論用学習方法 WO2022190386A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180003949.5A CN115428011A (zh) 2021-03-12 2021-03-12 估计用学习装置和估计用学习方法
PCT/JP2021/010204 WO2022190386A1 (ja) 2021-03-12 2021-03-12 推論用学習装置および推論用学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/010204 WO2022190386A1 (ja) 2021-03-12 2021-03-12 推論用学習装置および推論用学習方法

Publications (1)

Publication Number Publication Date
WO2022190386A1 true WO2022190386A1 (ja) 2022-09-15

Family

ID=83227688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/010204 WO2022190386A1 (ja) 2021-03-12 2021-03-12 推論用学習装置および推論用学習方法

Country Status (2)

Country Link
CN (1) CN115428011A (ja)
WO (1) WO2022190386A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144872A (ja) * 2018-02-21 2019-08-29 株式会社Abeja 機械学習を行なう計算モデルを有するシステム、及び機械学習の方法
WO2019193899A1 (ja) * 2018-04-05 2019-10-10 コニカミノルタ株式会社 演算装置の学習方法、学習装置、学習プログラム、および学習済みモデル
JP2021033571A (ja) * 2019-08-22 2021-03-01 キヤノン株式会社 情報処理装置、制御方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144872A (ja) * 2018-02-21 2019-08-29 株式会社Abeja 機械学習を行なう計算モデルを有するシステム、及び機械学習の方法
WO2019193899A1 (ja) * 2018-04-05 2019-10-10 コニカミノルタ株式会社 演算装置の学習方法、学習装置、学習プログラム、および学習済みモデル
JP2021033571A (ja) * 2019-08-22 2021-03-01 キヤノン株式会社 情報処理装置、制御方法およびプログラム

Also Published As

Publication number Publication date
CN115428011A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
KR102270659B1 (ko) 안저 이미지 관리 장치 및 안저 이미지의 적합성 판단 방법
EP3968272A1 (en) Medical endoscope image identification method and system, and endoscope image system
KR101539043B1 (ko) 인물 구도 제안 영상 촬영 장치 및 방법
CN111383214B (zh) 实时内窥镜肠镜息肉检测系统
US11321618B2 (en) Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
CA3035763A1 (en) System and method of otoscopy image analysis to diagnose ear pathology
US11281940B2 (en) Image file generating device and image file generating method
JP2008131204A (ja) 撮像装置及びその制御方法及びプログラム及び記憶媒体
CN114612389B (zh) 基于多源多尺度特征融合的眼底图像质量评价方法和装置
CN114830107A (zh) 图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法
JP6707131B2 (ja) 画像処理装置、学習装置、画像処理方法、識別基準の作成方法、学習方法およびプログラム
JP2020091702A (ja) 撮像装置および撮像方法
KR20230113600A (ko) 수술 능력을 평가하기 위한 시스템들 및 방법들
WO2022190386A1 (ja) 推論用学習装置および推論用学習方法
US20220361739A1 (en) Image processing apparatus, image processing method, and endoscope apparatus
Xia et al. A nested u-structure for instrument segmentation in robotic surgery
JP5272797B2 (ja) デジタルカメラ
CN116703837A (zh) 一种基于mri图像的肩袖损伤智能识别方法及装置
WO2021171444A1 (ja) 教師データ生成装置、教師データ生成方法、記録装置及び記録方法
WO2023281738A1 (ja) 情報処理装置および情報処理方法
JP7152244B2 (ja) 学習装置、学習方法およびプログラム
WO2022190170A1 (ja) 推論用学習装置および推論用学習方法
JP2008167028A (ja) 撮像装置
WO2023013080A1 (ja) アノテーション支援方法、アノテーション支援プログラム及びアノテーション支援装置
EP4361941A1 (en) Method, processor unit and system for processing of images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21930236

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21930236

Country of ref document: EP

Kind code of ref document: A1