WO2022162766A1 - 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法 - Google Patents

情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法 Download PDF

Info

Publication number
WO2022162766A1
WO2022162766A1 PCT/JP2021/002754 JP2021002754W WO2022162766A1 WO 2022162766 A1 WO2022162766 A1 WO 2022162766A1 JP 2021002754 W JP2021002754 W JP 2021002754W WO 2022162766 A1 WO2022162766 A1 WO 2022162766A1
Authority
WO
WIPO (PCT)
Prior art keywords
grid cell
grid
length
bounding box
information processing
Prior art date
Application number
PCT/JP2021/002754
Other languages
English (en)
French (fr)
Inventor
都士也 上山
真人 石掛
雄作 藤田
達士 徳安
佑将 松延
雅史 猪股
剛 衛藤
裕一 遠藤
浩輔 鈴木
洋平 河野
寛明 中沼
美哲 白坂
淳郎 藤永
Original Assignee
オリンパス株式会社
国立大学法人大分大学
学校法人福岡工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社, 国立大学法人大分大学, 学校法人福岡工業大学 filed Critical オリンパス株式会社
Priority to PCT/JP2021/002754 priority Critical patent/WO2022162766A1/ja
Priority to JP2022577860A priority patent/JPWO2022162766A1/ja
Publication of WO2022162766A1 publication Critical patent/WO2022162766A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof

Definitions

  • the present invention relates to an information processing system, an endoscope system, an information processing method, an annotation data generation method, and the like.
  • Non-Patent Document 1 discloses YOLO (You Only Look Once) as an object detection method using machine learning.
  • YOLO is a pre-learned technique for detecting a specific object, and outputs a bounding box surrounding the detected object. By superimposing this bounding box on the image, a bounding box surrounding the detected object is displayed.
  • Non-Patent Document 2 discloses U-net as a semantic segmentation method using machine learning. Semantic segmentation is a technique for dividing an image into regions belonging to each category. U-net categorizes each pixel of the image. Pixels classified into a category indicating a specific object are displayed in a specific color, so that the area in the image where the specific object exists is displayed filled with the specific color.
  • Non-Patent Document 3 discloses BodyPix as a method of adding attributes to images using machine learning.
  • BodyPix divides the image into grid cells and assigns attributes to each grid cell. For example, BodyPix determines whether each grid cell belongs to the person or the background, and whether the grid cells that belong to a person belong to a body part such as a face or an arm. Then, the grid cells are color-coded according to the attribute, so that the human body part and the background are displayed in a grid.
  • YOLO can detect at very high speed, so it is possible to display the detection results while maintaining real-time performance in moving images.
  • YOLO cannot determine the contour shape of the object of interest because it can only enclose the object of interest with one rectangular bounding box.
  • the U-net determines an object of interest on a pixel-by-pixel basis and colors the image accordingly, it is possible to express the contour shape of the object of interest.
  • U-net requires a long calculation time, real-time performance cannot be maintained in moving images.
  • BodyPix works faster than semantic segmentation such as U-net because it determines grid cell attributes that are coarser than pixels.
  • the contour shape of the object of interest cannot be expressed finely.
  • the conventional technology has the problem that it is not possible to achieve both real-time maintenance and display of the contour shape of the target object in the display of the target object using machine learning.
  • One aspect of the present disclosure includes a processing unit that performs object detection of a target from a detection image, the processing unit divides the detection image into a first grid cell group, and the target is the first grid cell group. generating a bounding box in a second grid cell included in the second grid cell group when the grid cell group overlaps a second grid cell group; and generating the bounding box in the second grid cell. surrounds the part of the object located in the second grid cell, and superimposes the position and shape of the object on the detection image by a set of a plurality of bounding boxes and displays it on a display unit. do.
  • Another aspect of the present disclosure relates to an endoscope system including the information processing system described above and an imaging device that captures the detection image.
  • Still another aspect of the present disclosure is an information processing method for detecting an object from a detection image, wherein the detection image is divided into a first grid cell group, and the object is the first grid cell group.
  • a bounding box is generated in a second grid cell included in the second grid cell group when positioned overlapping a second grid cell group in one grid cell group, and the bounding box generated in the second grid cell.
  • mask data indicating the position and shape of an object in a learning image is input, the mask data is divided into grid cell groups, and a plurality of grid cells in the grid cell group When overlaps the object, a bounding box is generated in each grid cell of the plurality of grid cells, and a set of generated bounding boxes is used as an annotation of the object.
  • FIG. 4 is a flowchart of processing performed by a processing unit; FIG. 4 is an explanatory diagram of processing performed by a processing unit; FIG. 4 is an explanatory diagram of processing performed by a processing unit; FIG. 4 is an explanatory diagram of processing performed by a processing unit; Display example when BodyPix is used. A display example when object detection according to the present embodiment is used. A first example of bounding box BBX. A second example of the bounding box BBX. A third example of the bounding box BBX. An example of learning images and mask data in laparoscopic cholecystectomy. An example of annotation data. A flowchart of learning processing. 4 is a flowchart of an annotation data generation method; Explanatory drawing of the annotation data generation method.
  • FIG. 1 is a configuration example of an information processing system 10 of the present embodiment and an endoscope system 100 including the information processing system 10 .
  • the endoscope system 100 includes a processor unit 1 , an endoscope 2 and a display section 3 . Also, the endoscope system 100 may further include an operation unit 9 .
  • An imaging device is provided at the tip of the endoscope scope 2, and the tip is inserted into the abdominal cavity.
  • An imaging device is composed of an objective optical system that forms an image of a subject and an image sensor that picks up the formed image.
  • An imaging device captures an image of the abdominal cavity, and the imaging data is transmitted from the endoscope 2 to the processor unit 1 .
  • the processor unit 1 is a device that performs various processes in the endoscope system 100. For example, the processor unit 1 performs control of the endoscope system 100, image processing, and the like.
  • the processor unit 1 includes an imaging data receiving section 8 that receives imaging data from the endoscope 2, and an information processing system 10 that detects an object from the imaging data using a trained model.
  • the imaging data receiving unit 8 is, for example, a connector to which a cable of the endoscope 2 is connected, an interface circuit for receiving imaging data, or the like.
  • the information processing system 10 includes a storage unit 7 that stores learned models, and a processing unit 4 that detects objects from images based on the learned models stored in the storage unit 7 .
  • the storage unit 7 is, for example, a storage device such as a semiconductor memory, hard disk drive, or optical disk drive.
  • a learned model is stored in advance in the storage unit 7 .
  • a learned model may be input to the information processing system 10 from an external device such as a server via a network, and the storage unit 7 may store the learned model.
  • the processing unit 4 includes a detection unit 5 that detects a target object from an image by inference from a trained model, and an output unit 6 that superimposes information indicating the target object on the image based on the detection result and causes the display unit 3 to display the information. ,including.
  • detection such as YOLO (You Only Look Once) or SSD (Single Shot multibox Detector)
  • object detection algorithms are used as object detection algorithms.
  • generation of candidate frames, generation and display of bounding boxes, teacher data during learning, and the like are different from conventional methods. Details of this will be described later.
  • the detection unit 5 is a general-purpose processor such as CPU, MPU, GPU, or DSP.
  • the storage unit 7 stores a program describing an inference algorithm and parameters used in the inference algorithm as a learned model.
  • the detection unit 5 may be a dedicated processor such as an ASIC or FPGA in which an inference algorithm is implemented as hardware.
  • the storage unit 7 stores the parameters used in the inference algorithm as a learned model. Inference algorithms can apply neural networks.
  • the parameter is the weighting factor of the connection between nodes in the neural network.
  • the display unit 3 is a monitor that displays the image output from the output unit 6, and is a display device such as a liquid crystal display or an organic EL display.
  • the operation unit 9 is a device for the operator to operate the endoscope system 100 .
  • the operation unit 9 is a button, dial, foot switch, touch panel, or the like.
  • the output unit 6 may change the display mode of the object based on input information from the operation unit 9 .
  • the information processing system 10 is included in the processor unit 1 in the above description, part or all of the information processing system 10 may be provided outside the processor unit 1 .
  • the storage unit 7 and the detection unit 5 may be realized by an external processing device such as a PC or a server.
  • the imaging data receiving unit 8 transmits the imaging data to the external processing device via a network or the like.
  • the external processing device transmits information indicating the detected object to the output unit 6 via a network or the like.
  • the output unit 6 superimposes the received information on the image and causes the display unit 3 to display the image.
  • FIG. 2 shows a flowchart of the processing performed by the processing unit 4.
  • 3 to 5 are explanatory diagrams of the processing performed by the processing unit 4.
  • FIG. 2 shows a flowchart of the processing performed by the processing unit 4.
  • an image is input to the detection unit 5 in step S1.
  • the endoscope 2 takes a video of the inside of the abdominal cavity, and frame images of the video taken are input to the detector 5 in real time. Steps S1 to S5 shown in FIG. 2 are performed for each frame image.
  • step S2 the detection unit 5 divides the image into grid cells GCA.
  • an image is divided by a grid having a horizontal spacing of X and a vertical spacing of Y, and each of the divided areas becomes a grid cell GCA.
  • a single grid cell GCA has a horizontal side of length X and a vertical side of length Y.
  • the horizontal direction corresponds to the horizontal scanning direction of the image
  • the vertical direction corresponds to the vertical scanning direction of the image.
  • the lengths X and Y are represented, for example, by the number of pixels.
  • a plurality of grid cells GCA obtained by dividing the entire image are also called a first grid cell group, and each of them is also called a first grid cell.
  • FIG. 4 shows an example in which the object 50 is directly captured in the image. It can be an object.
  • a plurality of grid cells GCB of the first grid cell group overlap the object 50 .
  • a plurality of grid cells GCB overlapping the object 50 are also called a second grid cell group, and each of them is also called a second grid cell.
  • the second grid cell group is indicated by hatching.
  • the second grid cell group is included in the first grid cell group, and the grid cells themselves are the same. That is, the grid cell GCB also has the length X of the horizontal side and the length Y of the vertical side.
  • the detection unit 5 generates candidate frames in each grid cell. At this time, the detection unit 5 generates candidate frames in the grid cells GCB overlapping the object 50 . Also, the detection unit 5 generates a plurality of candidate frames for one grid cell GCB. A candidate frame is generated so as to fit within the grid cell GCB, that is, so as not to overlap an adjacent grid cell. Note that the candidate frame is not limited to this, and the details of the candidate frame will be described later.
  • step S4 the detection unit 5 determines a bounding box for each grid cell.
  • the detection unit 5 generates a plurality of candidate frames for the bounding box, calculates a reliability score for each candidate frame of the plurality of candidate frames, and selects a bounding box from among the plurality of candidate frames based on the reliability score. decide. Specifically, the detection unit 5 determines the candidate frame with the highest reliability score as the bounding box.
  • a bounding box BBX is generated for each of the grid cells GCB that overlap the object 50, as shown in FIG.
  • one bounding box is generated for one target object 50, but in this embodiment, a plurality of bounding boxes BBX are generated for one target object 50, and the plurality of bounding boxes BBX are generated for one target object 50.
  • Object 50 is covered by a set of bounding boxes BBX.
  • the bounding box BBX is a rectangle that encloses a portion of the object 50 that overlaps the grid cell GCB.
  • the reliability score is a score that indicates the likelihood of the candidate frame as the bounding box BBX. That is, the reliability score is high in the candidate frame that appropriately includes the part of the object 50 that overlaps the grid cell GCB.
  • step S5 the output unit 6 superimposes the bounding box BBX determined in the grid cell GCB on the image, and outputs the superimposed image to the display unit 3.
  • the output unit 6 may superimpose only the frame of the bounding box BBX on the image, or may superimpose on the image a rectangle that fills the inside of the bounding box BBX. Further, the output unit 6 may superimpose the bounding box BBX on the image by ⁇ -blending the bounding box BBX and the image.
  • the display is such that the object 50 is covered by a set of the plurality of bounding boxes BBX.
  • the information processing system 10 of this embodiment includes the processing unit 4 that performs object detection of the target object from the detection image.
  • the detection unit 5 of the processing unit 4 divides the detection image into first grid cell groups.
  • the detection unit 5 generates a bounding box BBX in the second grid cell GCB included in the second grid cell group when the object 50 is positioned so as to overlap the second grid cell group in the first grid cell group. do.
  • the output unit 6 of the processing unit 4 surrounds the part of the object 50 located in the second grid cell GCB with the bounding box BBX generated in the second grid cell GCB, and divides the position shape of the object 50 into a plurality of bounding boxes BBX. are superimposed on the detection image and displayed on the display unit 3.
  • the detection image is an image input to the processing unit 4 as an object detection target, and is a biological image captured by the endoscope 2 .
  • the image input from the endoscope 2 to the processing unit 4 via the imaging data receiving unit 8 is the detection image.
  • an image captured by the endoscope 2 may be recorded in the storage unit 7 or the like, and input to the processing unit 4 when the recorded image is reproduced. In this case, the image input from the storage unit 7 to the processing unit 4 is the detection image.
  • a method of object detection that generates a bounding box for a detected object is used, so high-speed processing is possible and real-time performance in moving images can be maintained.
  • the position and shape of the target object 50 is displayed by a set of a plurality of bounding boxes BBX, compared to conventional object detection that surrounds the target object 50 with one bounding box or BodyPix that paints each grid cell, the target The position and shape of the object 50 can be expressed in detail.
  • both real-time performance and position/shape display can be achieved.
  • Fig. 6 shows a display example when BodyPix is used.
  • the image including the object 50 is divided into a plurality of grid cells GCC, and the grid cells GCC determined to include the object 50 among the plurality of grid cells GCC are colored. displayed.
  • grid cells GCC determined to contain object 50 are indicated by hatching.
  • the processing unit 4 can generate a bounding box BBX smaller than the grid cell GCB. , the position and shape of the object 50 can be expressed in detail.
  • the processing unit 4 can generate a bounding box BBX narrower than the grid cell GCB, so that the elongated shape of the object 51 can be represented. Further, even when the position of the object 51 fluctuates, the positional fluctuation of the object 50 can be captured finely by the bounding box BBX having a width narrower than that of the grid cell GCB.
  • the output unit 6 may superimpose the bounding box BBX on the detection image with opacity according to the reliability score.
  • corresponds to the opacity when the blending ratio of the bounding box BBX is ⁇ and the blending ratio of the detection image is 1 ⁇ .
  • the output unit 6 increases the opacity of the bounding box BBX as the reliability score of the bounding box BBX is higher.
  • the position and shape of the target object 50 can be expressed in more detail.
  • the confidence score of the bounding box BBX is reduced at the contour of the object 50 .
  • the bounding box BBX placed on the contour of the object 50 has a lower opacity than the bounding box BBX placed inside the object 50 and is displayed lighter.
  • the shape of the target object 50 is displayed to look more like the actual shape.
  • FIG. 8 shows a first example of the bounding box BBX.
  • a first second grid cell GCB1 and a second second grid cell GCB2 are adjacent to each other in the horizontal direction with respect to the second grid cell GCB, and a third second grid cell is arranged in the vertical direction with respect to the second grid cell GCB.
  • GCB3 and the fourth second grid cell GCB4 are adjacent.
  • XA be the length between the anchor ANKs of the first second grid cell GCB1 and the second second grid cell GCB2
  • the anchor ANKs of the third second grid cell GCB3 and the fourth second grid cell GCB4 Let YA be the length between them.
  • the detection unit 5 detects that the length x of the horizontal side is smaller than XA, the length y of the vertical side is smaller than YA, and includes anchors ANK of the first to fourth second grid cells GCB1 to GCB4. Generate a bounding box BBX that does not exist.
  • the anchor ANK is a representative point when the detection unit 5 generates candidate frames, for example, the center point of each grid cell. That is, the detection unit 5 generates candidate frames based on the anchor ANK of the second grid cell GCB. The center of the candidate frame and the anchor ANK may not match.
  • the lengths x, y, XA, YA are expressed in pixels, for example. “The bounding box BBX does not include the anchor ANKs of the grid cells GCB1 to GCB4” means that the anchor ANKs of the grid cells GCB1 to GCB4 do not exist within the rectangular area surrounded by the bounding box BBX.
  • the size x ⁇ y of the bounding box BBX is limited by XA ⁇ YA. That is, it is limited by the distance between the anchors of adjacent grid cells. Also, the position of the bounding box BBX is constrained so as not to exceed the anchors of adjacent grid cells. As a result, a plurality of bounding boxes BBX are generated for an object that is larger than the grid cell, and the object 50 is represented by a set of the plurality of bounding boxes BBX.
  • FIG. 9 shows a second example of the bounding box BBX.
  • X be the length of the horizontal side of the second grid cell GCB
  • Y be the length of the vertical side.
  • the length x of the horizontal side of the bounding box BBX is X or less
  • the length y of the vertical side is Y or less.
  • a bounding box BBX smaller than the grid cell GCB is generated, so the position and shape of the object 50 can be expressed in detail by the bounding box BBX smaller than the grid cell GCB.
  • the detection unit 5 may generate a bounding box BBX that satisfies at least one of x ⁇ X and y ⁇ Y. That is, the length x of the horizontal side of the bounding box BBX may be less than or equal to X, and the length y of the vertical side may be smaller than YA in FIG. Alternatively, the length x of the horizontal side of the bounding box BBX may be smaller than XA in FIG. 8, and the length y of the vertical side may be Y or less.
  • a candidate frame for determining the bounding box BBX as shown in FIG. 8 or 9 will be described.
  • the detection unit 5 determines a bounding box BBX from among multiple candidate frames.
  • the plurality of candidate frames include candidate frames that satisfy at least one of the length x of the horizontal side of the candidate frame being smaller than X or the length of the vertical side of the candidate frame being smaller than Y.
  • X is the length of the horizontal side of the grid cell GCB
  • Y is the length of the vertical side of the grid cell GCB.
  • the detection unit 5 selects a candidate frame that satisfies at least one of the following: the length x of the horizontal side of the candidate frame is smaller than X, or the length y of the vertical side of the candidate frame is smaller than Y. , can be determined as a bounding box BBX. By selecting such a bounding box BBX, it is possible to express a finer positional shape than the grid cell GCB.
  • the detection unit 5 may generate a plurality of candidate frames as follows. Let xc be the length of the horizontal side of each candidate frame, and yc be the length of the vertical side. At this time, xc is smaller than XA in FIG. 8, yc is smaller than YA in FIG. 8, and each candidate frame does not include the anchors ANK of the first to fourth second grid cells GCB1 to GCB4.
  • the detection unit 5 can generate the bounding box BBX under the conditions described in FIG. 8 by determining the bounding box BBX from among the plurality of candidate frames. That is, the length x of the horizontal side of the bounding box BBX is smaller than XA, the length y of the vertical side is smaller than YA, and the bounding box BBX is the anchor ANK of the first to fourth second grid cells GCB1 to GCB4. does not include
  • the detection unit 5 may generate a plurality of candidate frames as follows.
  • the length xc of the horizontal side of each candidate frame is less than or equal to X and the length yc of the vertical side is less than YA, or the length xc of the horizontal side of each candidate frame is less than XA and the length of the vertical side is yc is less than or equal to Y.
  • the detection unit 5 determines the bounding box BBX from among the plurality of candidate frames, thereby generating the bounding box BBX with the following conditions. That is, the length x of the horizontal side of the bounding box BBX is less than or equal to X and the length y of the vertical side is less than YA, or the length x of the horizontal side of the bounding box BBX is less than XA and the length of the vertical side is y is less than or equal to Y.
  • the detection unit 5 may generate a plurality of candidate frames as follows.
  • the length xc of the horizontal side of each candidate frame is X or less, and the length yc of the vertical side is Y or less.
  • the detection unit 5 determines the bounding box BBX from among the plurality of candidate frames, thereby generating the bounding box BBX with the conditions described with reference to FIG. That is, the length x of the horizontal side of the bounding box BBX is smaller than X, and the length y of the vertical side is smaller than Y.
  • FIG. 10 shows a third example of the bounding box BBX.
  • Two adjacent second grid cells in the second grid cell group are GCBa and GCBb.
  • the bounding box BBXa generated in one second grid cell GCBa and the bounding box BBXb generated in the other second grid cell GCBb do not overlap each other.
  • the position and shape of the object 50 are represented by a set of bounding boxes that do not overlap each other, so the position and shape of the object 50 can be represented in detail.
  • a candidate frame for determining the bounding box BBX as shown in FIG. 10 will be described.
  • the detection unit 5 detects a plurality of candidate frames generated in one second grid cell GCBa of two adjacent second grid cells GCBa and GCBb and a plurality of candidate frames generated in the other second grid cell GCBb. , are determined as the bounding boxes BBXa, BBXb of the second grid cells GCBa, GCBb of the one and the other.
  • a candidate frame CAFa is generated in the second grid cell GCBa, and candidate frames CAFb1 and CAFb2 are generated in the second grid cell GCBb. Note that a plurality of candidate frames are actually generated in the second grid cell GCBa. In the example of FIG. 10, candidate frames CAFa and CAFb1 overlap.
  • the detection unit 5 determines a pair of non-overlapping candidate frames CAFa and CAFb2 as bounding boxes BBXa and BBXb.
  • bounding boxes BBXa and BBXb generated in two adjacent second grid cells GCBa and GCBb do not overlap with each other.
  • the length xc of the horizontal side and the length yc of the vertical side of the candidate frame described in FIGS. 8 to 10 are integral multiples of the unit length a.
  • the length x of the horizontal side and the length y of the vertical side of the bounding box BBX determined from such candidate frames are integral multiples of the unit length a.
  • the unit length a is preset as a unit of side length and is smaller than the side lengths X and Y of the grid cell. More specifically, unit length a is less than X/2 and Y/2.
  • the size xc ⁇ yc of the candidate frame is limited, so n and m are less than finite integers. This limits the number of candidate frames generated by the detection unit 5 to a finite number, thereby reducing the processing load for object detection.
  • the object detection of this embodiment is applicable to, for example, laparoscopic cholecystectomy.
  • the learning process will be described by taking laparoscopic cholecystectomy as an example.
  • the application target of object detection and learning processing of the present embodiment is not limited to laparoscopic cholecystectomy. That is, the present embodiment can be applied when machine learning is performed based on teacher data annotated on images by an operator, and objects are detected from images by the learned model.
  • Fig. 11 shows an example of learning images and mask data in laparoscopic cholecystectomy.
  • a learning image is an image used for learning processing, and is captured in advance using an endoscope system.
  • the learning image is, for example, a moving frame image obtained by video-capturing the inside of the abdominal cavity.
  • the liver KZ, gallbladder TNN, and treatment tools TL1 and TL2 are captured.
  • the common bile duct, the cystic duct, the Rubierre sulcus, and the lower edge of S4 are included as targets for object detection within the angle of view of this learning image.
  • An annotator identifies the common bile duct and cystic duct, the Rubierre sulcus, and the inferior edge of S4 from the learning image, and attaches mask data to each of them.
  • the operator designates a region such as the common bile duct using a pointing device such as a mouse or touch panel.
  • the mask data is converted into a set of multiple bounding boxes, and this set of bounding boxes is used as annotation data.
  • the conversion method will be described later as an annotation data generation method.
  • the mask data TGA is shown as an example in FIG. 12, the bounding boxes are generated for the mask data TGB to TGD in the same manner.
  • the learning image is divided into first grid cell groups, which are a plurality of first grid cells GCA, in the same way as the detection image.
  • a plurality of grid cells GCE in the first grid cell group overlap mask data TGA.
  • a plurality of grid cells GCE overlapping such mask data TGA are called a third grid cell group, and each of them is called a third grid cell.
  • the third grid cell group is indicated by hatching.
  • the third grid cell group is included in the first grid cell group, and the grid cells themselves are the same. That is, the third grid cell GCE also has the length X of the horizontal side and the length Y of the vertical side.
  • a bounding box BBXT is given to each of the third grid cells GCE overlapping the mask data TGA.
  • one bounding box is given to one mask data TGA, but in this embodiment, a plurality of bounding boxes BBXT are generated for one mask data TGA, and the plurality of bounding boxes BBXT are generated for one mask data TGA.
  • the set of BBXT covers the mask data TGA.
  • FIG. 13 is a flowchart of the learning process.
  • the learning process is executed by the learning device.
  • the learning device includes a processing section, a storage section, an operation section, and a display section.
  • the learning device is, for example, an information processing device such as a PC.
  • the processing unit is a processor such as a CPU.
  • the processing unit performs machine learning on the learning model to generate a learned model.
  • the storage unit is a storage device such as a semiconductor memory or a hard disk drive.
  • the operation unit is various operation input devices such as a mouse, a touch panel, and a keyboard.
  • the display unit is a display device such as a liquid crystal display. Note that the information processing system 10 of FIG. 1 may also serve as a learning device.
  • the processing unit 4, storage unit 7, operation unit 9, and display unit 3 correspond to the processing unit, storage unit, operation unit, and display unit of the learning device, respectively.
  • step S11 the processing unit of the learning device reads teacher data from the storage unit.
  • teacher data For example, one or more learning images and corresponding annotation data are read for one inference.
  • Annotation data is a set of bounding boxes described in FIG.
  • the data indicating the bounding box may be, for example, data indicating the position coordinates and size of the bounding box.
  • the mask data and the learning image may be stored in the storage unit as teacher data.
  • the processing unit converts the mask data into a bounding box, and uses the bounding box as annotation data for learning.
  • step S12 the processing unit estimates the position and shape of the object from the learning image, and outputs the result. That is, the processing unit inputs the learning image to the neural network.
  • the processing unit executes inference processing using a neural network and outputs a set of bounding boxes indicating the position and shape of the object.
  • step S13 the processing unit compares the estimated bounding box with the bounding box of the annotation data, and calculates the error based on the result. That is, the processing unit calculates the error between the bounding box output from the neural network and the bounding box of the teacher data.
  • step S14 the processing unit adjusts the model parameters of the learning model so that the error is reduced. That is, the processing unit adjusts the weighting coefficients and the like between nodes in the neural network based on the error obtained in step S13.
  • step S15 the processing unit determines whether parameter adjustment has been completed a specified number of times. If the parameter adjustment has not been completed the specified number of times, the processing unit executes steps S11 to S15 again. When the parameter adjustment has been completed the specified number of times, the processing unit ends the learning process as shown in step S16. Alternatively, the processing unit determines whether or not the error obtained in step S13 is equal to or less than a specified value. If the error is not equal to or less than the specified value, the processing section executes steps S11 to S15 again. If the error is equal to or less than the specified value, the processing unit terminates the learning process as shown in step S16.
  • a learned model is obtained by the above learning process, and the learned model is stored in the storage unit 7 in FIG.
  • a training image is divided into a first group of grid cells, and an object in the training image is positioned overlapping a third of the first group of grid cells.
  • the trained model is trained using the teacher data annotated to the training image, and learned to output the position and shape of the object by a set of a plurality of bounding boxes generated from the third grid cell group.
  • the annotation encloses the part of the object located in the third grid cell GCE with the bounding box BBXT generated in the third grid cell GCE included in the third grid cell group.
  • the position and shape of an object are represented by a set of multiple bounding boxes. Specifically, the positional shape of the object is indicated by the mask data, and by surrounding the portion of the masked data located in the third grid cell GCE, the positional shape of the mask data is represented by a set of a plurality of bounding boxes. It is
  • learning processing is performed using annotations that express the position and shape of an object in a learning image by a set of a plurality of bounding boxes. It is possible to display the position and shape of the object in the original image by a set of a plurality of bounding boxes.
  • the common bile duct, the cystic duct, the Rubierre groove, and the lower edge of S4 are landmarks in laparoscopic cholecystectomy, but are landmarks whose positions and shapes are not clearly displayed in the image.
  • the common bile duct and cystic duct are covered by organs or tissues, and the Rubierre sulcus and inferior border of S4 are exposed and visible, but the boundaries are vague.
  • a physician or the like with extensive tacit knowledge of laparoscopic cholecystectomy annotates the landmarks.
  • the positions and shapes of landmarks identified by a doctor or the like who has tacit knowledge are generated as mask data.
  • this mask data as teacher data
  • the position and shape of a landmark can be represented by a set of bounding boxes instead of one rectangle. This makes it possible to present the position and shape of unclear landmarks in detail to a doctor or the like while ensuring real-time performance, which is important in surgery.
  • FIG. 14 is a flowchart of the annotation data generation method.
  • FIG. 15 is an explanatory diagram of the annotation data generation method.
  • the annotation data generation method may be executed by, for example, an information processing device different from the learning device, or may be executed as preprocessing of learning processing in the learning device.
  • mask data is input in step S21.
  • the mask data is data indicating the area of the object in the learning image, and is data in which 1 or 0 is assigned to each pixel.
  • a 1 indicates an object and a 0 indicates a non-object.
  • the mask data TGA of FIG. 11 will be described as an example.
  • step S22 the mask data TGA is converted into a set of a ⁇ a squares.
  • a is the unit length of the candidate frame and bounding box.
  • the mask data TGA is divided into a ⁇ a grids. In the upper diagram, pixels marked with "1" in the mask data TGA are hatched.
  • an a ⁇ a square that overlaps a pixel with "1" in the mask data TGA is extracted. In the middle diagram, the extracted a ⁇ a squares are indicated by solid lines.
  • step S23 the mask data TGA converted into a set of a ⁇ a squares is divided into first grid cell groups.
  • the middle diagram of FIG. 15 shows an example in which 3 ⁇ 3 a ⁇ a squares correspond to the first grid cell GCA.
  • the number of a ⁇ a squares included in one grid cell may be arbitrary.
  • a bounding box is generated in each grid cell.
  • a bounding box BBXT is generated so as to include a set of a ⁇ a squares converted from the mask data TGA in the third grid cell GCE. Since the bounding box BBXT includes a set of a ⁇ a squares, it naturally includes the portion of the mask data TGA included in the third grid cell GCE.
  • the mask data TGA is covered with a plurality of bounding boxes BBXT.
  • step S25 the plurality of bounding boxes BBXT are output as annotation data of the object indicated by the mask data TGA.
  • mask data TGA indicating the position and shape of an object in a learning image is input, and the mask data TGA is divided into grid cell groups.
  • the annotation data generation method generates a bounding box BBXT in each grid cell of the plurality of grid cells GCE when a plurality of grid cells GCE of the grid cell group overlap the object.
  • the annotation data generation method uses a set of generated bounding boxes BBXT as the annotation of the object.
  • annotation data that encloses one object with a plurality of bounding boxes is generated.
  • machine learning By performing machine learning using this annotation data, it is possible to display the position and shape of the object in the detection image by a set of multiple bounding boxes by object detection using the learned model.
  • the annotation data generation method converts the mask data TGA into a set of a ⁇ a squares.
  • the annotation data generation method selects a square belonging to each grid cell of a plurality of grid cells GCE from among a set of a ⁇ a squares, and creates a bounding box BBXT containing the selected square as a bounding box in each grid cell. Generate as BBXT.
  • the inference model infers a bounding box of unit length a from the training image.
  • the annotation data generation method generates a bounding box with a unit length a. Therefore, at the time of error evaluation, the inferred bounding box with a unit length a and the bounding box with a unit length a in the annotation data are be compared. Error evaluation is simplified by comparing bounding boxes of the same unit length a.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Image Analysis (AREA)

Abstract

情報処理システム(10)は、検出用画像から対象物の物体検出を行う処理部(4)を含む。処理部(4)は、検出用画像を第1グリッドセル群に分割する。対象物が、第1グリッドセル群のうち第2グリッドセル群にオーバーラップして位置する。このとき、処理部(4)は、第2グリッドセル群に含まれる第2グリッドセルにおいてバウンディングボックスを生成する。処理部(4)は、第2グリッドセルにおいて生成したバウンディングボックスによって、第2グリッドセルに位置する対象物の部位を取り囲み、対象物の位置形状を複数のバウンディングボックスの集合によって検出用画像に重畳して表示部(3)に表示させる。

Description

情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法
 本発明は、情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法等に関する。
 非特許文献1には、機械学習を用いた物体検出の手法としてYOLO(You Only Look Once)が開示されている。YOLOは、予め学習させた特定の物体を検出する手法であり、検出した物体を囲むバウンディングボックスを出力する。このバウンディングボックスが画像に重畳されることで、検出された物体を囲むバウンディングボックスが表示される。
 非特許文献2には、機械学習を用いたセマンティックセグメンテーションの手法としてU-netが開示されている。セマンティックセグメンテーションは、画像を、各カテゴリに属する領域に分割する手法である。U-netは、画像の各ピクセルをカテゴリ分類する。特定の物体を示すカテゴリに分類されたピクセルが、特定の色で表示されることで、画像において特定の物体が存在する領域が、特定の色で塗りつぶされて表示される。
 非特許文献3には、機械学習を用いて画像に属性を付与する手法としてBodyPixが開示されている。BodyPixは、画像をグリッドセルに分割し、各グリッドセルに属性を付与する。例えば、BodyPixは、各グリッドセルが人又は背景のいずれに属するか、人に属するグリッドセルが顔又は腕等のいずれの部位に属するか、を判定する。そして、属性に応じてグリッドセルが色分け表示等されることで、人間の体部位と背景が、グリッド表示される。
"オブジェクト検出YOLO", [online], [令和2年9月9日検索], インターネット<URL:https://www.renom.jp/ja/notebooks/tutorial/image_proprocess/yolo/notebook.html> "U-Net:ディープラーニングによるSemantic Segmentation手法", [online], [令和2年9月9日検索], インターネット<URL:https://blog.negativemind.com/2019/03/15/semantic-segmentation-by-u-net/> "[Updated] BodyPix: Real-time Person Segmentation in the Browser with TensorFlow.js", [online], 令和1年11月18日, [令和2年9月9日検索],インターネット<URL:https://blog.tensorflow.org/2019/11/updated-bodypix-2.html>
 YOLOは、非常に高速に検出できるので、動画などにおいてリアルタイム性を保持した検出結果の表示が可能である。一方、YOLOは、注目物体を1つの矩形のバウンディングボックスで囲むことしかできないため、注目物体の輪郭形状を判定できない。U-netは、ピクセル単位で注目物体を判定して画像を塗り分けるので、注目物体の輪郭形状を表現できる。一方、U-netは、長い計算時間が必要であるため、動画などにおいてリアルタイム性を保持できない。BodyPixは、ピクセルよりも粗いグリッドセルの属性を判定するため、U-net等のセマンティックセグメンテーションよりも高速に動作する。一方、注目物体が粗いグリッドセルの集合で表現されるので、注目物体の輪郭形状を細かく表現できない。
 以上のように、従来技術では、機械学習を用いた注目物体の表示において、リアルタイム性の保持と、注目物体の輪郭形状の表示とを両立できないという課題がある。
 本開示の一態様は、検出用画像から対象物の物体検出を行う処理部を含み、前記処理部は、前記検出用画像を第1グリッドセル群に分割し、前記対象物が、前記第1グリッドセル群のうち第2グリッドセル群にオーバーラップして位置するとき、前記第2グリッドセル群に含まれる第2グリッドセルにおいてバウンディングボックスを生成し、前記第2グリッドセルにおいて生成した前記バウンディングボックスによって、前記第2グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させる情報処理システムに関係する。
 また、本開示の他の態様は、上記に記載の情報処理システムと、前記検出用画像を撮像する撮像装置と、を含む内視鏡システムに関係する。
 また、本開示の更に他の態様は、検出用画像から対象物の物体検出を行う情報処理方法であって、前記検出用画像を第1グリッドセル群に分割し、前記対象物が、前記第1グリッドセル群のうち第2グリッドセル群にオーバーラップして位置するとき、前記第2グリッドセル群に含まれる第2グリッドセルにおいてバウンディングボックスを生成し、前記第2グリッドセルにおいて生成した前記バウンディングボックスによって、前記第2グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させる情報処理方法に関係する。
 また、本開示の更に他の態様は、学習用画像内の対象物の位置形状を示すマスクデータを入力し、前記マスクデータをグリッドセル群に分割し、前記グリッドセル群のうち複数のグリッドセルが前記対象物にオーバーラップするとき、前記複数のグリッドセルの各グリッドセルにおいてバウンディングボックスを生成し、生成した複数のバウンディングボックスの集合を前記対象物のアノテーションとするアノテーションデータ生成方法に関係する。
情報処理システム及び内視鏡システムの構成例。 処理部が行う処理のフローチャート。 処理部が行う処理の説明図。 処理部が行う処理の説明図。 処理部が行う処理の説明図。 BodyPixを用いた場合の表示例。 本実施形態の物体検出を用いた場合の表示例。 バウンディングボックスBBXの第1例。 バウンディングボックスBBXの第2例。 バウンディングボックスBBXの第3例。 腹腔鏡下胆のう摘出手術における学習用画像及びマスクデータの一例。 アノテーションデータの例。 学習処理のフローチャート。 アノテーションデータ生成方法のフローチャート。 アノテーションデータ生成方法の説明図。
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
 1.情報処理システム、内視鏡システム
 図1は、本実施形態の情報処理システム10、及び情報処理システム10を含む内視鏡システム100の構成例である。内視鏡システム100は、プロセッサユニット1と、内視鏡スコープ2と、表示部3と、を含む。また内視鏡システム100は操作部9を更に含んでもよい。
 内視鏡スコープ2の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置は、被写体を結像する対物光学系と、その結像を撮像するイメージセンサと、で構成される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ2からプロセッサユニット1へ送信される。
 プロセッサユニット1は、内視鏡システム100における種々の処理を行う装置である。例えばプロセッサユニット1は、内視鏡システム100の制御、及び画像処理等を行う。プロセッサユニット1は、内視鏡スコープ2からの撮像データを受信する撮像データ受信部8と、学習済みモデルにより撮像データから対象物を検出する情報処理システム10と、を含む。
 撮像データ受信部8は、例えば内視鏡スコープ2のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。
 情報処理システム10は、学習済みモデルを記憶する記憶部7と、記憶部7に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部4と、を含む。
 記憶部7は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部7には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム10に入力され、その学習済みモデルを記憶部7が記憶してもよい。
 処理部4は、学習済みモデルによる推論によって画像から対象物を検出する検出部5と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部3に表示させる出力部6と、を含む。物体検出のアルゴリズムとしては、YOLO(You Only Look Once)又はSSD(Single Shot multibox Detector)等のディテクションと呼ばれる種々のアルゴリズムが採用される。但し、候補枠の生成、バウンディングボックスの生成と表示、及び学習時の教師データ等が従来とは異なる。この詳細については後述する。
 学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部5は、CPU、MPU、GPU又はDSP等の汎用プロセッサである。この場合、記憶部7は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部5は、推論アルゴリズムがハードウェア化されたASIC又はFPGA等の専用プロセッサであってもよい。この場合、記憶部7は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。
 表示部3は、出力部6から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ELディスプレイ等の表示装置である。
 操作部9は、作業者が内視鏡システム100を操作するための装置である。例えば、操作部9は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部6は、操作部9からの入力情報に基づいて、対象物の表示態様を変更してもよい。
 なお、上記では情報処理システム10がプロセッサユニット1に含まれるが、情報処理システム10の一部又は全部がプロセッサユニット1の外部に設けられてもよい。例えば、記憶部7と検出部5がPC又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部8は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部6に送信する。出力部6は、受信した情報を画像に重畳して表示部3に表示させる。
 図2に、処理部4が行う処理のフローチャートを示す。また、図3~図5に、処理部4が行う処理の説明図を示す。
 図2に示すように、ステップS1において検出部5に画像が入力される。具体的には、内視鏡スコープ2は腹腔内をビデオ撮影し、そのビデオ撮影のフレーム画像がリアルタイムに検出部5に入力される。図2に示すステップS1~S5は、各フレーム画像に対して行われる。
 ステップS2において、検出部5は、画像をグリッドセルGCAに分割する。図3に示すように、横方向の間隔Xで縦方向の間隔Yであるグリッドによって画像が分割され、その分割された個々の領域がグリッドセルGCAとなる。1つのグリッドセルGCAは、横辺の長さXであり、縦辺の長さYである。横方向とは、画像の水平走査方向に対応し、縦方向とは、画像の垂直走査方向に対応する。長さX、Yは例えば画素数で表される。画像全体を分割して得られた複数のグリッドセルGCAを第1グリッドセル群とも呼び、その各々を第1グリッドセルとも呼ぶ。
 図4に示すように、画像の一部に対象物50が写っているとする。対象物50は、検出部5が検出対象としている物体である。なお、図4では画像に直接的に対象物50が写っている例を示すが、後述するように、対象物50は直接的には画像に写っていないが撮影画角内に含まれるような物体であってもよい。図4において、上記第1グリッドセル群のうち複数のグリッドセルGCBが対象物50に重なっている。このような対象物50に重なる複数のグリッドセルGCBを第2グリッドセル群とも呼び、その各々を第2グリッドセルとも呼ぶ。図4では、第2グリッドセル群をハッチングにより示している。第2グリッドセル群は第1グリッドセル群に含まれており、グリッドセルそのものは同じものである。即ち、グリッドセルGCBも、横辺の長さX、縦辺の長さYである。
 図2のステップS3に示すように、検出部5は、各グリッドセルにおいて候補枠を生成する。このとき、検出部5は、対象物50に重なるグリッドセルGCBにおいて候補枠を生成する。また、検出部5は、1つのグリッドセルGCBに対して複数の候補枠を生成する。候補枠は、グリッドセルGCB内に収まるように、即ち隣りのグリッドセルに重ならないように、生成される。なお、候補枠はこれに限定されるものでなく、候補枠の詳細については後述する。
 ステップS4において、検出部5は、各グリッドセルにおいてバウンディングボックスを決定する。検出部5は、バウンディングボックスの複数の候補枠を生成し、その複数の候補枠の各候補枠について信頼度スコアを算出し、その信頼度スコアに基づいて複数の候補枠の中からバウンディングボックスを決定する。具体的には、検出部5は、信頼度スコアが最も高い候補枠をバウンディングボックスに決定する。図5に示すように、対象物50に重なるグリッドセルGCBの各々に対してバウンディングボックスBBXが生成される。即ち、従来の物体検出では1つの対象物50に対して1つのバウンディングボックスが生成されるが、本実施形態では、1つの対象物50に対して複数のバウンディングボックスBBXが生成され、その複数のバウンディングボックスBBXの集合によって対象物50が覆われる。
 なお、バウンディングボックスBBXとは、対象物50のうちグリッドセルGCBに重なる部位を内包する矩形のことである。信頼度スコアは、候補枠のバウンディングボックスBBXとしての尤もらしさを示すスコアである。即ち、対象物50のうちグリッドセルGCBに重なる部位を適切に内包する候補枠において、信頼度スコアが高くなる。
 ステップS5において、出力部6は、グリッドセルGCBにおいて決定されたバウンディングボックスBBXを画像に重畳し、その重畳後の画像を表示部3に出力する。出力部6は、バウンディングボックスBBXの枠のみを画像に重畳してもよいし、バウンディングボックスBBXの内部を塗りつぶした矩形を画像に重畳してもよい。また、出力部6は、バウンディングボックスBBXと画像とをαブレンドすることで、バウンディングボックスBBXを画像に重畳してもよい。上述のように、1つの対象物50に対して複数のバウンディングボックスBBXが生成されているので、その複数のバウンディングボックスBBXの集合によって対象物50が覆われるような表示となる。
 以上に説明したように、本実施形態の情報処理システム10は、検出用画像から対象物の物体検出を行う処理部4を含む。処理部4の検出部5は、検出用画像を第1グリッドセル群に分割する。検出部5は、対象物50が、第1グリッドセル群のうち第2グリッドセル群にオーバーラップして位置するとき、第2グリッドセル群に含まれる第2グリッドセルGCBにおいてバウンディングボックスBBXを生成する。処理部4の出力部6は、第2グリッドセルGCBにおいて生成したバウンディングボックスBBXによって、第2グリッドセルGCBに位置する対象物50の部位を取り囲み、対象物50の位置形状を複数のバウンディングボックスBBXの集合によって検出用画像に重畳して表示部3に表示させる。
 ここで、検出用画像とは、物体検出の対象として処理部4に入力される画像のことであり、内視鏡スコープ2により撮像された生体画像である。図1では、内視鏡スコープ2から撮像データ受信部8を介して処理部4に入力される画像が、検出用画像である。或いは、内視鏡スコープ2により撮像された画像が記憶部7等に記録され、その記録された画像が再生される際に処理部4に入力されてもよい。この場合、記憶部7から処理部4に入力される画像が検出用画像である。
 本実施形態によれば、検出した物体に対してバウンディングボックスを生成する物体検出の手法を用いているため、高速な処理が可能であり、動画におけるリアルタイム性を保持できる。また、対象物50の位置形状が複数のバウンディングボックスBBXの集合によって表示されるので、対象物50を1つのバウンディングボックスで囲む従来の物体検出、又はグリッドセル毎に塗り分けるBodyPixに比べて、対象物50の位置形状を詳細に表現できる。このように、本実施形態によれば、リアルタイム性と位置形状の表示とを両立できる。
 図6に、BodyPixを用いた場合の表示例を示す。図6の上段に示すように、対象物50を含む画像が複数のグリッドセルGCCに分割され、その複数のグリッドセルGCCのうち対象物50を含むと判定されたグリッドセルGCCに色が付されて表示される。図6では、対象物50を含むと判定されたグリッドセルGCCを、ハッチングにより示す。
 BodyPixでは、グリッドセルGCC単位で色が付されるので、対象物50の位置形状をグリッドセルGCCよりも細かく表現できない。本実施形態によれば、図5で説明したように、処理部4はグリッドセルGCBよりも小さいバウンディングボックスBBXを生成できるので、対象物50が曲線部分を含むような複雑な形状であっても、対象物50の位置形状を詳細に表現できる。
 図6の下段に示すように、血管、胆管、尿管又は神経等のような細長い形状の対象物51にBodyPixを適用した場合、その細長い形状をグリッドセルGCCの幅でしか表現できない。また、生体の拍動又は内視鏡スコープ2の操作等によって対象物51の位置が変動するが、グリッドセルGCCの幅よりも小さい変動は表示に反映されないため、対象物50の位置が適切に表示されない。本実施形態によれば、図7に示すように、処理部4は、グリッドセルGCBよりも細いバウンディングボックスBBXを生成できるので、対象物51の細長い形状を表現できる。また、対象物51の位置が変動する場合であっても、グリッドセルGCBよりも狭い幅のバウンディングボックスBBXによって、対象物50の位置の変動を細かく捉えることができる。
 なお、出力部6は、バウンディングボックスBBXを、信頼度スコアに応じた不透明度で検出用画像に重畳してもよい。αブレンドにおいて、バウンディングボックスBBXのブレンド率をαとし、検出用画像のブレンド率を1-αとしたとき、αが不透明度に相当する。出力部6は、バウンディングボックスBBXの信頼度スコアが高いほど、そのバウンディングボックスBBXの不透明度を高くする。
 このようにすれば、対象物50の位置形状をより細かく表現できる。例えば、対象物50の輪郭においてバウンディングボックスBBXの信頼度スコアが低下することが想定される。この場合、対象物50の輪郭に配置されるバウンディングボックスBBXは、対象物50の内部に配置されるバウンディングボックスBBXよりも不透明度が低く、薄く表示される。これにより、対象物50の形状が、より実際の形状に近く見えるように表示される。
 2.バウンディングボックスと候補枠について
 図8に、バウンディングボックスBBXの第1例を示す。
 第2グリッドセルGCBに対して横方向に第1の第2グリッドセルGCB1と第2の第2グリッドセルGCB2が隣り合い、第2グリッドセルGCBに対して縦方向に第3の第2グリッドセルGCB3と第4の第2グリッドセルGCB4が隣り合うとする。また、第1の第2グリッドセルGCB1と第2の第2グリッドセルGCB2のアンカーANK間の長さをXAとし、第3の第2グリッドセルGCB3と第4の第2グリッドセルGCB4のアンカーANK間の長さをYAとする。このとき、検出部5は、横辺の長さxがXAより小さく、且つ縦辺の長さyがYAより小さく、且つ第1~第4の第2グリッドセルGCB1~GCB4のアンカーANKを含まないバウンディングボックスBBXを生成する。
 アンカーANKは、検出部5が候補枠を生成するときの代表点であり、例えば各グリッドセルの中心点である。即ち、検出部5は、第2グリッドセルGCBのアンカーANKを基準として候補枠を生成する。候補枠の中心とアンカーANKは一致していなくてもよい。長さx、y、XA、YAは、例えば画素数で表される。「バウンディングボックスBBXがグリッドセルGCB1~GCB4のアンカーANKを含まない」とは、バウンディングボックスBBXで囲まれる矩形領域内に、グリッドセルGCB1~GCB4のアンカーANKが存在しないという意味である。
 本実施形態によれば、バウンディングボックスBBXの大きさx×yが、XA×YAにより制限されている。即ち、隣り合うグリッドセルのアンカー間の距離によって制限されている。また、バウンディングボックスBBXの位置は、隣り合うグリッドセルのアンカーを超えないように制限されている。これにより、グリッドセルよりも大きい対象物に対して複数のバウンディングボックスBBXが生成され、その複数のバウンディングボックスBBXの集合によって対象物50が表現される。
 図9に、バウンディングボックスBBXの第2例を示す。
 第2グリッドセルGCBの横辺の長さをXとし、縦辺の長さをYとする。このとき、バウンディングボックスBBXの横辺の長さxはX以下であり、且つ縦辺の長さyはY以下である。
 本実施形態によれば、グリッドセルGCBよりも小さいバウンディングボックスBBXが生成されるので、対象物50の位置形状を、グリッドセルGCBよりも小さいバウンディングボックスBBXによって細かく表現できる。
 なお、検出部5は、x≦Xとy≦Yの少なくとも一方を満たすバウンディングボックスBBXを生成してもよい。即ち、バウンディングボックスBBXの横辺の長さxはX以下であり、且つ縦辺の長さyは図8のYAより小さくてもよい。又は、バウンディングボックスBBXの横辺の長さxは図8のXAより小さく、且つ縦辺の長さyはY以下であってもよい。
 上記図8又は図9のようなバウンディングボックスBBXを決定するための候補枠について説明する。
 検出部5は、複数の候補枠の中からバウンディングボックスBBXを決定する。このとき、複数の候補枠は、候補枠の横辺の長さxがXより小さいこと、又は候補枠の縦辺の長さyがYより小さいこと、の少なくとも一方を満たす候補枠を含む。図9で説明したように、XはグリッドセルGCBの横辺の長さであり、YはグリッドセルGCBの縦辺の長さである。なお、複数の候補枠の全部が上記条件を満たす必要はなく、複数の候補枠の一部が上記条件を満たしていればよい。
 このようにすれば、検出部5が、候補枠の横辺の長さxがXより小さいこと、又は候補枠の縦辺の長さyがYより小さいこと、の少なくとも一方を満たす候補枠を、バウンディングボックスBBXとして決定することが可能となる。このようなバウンディングボックスBBXが選択されることで、グリッドセルGCBよりも細かい位置形状の表現が可能となる。
 また、検出部5は次のような複数の候補枠を生成してもよい。各候補枠の横辺の長さをxcとし、縦辺の長さのycとする。このとき、xcが図8のXAより小さく、且つycが図8のYAより小さく、且つ各候補枠が第1~第4の第2グリッドセルGCB1~GCB4のアンカーANKを含まない。
 このようにすれば、検出部5が上記複数の候補枠の中からバウンディングボックスBBXを決定することで、図8で説明した条件のバウンディングボックスBBXを生成できる。即ち、バウンディングボックスBBXの横辺の長さxがXAより小さく、且つ縦辺の長さyがYAより小さく、且つバウンディングボックスBBXが第1~第4の第2グリッドセルGCB1~GCB4のアンカーANKを含まない。
 また、検出部5は、次のような複数の候補枠を生成してもよい。各候補枠の横辺の長さxcはX以下であり且つ縦辺の長さycはYAより小さい、又は、各候補枠の横辺の長さxcはXAより小さく且つ縦辺の長さycはY以下である。
 このようにすれば、検出部5が上記複数の候補枠の中からバウンディングボックスBBXを決定することで、次のような条件のバウンディングボックスBBXを生成できる。即ち、バウンディングボックスBBXの横辺の長さxはX以下であり且つ縦辺の長さyはYAより小さい、又は、バウンディングボックスBBXの横辺の長さxはXAより小さく且つ縦辺の長さyはY以下である。
 また、検出部5は、次のような複数の候補枠を生成してもよい。各候補枠の横辺の長さxcはX以下であり、且つ縦辺の長さycはY以下である。
 このようにすれば、検出部5が上記複数の候補枠の中からバウンディングボックスBBXを決定することで、図9で説明した条件のバウンディングボックスBBXを生成できる。即ち、バウンディングボックスBBXの横辺の長さxがXより小さく、且つ縦辺の長さyがYより小さい。
 図10に、バウンディングボックスBBXの第3例を示す。
 第2グリッドセル群のうち隣り合う2つの第2グリッドセルをGCBa、GCBbとする。このうち一方の第2グリッドセルGCBaにおいて生成されるバウンディングボックスBBXaと、他方の第2グリッドセルGCBbにおいて生成されるバウンディングボックスBBXbとは、互いに重複しない。
 バウンディングボックスの重複が許されていると、大きなバウンディングボックスが生成される可能性があり、そのバウンディングボックスによって位置形状の表現が粗くなる可能性がある。本実施形態によれば、互いに重複しない複数のバウンディングボックスの集合によって対象物50の位置形状が表現されるので、対象物50の位置形状を細かく表現できる。
 上記図10のようなバウンディングボックスBBXを決定するための候補枠について説明する。
 検出部5は、隣り合う2つの第2グリッドセルGCBa、GCBbのうち一方の第2グリッドセルGCBaにおいて生成される複数の候補枠と、他方の第2グリッドセルGCBbにおいて生成される複数の候補枠との中から、互いに重複しない候補枠の組を、一方及び他方の第2グリッドセルGCBa、GCBbのバウンディングボックスBBXa、BBXbとして決定する。
 図10には、第2グリッドセルGCBaに候補枠CAFaが生成され、第2グリッドセルGCBbに候補枠CAFb1、CAFb2が生成される。なお、実際には第2グリッドセルGCBaに複数の候補枠が生成される。図10の例では、候補枠CAFaとCAFb1が重複している。検出部5は、互いに重複しない候補枠CAFa、CAFb2の組を、バウンディングボックスBBXa、BBXbとして決定する。
 このようにすれば、隣り合う2つの第2グリッドセルをGCBa、GCBbにおいて生成されるバウンディングボックスBBXa、BBXbとが互いに重複しないような、バウンディングボックスを生成できる。
 上記図8~図10で説明した候補枠の横辺の長さxcと縦辺の長さycは、ユニット長aの整数倍である。このような候補枠から決定されるバウンディングボックスBBXの横辺の長さxと縦辺の長さyは、ユニット長aの整数倍である。
 n、mを1以上の整数としたとき、xc=n×a、yc=m×aと表される。ユニット長aは、辺の長さのユニットとして予め設定されており、グリッドセルの辺の長さX、Yよりも小さい。より具体的には、ユニット長aはX/2及びY/2より小さい。
 図8又は図9で説明したように、候補枠の大きさxc×ycは制限されているので、n、mは有限な整数以下となる。これにより、検出部5が生成する複数の候補枠が有限な数に限定されるので、物体検出の処理負荷が低減される。
 3.学習処理とアノテーションデータ生成方法
 次に、本実施形態の物体検出を実現する学習処理について説明する。本実施形態の物体検出は、例えば腹腔鏡下胆のう摘出手術に適用可能である。以下では、腹腔鏡下胆のう摘出手術を例にとって、学習処理を説明する。但し、本実施形態の物体検出と学習処理の適用対象は、腹腔鏡下胆のう摘出手術に限定されない。即ち、作業者により画像にアノテーションが付された教師データに基づいて機械学習が行われ、その学習済みモデルにより画像から対象物が検出される場合に、本実施形態を適用可能である。
 図11に、腹腔鏡下胆のう摘出手術における学習用画像及びマスクデータの一例を示す。学習用画像は、学習処理に用いられる画像のことであり、内視鏡システムを用いて予め撮影されたものである。学習用画像は、例えば腹腔内がビデオ撮影された動画のフレーム画像である。
 学習用画像には、肝臓KZと、胆のうTNNと、処置具TL1、TL2とが撮像されている。この学習用画像の画角内には、物体検出の対象物として、総胆管、胆のう管、ルビエレ溝及びS4下縁が含まれている。アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、S4下縁を識別し、各々に対してマスクデータを付す。マスクデータ付与後の学習用画像には、総胆管を示すマスクデータTGAと、胆のう管を示すマスクデータTGBと、ルビエレ溝を示すマスクデータTGCと、S4下縁を示すマスクデータTGDが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。
 図12に示すように、マスクデータは複数のバウンディングボックスの集合に変換され、このバウンディングボックスの集合がアノテーションデータとして用いられる。変換手法についてはアノテーションデータ生成方法として後述する。図12では、マスクデータTGAを例に図示しているが、マスクデータTGB~TGDについても同様の手法でバウンディングボックスが生成される。
 図12に示すように、学習用画像は、検出用画像と同様に、複数の第1グリッドセルGCAである第1グリッドセル群に分割される。図12において、第1グリッドセル群のうち複数のグリッドセルGCEがマスクデータTGAに重なっている。このようなマスクデータTGAに重なる複数のグリッドセルGCEを第3グリッドセル群と呼び、その各々を第3グリッドセルと呼ぶこととする。図12では、第3グリッドセル群をハッチングにより示している。第3グリッドセル群は第1グリッドセル群に含まれており、グリッドセルそのものは同じものである。即ち、第3グリッドセルGCEも、横辺の長さX、縦辺の長さYである。
 マスクデータTGAに重なる第3グリッドセルGCEの各々に対してバウンディングボックスBBXTが付与される。従来の物体検出では1つのマスクデータTGAに対して1つのバウンディングボックスが付与されるが、本実施形態では、1つのマスクデータTGAに対して複数のバウンディングボックスBBXTが生成され、その複数のバウンディングボックスBBXTの集合によってマスクデータTGAが覆われる。
 図13は、学習処理のフローチャートである。
 学習処理は、学習装置により実行される。学習装置は、処理部と記憶部と操作部と表示部とを含む。学習装置は、例えばPC等の情報処理装置である。処理部はCPU等のプロセッサである。処理部は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部は液晶ディスプレイ等の表示装置である。なお、図1の情報処理システム10が学習装置を兼ねてもよい。この場合、処理部4、記憶部7、操作部9、表示部3が、それぞれ学習装置の処理部、記憶部、操作部、表示部に対応する。
 図13に示すように、ステップS11において、学習装置の処理部は記憶部から教師データを読み出す。例えば1回の推論に対して1又は複数の学習用画像と、それに対応したアノテーションデータとが読み出される。アノテーションデータは、図12で説明したバウンディングボックスの集合である。バウンディングボックスを示すデータは、例えば、バウンディングボックスの位置座標とサイズを示すデータ等であってよい。なお、マスクデータと学習用画像が教師データとして記憶部に記憶されていてもよい。この場合、処理部がマスクデータをバウンディングボックスに変換し、そのバウンディングボックスをアノテーションデータとして学習に用いる。
 ステップS12において、処理部は学習用画像から対象物の位置形状を推定し、その結果を出力する。即ち、処理部は、ニューラルネットワークに学習用画像を入力する。処理部は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すバウンディングボックスの集合を出力する。
 ステップS13において、処理部は、推定したバウンディングボックスと、アノテーションデータのバウンディングボックスとを比較し、その結果に基づいて誤差を計算する。即ち、処理部は、ニューラルネットワークから出力されたバウンディングボックスと、教師データのバウンディングボックスとの誤差を計算する。
 ステップS14において、処理部は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部は、ステップS13で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。
 ステップS15において、処理部は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部はステップS11~S15を再び実行する。パラメータ調整が規定回数終了した場合、ステップS16に示すように処理部は学習処理を終了する。又は、処理部は、ステップS13で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部はステップS11~S15を再び実行する。誤差が規定値以下になった場合、ステップS16に示すように処理部は学習処理を終了する。
 以上の学習処理によって学習済みモデルが得られ、その学習済みモデルが図1の記憶部7に記憶される。学習用画像が第1グリッドセル群に分割され、学習用画像内の対象物が、第1グリッドセル群のうち第3グリッドセル群にオーバーラップして位置する。このとき、学習済みモデルは、学習用画像にアノテーションが付された教師データにより学習され、対象物の位置形状を、第3グリッドセル群から生成した複数のバウンディングボックスの集合によって出力するように学習されている。図13で説明したように、アノテーションは、第3グリッドセル群に含まれる第3グリッドセルGCEにおいて生成されるバウンディングボックスBBXTによって、第3グリッドセルGCEに位置する対象物の部位を取り囲むことで、対象物の位置形状を複数のバウンディングボックスの集合によって表現する。具体的には、対象物の位置形状はマスクデータにより示されており、第3グリッドセルGCEに位置するマスクデータの部位を取り囲むことで、マスクデータの位置形状が複数のバウンディングボックスの集合によって表現されている。
 本実施形態によれば、学習用画像における対象物の位置形状を複数のバウンディングボックスの集合によって表現したアノテーションを用いて学習処理が行われることで、その学習済みモデルを用いた物体検出により、検出用画像における対象物の位置形状を複数のバウンディングボックスの集合によって表現した表示が可能となる。
 腹腔鏡下胆のう摘出手術においては、以下のような効果を期待できる。即ち、総胆管、胆のう管、ルビエレ溝及びS4下縁は、腹腔鏡下胆のう摘出手術におけるランドマークであるが、画像内において位置形状が明確には表示されないランドマークとなっている。具体的には、総胆管と胆のう管は、臓器又は組織に覆われており、ルビエレ溝とS4下縁は、露出して視認できるが、境界があいまいである。例えば、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等が、上記ランドマークにアノテーションを付す。これにより、暗黙知を有している医師等により識別されたランドマークの位置形状が、マスクデータとして生成される。そして、このマスクデータを教師データとして機械学習が行われることで、暗黙知を反映して位置形状が明確化されたランドマークを検出し、表示することが可能となる。本実施形態の物体検出では、1つの矩形でなくバウンディングボックスの集合によってランドマークの位置形状を表現できる。これにより、手術において重要なリアルタイム性を確保しながら、不明瞭なランドマークの位置形状を詳細に医師等に提示できる。
 次に、マスクデータをバウンディングボックスに変換するアノテーションデータ生成方法について説明する。図14は、アノテーションデータ生成方法のフローチャートである。図15は、アノテーションデータ生成方法の説明図である。アノテーションデータ生成方法は、例えば学習装置とは異なる情報処理装置によって実行されてもよいし、或いは学習装置において学習処理の前処理として実行されてもよい。
 図14に示すように、ステップS21においてマスクデータを入力する。マスクデータは、学習用画像における対象物の領域を示すデータであり、各画素に1又は0が付されたデータである。1は対象物を示し、0は非対象物を示す。以下、図11のマスクデータTGAを例に説明する。
 ステップS22において、マスクデータTGAをa×aの正方形の集合に変換する。aは候補枠とバウンディングボックスのユニット長である。図15の上段図に示すように、マスクデータTGAをa×aのグリッドに分割する。上段図において、マスクデータTGAのうち「1」が付された画素をハッチングで示す。図15の中段図に示すように、マスクデータTGAのうち「1」が付された画素に重なるa×aの正方形を抽出する。中段図において、抽出されたa×aの正方形を実線で示す。
 ステップS23において、a×aの正方形の集合に変換されたマスクデータTGAを、第1グリッドセル群に分割する。図15の中段図には、3×3個のa×aの正方形が第1グリッドセルGCAに対応する例を示す。但し、1つのグリッドセルに含まれるa×aの正方形の数は、任意であってよい。
 ステップS24において、各グリッドセルにおいてバウンディングボックスを生成する。図15の中段図及び下段図に示すように、第3グリッドセルGCEにおいてマスクデータTGAから変換されたa×aの正方形の集合を内包するように、バウンディングボックスBBXTを生成する。バウンディングボックスBBXTは、a×aの正方形の集合を内包するので、当然ながら、マスクデータTGAのうち第3グリッドセルGCEに含まれる部分を、内包している。第3グリッドセル群の各第3グリッドセルGCEにバウンディングボックスBBXTが生成されることで、複数のバウンディングボックスBBXTによってマスクデータTGAが覆われる。
 ステップS25において、上記複数のバウンディングボックスBBXTを、マスクデータTGAが示す対象物のアノテーションデータとして出力する。
 以上に説明したアノテーションデータ生成方法は、学習用画像内の対象物の位置形状を示すマスクデータTGAを入力し、そのマスクデータTGAをグリッドセル群に分割する。アノテーションデータ生成方法は、グリッドセル群のうち複数のグリッドセルGCEが対象物にオーバーラップするとき、複数のグリッドセルGCEの各グリッドセルにおいてバウンディングボックスBBXTを生成する。アノテーションデータ生成方法は、生成した複数のバウンディングボックスBBXTの集合を対象物のアノテーションとする。
 本実施形態によれば、1つの対象物を複数のバウンディングボックスで囲むアノテーションデータが生成される。このアノテーションデータを用いて機械学習が行われることで、その学習済みモデルを用いた物体検出により、検出用画像における対象物の位置形状を複数のバウンディングボックスの集合によって表現した表示が可能となる。
 より具体的には、グリッドセル群に含まれるグリッドセルGCEの横辺の長さをXとし、縦辺の長さをYとし、aをX及びYより小さいユニット長とする。このとき、アノテーションデータ生成方法は、マスクデータTGAを、a×aの正方形からなる集合に変換する。アノテーションデータ生成方法は、a×aの正方形からなる集合のうち、複数のグリッドセルGCEの各グリッドセルに属する正方形を選択し、選択した正方形を包含するバウンディングボックスBBXTを、各グリッドセルにおけるバウンディングボックスBBXTとして生成する。
 アノテーションデータを用いた機械学習において、推論モデルは学習用画像からユニット長aのバウンディングボックスを推論する。本実施形態によれば、アノテーションデータ生成方法はユニット長aのバウンディングボックスを生成するので、誤差評価時において、推論されたユニット長aのバウンディングボックスと、アノテーションデータにおけるユニット長aのバウンディングボックスとが比較される。同じユニット長aのバウンディングボックスが比較されることで、誤差の評価が簡素化される。
 以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
1 プロセッサユニット、2 内視鏡スコープ、3 表示部、4 処理部、5 検出部、6 出力部、7 記憶部、8 撮像データ受信部、9 操作部、10 情報処理システム、50,51 対象物、100 内視鏡システム、ANK アンカー、BBX,BBXT,BBXa,BBXb バウンディングボックス、CAFa,CAFb1,CAFb2 候補枠、GCA 第1グリッドセル、GCB,GCBa,GCBb 第2グリッドセル、GCB1 第1の第2グリッドセル、GCB2 第2の第2グリッドセル、GCB3 第3の第2グリッドセル、GCB4 第4の第2グリッドセル、GCE 第3グリッドセル、TGA,TGB,TGC,TGD マスクデータ、a ユニット長

Claims (20)

  1.  検出用画像から対象物の物体検出を行う処理部を含み、
     前記処理部は、
     前記検出用画像を第1グリッドセル群に分割し、
     前記対象物が、前記第1グリッドセル群のうち第2グリッドセル群にオーバーラップして位置するとき、前記第2グリッドセル群に含まれる第2グリッドセルにおいてバウンディングボックスを生成し、
     前記第2グリッドセルにおいて生成した前記バウンディングボックスによって、前記第2グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理システム。
  2.  請求項1において、
     前記第2グリッドセルに対して横方向に第1、第2の第2グリッドセルが隣り合い、前記第2グリッドセルに対して縦方向に第3、第4の第2グリッドセルが隣り合い、前記第1、第2の第2グリッドセルのアンカー間の長さをXAとし、前記第3、第4の第2グリッドセルのアンカー間の長さをYAとしたとき、
     前記処理部は、
     横辺の長さxが前記XAより小さく、且つ縦辺の長さyが前記YAより小さく、且つ前記第1~第4の第2グリッドセルのアンカーを含まない前記バウンディングボックスを生成することを特徴とする情報処理システム。
  3.  請求項1において、
     前記処理部は、
     前記バウンディングボックスの複数の候補枠の中から前記バウンディングボックスを決定し、
     前記複数の候補枠は、
     前記第2グリッドセルの横辺の長さをXとし、縦辺の長さをYとしたとき、候補枠の横辺の長さxcが前記Xより小さいこと、又は前記候補枠の縦辺の長さycが前記Yより小さいこと、の少なくとも一方を満たす前記候補枠を含むことを特徴とする情報処理システム。
  4.  請求項1において、
     学習済みモデルを記憶する記憶部を含み、
     前記処理部は、
     前記学習済みモデルに基づく前記物体検出を行い、
     前記学習済みモデルは、
     前記学習用画像が前記第1グリッドセル群に分割され、前記学習用画像内の前記対象物が、前記第1グリッドセル群のうち第3グリッドセル群にオーバーラップして位置するとき、前記学習用画像にアノテーションが付された教師データにより学習され、前記対象物の位置形状を、前記第3グリッドセル群から生成した複数のバウンディングボックスの集合によって出力するように学習された学習済みモデルであり、
     前記アノテーションは、
     前記第3グリッドセル群に含まれる第3グリッドセルにおいて生成されるバウンディングボックスによって、前記第3グリッドセルに位置する前記対象物の部位を取り囲むことで、前記対象物の位置形状を複数のバウンディングボックスの集合によって表現したアノテーションであることを特徴とする情報処理システム。
  5.  請求項2において、
     前記第2グリッドセルの横辺の長さをXとし、縦辺の長さをYとしたとき、
     前記xは前記X以下であり且つ前記yは前記YAより小さい、又は、前記xは前記XAより小さく且つ前記yは前記Y以下であることを特徴とする情報処理システム。
  6.  請求項5において、
     前記xは前記X以下であり且つ前記yは前記Y以下であることを特徴とする情報処理システム。
  7.  請求項2において、
     前記xと前記yは、ユニット長aの整数倍であることを特徴とする情報処理システム。
  8.  請求項1において、
     前記第2グリッドセル群の隣り合う2つの第2グリッドセルのうち一方の第2グリッドセルにおいて生成される前記バウンディングボックスと、他方の第2グリッドセルにおいて生成される前記バウンディングボックスとは、互いに重複しないことを特徴とする情報処理システム。
  9.  請求項1において、
     前記処理部は、
     前記第2グリッドセルのアンカーを基準に前記バウンディングボックスの候補枠を生成することを特徴とする情報処理システム。
  10.  請求項1において、
     前記処理部は、
     前記バウンディングボックスの複数の候補枠を生成し、前記複数の候補枠の各候補枠について信頼度スコアを算出し、前記信頼度スコアに基づいて前記複数の候補枠の中から前記バウンディングボックスを決定することを特徴とする情報処理システム。
  11.  請求項10において、
     前記処理部は、
     前記バウンディングボックスを、前記信頼度スコアに応じた不透明度で前記検出用画像に重畳することを特徴とする情報処理システム。
  12.  請求項10において、
     前記処理部は、
     前記第2グリッドセル群の隣り合う2つの第2グリッドセルのうち一方の第2グリッドセルにおいて生成される前記複数の候補枠と、他方の第2グリッドセルにおいて生成される前記複数の候補枠との中から、互いに重複しない候補枠の組を、前記一方及び前記他方の第2グリッドセルの前記バウンディングボックスとして決定することを特徴とする情報処理システム。
  13.  請求項10において、
     前記第2グリッドセルに対して横方向に第1、第2の第2グリッドセルが隣り合い、前記第2グリッドセルに対して縦方向に第3、第4の第2グリッドセルが隣り合い、前記第1、第2の第2グリッドセルのアンカー間の長さをXAとし、前記第3、第4の第2グリッドセルのアンカー間の長さをYAとしたとき、
     前記処理部は、
     各候補枠の横辺の長さxcが前記XAより小さく、且つ縦辺の長さycが前記YAより小さく、且つ前記各候補枠が前記第1~第4の第2グリッドセルのアンカーを含まない前記複数の候補枠を生成することを特徴とする情報処理システム。
  14.  請求項13において、
     前記第2グリッドセルの横辺の長さをXとし、縦辺の長さをYとしたとき、
     前記xcは前記X以下であり且つ前記ycは前記YAより小さい、又は、前記xcは前記XAより小さく且つ前記ycは前記Y以下であることを特徴とする情報処理システム。
  15.  請求項14において、
     前記xcは前記X以下であり、且つ前記ycは前記Y以下であることを特徴とする情報処理システム。
  16.  請求項13において、
     前記xcと前記ycは、ユニット長aの整数倍であることを特徴とする情報処理システム。
  17.  請求項1に記載の情報処理システムと、
     前記検出用画像を撮像する撮像装置と、
     を含むことを特徴とする内視鏡システム。
  18.  検出用画像から対象物の物体検出を行う情報処理方法であって、
     前記検出用画像を第1グリッドセル群に分割し、
     前記対象物が、前記第1グリッドセル群のうち第2グリッドセル群にオーバーラップして位置するとき、前記第2グリッドセル群に含まれる第2グリッドセルにおいてバウンディングボックスを生成し、
     前記第2グリッドセルにおいて生成した前記バウンディングボックスによって、前記第2グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理方法。
  19.  学習用画像内の対象物の位置形状を示すマスクデータを入力し、
     前記マスクデータをグリッドセル群に分割し、
     前記グリッドセル群のうち複数のグリッドセルが前記対象物にオーバーラップするとき、前記複数のグリッドセルの各グリッドセルにおいてバウンディングボックスを生成し、
     生成した複数のバウンディングボックスの集合を前記対象物のアノテーションとすることを特徴とするアノテーションデータ生成方法。
  20.  請求項19において、
     前記グリッドセル群に含まれるグリッドセルの横辺の長さをXとし、縦辺の長さをYとし、aを前記X及び前記Yより小さいユニット長としたとき、
     前記マスクデータを、a×aの正方形からなる集合に変換し、
     前記a×aの正方形からなる集合のうち、前記複数のグリッドセルの各グリッドセルに属する正方形を選択し、選択した正方形を包含するバウンディングボックスを、前記各グリッドセルにおける前記バウンディングボックスとして生成することを特徴とするアノテーションデータ生成方法。
PCT/JP2021/002754 2021-01-27 2021-01-27 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法 WO2022162766A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/002754 WO2022162766A1 (ja) 2021-01-27 2021-01-27 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法
JP2022577860A JPWO2022162766A1 (ja) 2021-01-27 2021-01-27

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002754 WO2022162766A1 (ja) 2021-01-27 2021-01-27 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法

Publications (1)

Publication Number Publication Date
WO2022162766A1 true WO2022162766A1 (ja) 2022-08-04

Family

ID=82652760

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002754 WO2022162766A1 (ja) 2021-01-27 2021-01-27 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法

Country Status (2)

Country Link
JP (1) JPWO2022162766A1 (ja)
WO (1) WO2022162766A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216993A (ja) * 1992-02-04 1993-08-27 Toppan Printing Co Ltd 画像切り抜き装置
JP2005056346A (ja) * 2003-08-07 2005-03-03 Ricoh Co Ltd 傾き検出方法、傾き検出装置およびプログラム
US20190208979A1 (en) * 2018-01-05 2019-07-11 Irobot Corporation System for spot cleaning by a mobile robot
WO2019155628A1 (ja) * 2018-02-09 2019-08-15 日本電気株式会社 画像処理装置、画像処理方法および記録媒体
JP2019211403A (ja) * 2018-06-07 2019-12-12 Jrcモビリティ株式会社 対象位置計測装置及び対象位置計測プログラム
US20200193609A1 (en) * 2018-12-18 2020-06-18 Qualcomm Incorporated Motion-assisted image segmentation and object detection
CN111612002A (zh) * 2020-06-04 2020-09-01 广州市锲致智能技术有限公司 一种基于神经网络的多目标物体运动追踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216993A (ja) * 1992-02-04 1993-08-27 Toppan Printing Co Ltd 画像切り抜き装置
JP2005056346A (ja) * 2003-08-07 2005-03-03 Ricoh Co Ltd 傾き検出方法、傾き検出装置およびプログラム
US20190208979A1 (en) * 2018-01-05 2019-07-11 Irobot Corporation System for spot cleaning by a mobile robot
WO2019155628A1 (ja) * 2018-02-09 2019-08-15 日本電気株式会社 画像処理装置、画像処理方法および記録媒体
JP2019211403A (ja) * 2018-06-07 2019-12-12 Jrcモビリティ株式会社 対象位置計測装置及び対象位置計測プログラム
US20200193609A1 (en) * 2018-12-18 2020-06-18 Qualcomm Incorporated Motion-assisted image segmentation and object detection
CN111612002A (zh) * 2020-06-04 2020-09-01 广州市锲致智能技术有限公司 一种基于神经网络的多目标物体运动追踪方法

Also Published As

Publication number Publication date
JPWO2022162766A1 (ja) 2022-08-04

Similar Documents

Publication Publication Date Title
US11907849B2 (en) Information processing system, endoscope system, information storage medium, and information processing method
JP7231709B2 (ja) 情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法
JP2004041694A (ja) 画像生成装置およびプログラム、画像選択装置、画像出力装置、画像提供サービスシステム
JP2011212219A (ja) 投影画像生成装置、方法、及びプログラム
JP6215057B2 (ja) 可視化装置、可視化プログラムおよび可視化方法
JP2010250420A (ja) 顔の特徴部位の座標位置を検出する画像処理装置
JP2009178423A (ja) 画像処理装置及びその方法
US20110276909A1 (en) Numerical value input device, numerical value input method, and program
JP2010250419A (ja) 目の様態を検出する画像処理装置
WO2022162766A1 (ja) 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法
JP4887491B2 (ja) 医用画像処理方法及びその装置、プログラム
JP5721225B2 (ja) 形状データ生成方法、プログラム及び装置
US20080297624A1 (en) Image processing apparatus, image processing system, computer readable medium, and image processing method
US20050057562A1 (en) System and method for spatio-temporal guidepoint modeling
Liu et al. An Improved Kinect-Based Real-Time Gesture Recognition Using Deep Convolutional Neural Networks for Touchless Visualization of Hepatic Anatomical Mode
JP2009247490A (ja) 画像処理装置および方法並びにプログラム
WO2021067591A3 (en) Systems and methods for use of stereoscopy and color change magnification to enable machine learning for minimally invasive robotic surgery
JP2010244251A (ja) 顔の特徴部位の座標位置を検出する画像処理装置
JP6996303B2 (ja) 医用画像生成装置
Zhou et al. Synchronizing detection and removal of smoke in endoscopic images with cyclic consistency adversarial nets
US11900615B2 (en) Tracking device, endoscope system, and tracking method
US11790537B2 (en) Tracking device, endoscope system, and tracking method
Bhatla et al. Development of Anatomy Learning System based on Augmented Reality
JP5954846B2 (ja) 形状データ生成プログラム、形状データ生成方法及び形状データ生成装置
Wu et al. AI-Enhanced Virtual Reality in Medicine: A Comprehensive Survey

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21922790

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022577860

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21922790

Country of ref document: EP

Kind code of ref document: A1