WO2020100664A1 - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
WO2020100664A1
WO2020100664A1 PCT/JP2019/043358 JP2019043358W WO2020100664A1 WO 2020100664 A1 WO2020100664 A1 WO 2020100664A1 JP 2019043358 W JP2019043358 W JP 2019043358W WO 2020100664 A1 WO2020100664 A1 WO 2020100664A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
resolution image
resolution
image processing
Prior art date
Application number
PCT/JP2019/043358
Other languages
English (en)
French (fr)
Inventor
啓文 日比
裕之 森崎
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/277,878 priority Critical patent/US20210350570A1/en
Priority to JP2020556094A priority patent/JP7248037B2/ja
Priority to CN201980072800.5A priority patent/CN113056768B/zh
Publication of WO2020100664A1 publication Critical patent/WO2020100664A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Definitions

  • the present disclosure relates to an image processing device, an image processing method, and a program, and more particularly, to an image processing device and an image that enable reduction of a processing amount required for a series of processes from detection to recognition of an object in a high resolution image.
  • the present invention relates to a processing method and a program.
  • an image processing device that detects a person or object in a captured moving image and performs recognition processing.
  • Patent Document 1 discloses a technique of detecting a subject region in a low-resolution image acquired from a wide-range image obtained by capturing an omnidirectional image and performing recognition processing on a region corresponding to the subject region in the wide-range image. ..
  • the present disclosure has been made in view of such a situation, and it is possible to reduce the processing amount required for a series of processes from detection to recognition of an object in a high-resolution image.
  • the image processing apparatus of the present disclosure includes a first acquisition unit that acquires a second resolution image having a lower resolution than the first resolution image from a first resolution image, and a classification that classifies objects included in the second resolution image. Part, an identifying unit that identifies an object region corresponding to the object of a predetermined classification in the first resolution image, and an object recognition process for the object region identified in the first resolution image.
  • the image processing apparatus includes a recognition unit that performs the processing.
  • the image processing apparatus acquires a second resolution image having a lower resolution than the first resolution image from the first resolution image, classifies objects included in the second resolution image, and It is an image processing method for identifying an object area corresponding to a predetermined classification of the object in the first resolution image, and performing recognition processing of the object for the object area identified in the first resolution image.
  • the program of the present disclosure acquires a second resolution image having a lower resolution than the first resolution image from the first resolution image, classifies objects included in the second resolution image, and determines a predetermined value in the first resolution image.
  • the second resolution image having a lower resolution than the first resolution image is acquired from the first resolution image, the objects included in the second resolution image are classified, and the predetermined resolution is determined in the first resolution image.
  • An object area corresponding to the object of the classification is specified, and recognition processing of the object is performed on the object area specified in the first resolution image.
  • FIG. 19 is a block diagram illustrating a configuration example of a computer. It is a figure which shows roughly the whole structure of the operating room system. It is a figure which shows the example of a display of the operation screen in a centralized operation panel. It is a figure which shows an example of the mode of the surgery to which the operating room system was applied.
  • FIG. 27 is a block diagram showing an example of the functional configuration of the camera head and CCU shown in FIG. 26. It is a block diagram showing an example of a schematic structure of a vehicle control system. It is explanatory drawing which shows an example of the installation position of a vehicle exterior information detection part and an imaging part.
  • FIG. 1 is a diagram illustrating an image processing device to which a technique according to the present disclosure (the present technique) is applied.
  • the image processing device 10 in FIG. 1 acquires a high resolution image (moving image) captured by the image capturing device 21.
  • the image processing device 10 detects an object (particularly a small object) from the acquired high resolution image and outputs the detection result to the display device 22.
  • the image pickup device 21 is configured by a camera having a CMOS (Complementary Metal-Oxide-Semiconductor) image sensor and a CCD (Charge Coupled Device) image sensor capable of picking up a high-resolution image.
  • CMOS Complementary Metal-Oxide-Semiconductor
  • CCD Charge Coupled Device
  • the display device 22 is composed of an LCD (Liquid Crystal Display) capable of displaying high resolution images, an organic EL (Electro-Luminescence) display, and the like. On the display device 22, a detection result of a small object and the like are displayed in a superimposed manner on the high resolution image captured by the imaging device 21.
  • the image in the present technology may be stored as image data, for example, in a storage device (not shown) other than being displayed on the display device 22.
  • the high-resolution image is, for example, an image captured by a camera installed in a remote control tower provided in an airport without a controller, or a remote monitoring device that monitors a building, factory, store, city, etc. at a remote location. It may be the image obtained.
  • the resolution of the high resolution image is, for example, 4K resolution.
  • FIG. 2 is a diagram showing an example of a high resolution image.
  • the high-resolution image shown in FIG. 2 is an image captured by a camera installed in a remote control tower, and shows a state in which a plurality of aircraft are parked in an apron at an airport. Further, although not shown, in the high-resolution image of FIG. 2, a plurality of aircraft are flying above the airport.
  • the image processing device to which the present technology is applied it is possible to reduce the processing amount required for a series of processes from the detection to the recognition of a small object in a high resolution image.
  • a high-resolution image having 4K resolution 12 ⁇ 8, 20 ⁇ 10, 28 ⁇ 15, 34 ⁇ 21, 41 ⁇ 23, 44 ⁇ 23 as shown in FIG. . It is possible to reduce the processing amount required for recognition from the detection of a small object of 54 ⁇ 20 pixel size.
  • FIG. 4 is a block diagram showing a functional configuration example of the image processing apparatus 10.
  • the image processing apparatus 10 of FIG. 4 includes a tracking processing unit 31, a medium resolution image acquisition unit 32, an object extraction unit 33, a classification unit 34, a specification unit 35, a deduplication processing unit 36, a recognition unit 37, and a filter processing unit 38. I have it.
  • the image processing apparatus 10 further includes a low resolution image acquisition unit 39, an object detection unit 40, a filter processing unit 41, and a deduplication processing unit 42.
  • the tracking processing unit 31 tracks an object recognized by a recognition unit 37, which will be described later, in a high-resolution image of, for example, 3840 ⁇ 2160 pixels supplied from the imaging device 21.
  • the object to be tracked is a small object having the pixel size as described above.
  • the tracking processing unit 31 corrects the position of the tracked object for each predetermined frame such as every three frames.
  • Information indicating the area of the object tracked on the high-resolution image (hereinafter referred to as the object area) is supplied to the deduplication processing unit 36.
  • the information indicating the object area includes information indicating the size and position (coordinate position on the image) of the moving object.
  • the medium resolution image acquisition unit 32 acquires, from the high resolution image supplied from the imaging device 21, a medium resolution image of lower resolution than the high resolution image, for example, 960 ⁇ 540 pixels, for each predetermined frame such as every 15 frames. To do. Specifically, the medium-resolution image acquisition unit 32 has a resolution conversion function for converting the resolution of the image, and by performing down-conversion processing such as thinning processing on the high-resolution image, the medium-resolution image is acquired. To get. The acquired medium resolution image is supplied to the object extraction unit 33 and the low resolution image acquisition unit 39. The high resolution image supplied from the imaging device 21 may be directly supplied to the low resolution image acquisition unit 39.
  • the functional blocks surrounded by broken lines repeat each processing every 15 frames, as in the medium resolution image acquisition unit 32.
  • the object extraction unit 33 extracts a predetermined object in the medium resolution image from the medium resolution image acquisition unit 32.
  • a moving object with motion is extracted from the medium resolution image, but a stationary object without motion may be extracted depending on the extraction method.
  • the extracted motion objects include not only small objects to be tracked but also objects not to be tracked.
  • the object extraction unit 33 supplies information indicating the extracted moving object to the classification unit 34.
  • the information indicating the moving object includes information indicating the size and coordinate position of the moving object.
  • the classification unit 34 classifies the moving objects included in the medium resolution image based on the information from the object extraction unit 33 under a predetermined condition.
  • the classifying unit 34 supplies information indicating the classified moving objects to the specifying unit 35.
  • the specifying unit 35 specifies an object area corresponding to a moving object of a predetermined classification in the high resolution image based on the information from the classification unit 34. Information indicating the object area (size and coordinate position of the object) is supplied to the deduplication processing unit 36.
  • the deduplication processing unit 36 specifies the object area tracked by the tracking processing unit 31 and the specifying unit 35 in the high resolution image based on the information from the tracking processing unit 31 and the information from the specifying unit 35. Eliminates duplication with the created object area. Information indicating the object area in which the duplication is eliminated in the high resolution image is supplied to the recognition unit 37.
  • the recognition unit 37 performs the recognition process of the moving object on the object area in the high resolution image based on the information from the deduplication processing unit 36. Specifically, the recognition unit 37 performs recognition processing of a moving object by performing image classification by machine learning using teacher data. The recognition unit 37 supplies a certainty factor indicating the certainty that the moving object in the object area is a small object to be recognized to the filter processing unit 38.
  • the filter processing unit 38 determines the certainty factor by performing the time-series filter process to determine the certainty factor from the recognition unit 37 in time series.
  • Information indicating a moving object whose determined certainty factor is larger than a certain value is supplied to the deduplication processing unit 42 as a small object detection result.
  • the low resolution image acquisition unit 39 acquires a low resolution image having a resolution lower than that of the medium resolution image, for example, 300 ⁇ 300 pixels from the medium resolution image from the medium resolution image acquisition unit 32.
  • the low-resolution image acquisition unit 39 has a resolution conversion function for converting the resolution of the image, and by performing down-conversion processing such as thinning processing on the medium-resolution image, To get.
  • the acquired low resolution image is supplied to the object detection unit 40.
  • the low-resolution image acquisition unit 39 performs the down-conversion processing on the high-resolution image to obtain the low-resolution image. Can be obtained.
  • the object detection unit 40 performs an object detection unit on the low resolution image from the low resolution image acquisition unit 39.
  • the object detection result is supplied to the filter processing unit 41.
  • the filter processing unit 41 determines the object detection result by performing the time-series filter processing to determine the object detection result from the object detection unit 40 in time series.
  • the determined object detection result is supplied to the deduplication processing unit 42.
  • the deduplication processing unit 42 based on the small object detection result from the filter processing unit 38 and the object detection result from the object detection unit 40, the moving object (small object) recognized in the high-resolution image, and the object. Duplication with the object detected by the detection unit 40 is eliminated.
  • the information indicating the object area in which the duplication is eliminated in the high resolution image is output as the final detection result of the small object.
  • step S11 is executed every 3 frames
  • the processes of steps S21 to S28 and the processes of steps S31 to S33 are executed every 15 frames.
  • step S11 the tracking processing unit 31 tracks a moving object (small object) in the high resolution image.
  • the process of step S11 is performed after the process of steps S21 to S28 and S31 to S33 is once performed on the predetermined frame of the high resolution image in the image processing apparatus 10.
  • area-based object tracking methods such as template matching and feature point-based object tracking methods such as KLT method are used.
  • KCF Kernelized Correlation Filter
  • An image frame which will be described later, is set for the moving object tracked in the high resolution image, and the region in which the image frame is set is cut out from the high resolution image.
  • step S21 the medium resolution image acquisition unit 32 acquires the resolution image from the high resolution image.
  • step S22 the object extraction unit 33 extracts a moving object in the medium resolution image acquired by the medium resolution image acquisition unit 32.
  • step S23 the classification unit 34 classifies the motion objects extracted from the medium resolution image by the object extraction unit 33.
  • step S51 an HSV color mask image is generated based on the medium resolution image.
  • the HSV color mask image by specifying the values of H (hue), S (saturation), and V (brightness), it is possible to extract a specific color area from the medium resolution image.
  • FIG. 7 is an example of an HSV color mask image generated based on the medium resolution image acquired from the high resolution image of FIG.
  • the HSV color mask image shown in FIG. 7 is a mask image for extracting the sky color from the medium resolution image.
  • a mask image for extracting the color of the sky may be generated, for example.
  • step S52 background subtraction / expansion processing is performed on the area of the medium resolution image in which the color is extracted by the HSV color mask image.
  • a moving object having a motion is extracted from the medium resolution image by comparing the previous frame and the current frame. Further, according to the expansion processing, the pixel area of the moving object extracted by the background difference can be expanded.
  • FIG. 8 is a diagram showing an example of a processed image obtained by background subtraction / expansion processing with respect to a region in which a color is extracted by the HSV color mask image of FIG. 7 in a medium resolution image.
  • a plurality (specifically, 5) of moving objects existing in an empty area in the medium-resolution image are shown as a set of white pixels.
  • These moving objects include not only tracking target aircraft but also non-tracking target objects.
  • step S53 as shown in FIG. 9, a contour rectangle in which the contour of the extracted motion object is set is set.
  • a contour rectangle is shown for each of the five moving objects described with reference to FIG.
  • step S54 as shown in FIG. 10, an image frame is set for a moving object for which a contour rectangle has been set.
  • the image frame is information for specifying the object area including the tracking target in the high resolution image.
  • the image frame is set for each of the five moving objects from which the contour rectangle has been extracted, which has been described with reference to FIG. 9.
  • the size of the image frame is smaller than the predetermined size, and multiple different size image frames are prepared.
  • the size of the set image frame is switched according to the size of the contour rectangle set for the moving object.
  • the predetermined size determined in advance is the upper limit of the size of the image frame in which the moving object can be detected as a small object. As a result, a moving object that does not exceed a certain size is detected as a small object, and a moving object that exceeds a certain size is detected as a large object described later.
  • FIG. 11 is a diagram illustrating switching of image frames according to a contour rectangle.
  • an outline rectangle 110 set for a predetermined moving object is shown.
  • a plurality of (specifically, three) image frames 120a, 120b, 120c having different sizes are shown.
  • the size of the image frame 120a is 16 ⁇ 8 pixels corresponding to 128 ⁇ 64 pixels of the high resolution image
  • the size of the image frame 120b is 32 ⁇ 16 pixels corresponding to 256 ⁇ 128 pixels of the high resolution image.
  • the size of the image frame 120c is 64 ⁇ 32 pixels corresponding to 512 ⁇ 256 pixels of the high resolution image.
  • the length of the diagonal line D1 of the outline rectangle 110 and the length of the diagonal line D2 (D2a, D2b, D2c) of the image frame 120 (120a, 120b, 120c) are set to the size.
  • the smaller image frames are compared in order. Specifically, every time the length of the diagonal line D1 of the outline rectangle 110 exceeds 75% (D2 ⁇ 0.75) of the length of the diagonal line D2 of the image frame 120, the size of the image frame 120 of the next higher size is increased. The comparison with the length of the diagonal line D2 is repeated. Then, when the length of the diagonal line D1 of the outline rectangle 110 becomes less than 75% of the length of the diagonal line D2 of the image frame 120, the image frame 120 is set for the moving object.
  • the extracted moving objects will be classified based on their size depending on the setting of the image frame.
  • the size of the set image frame may be limited by the area in which the extracted moving object exists. For example, only a 16 ⁇ 8 pixel image frame is set for a moving object existing in an empty area where an aircraft is smaller. In addition, an image frame of 32 ⁇ 16 pixels or 64 ⁇ 32 pixels is set for the moving object existing in the area of the pavement where the aircraft looks larger than the sky area.
  • the coordinate position on the medium resolution image is set at the time when the moving object is extracted.
  • the coordinate position of the moving object set on the medium resolution image is, for example, the center of the contour rectangle set for the moving object.
  • step S24 the identifying unit 35 identifies the object area corresponding to each moving object classified based on the size in the high resolution image.
  • the specifying unit 35 specifies the object area by performing coordinate conversion on the image frame set for each moving object in the medium resolution image on the high resolution image.
  • a 16x8 pixel image frame is set for a moving object (outline rectangle) of 5x5 pixel size centered on the coordinate position (100, 50) on the medium resolution image.
  • the 16 ⁇ 8 pixel image frame centered on the coordinate position (100, 50) is coordinate-converted into a 128 ⁇ 64 pixel image frame centered on the coordinate position (400, 200) on the high resolution image.
  • the area of the image frame after coordinate conversion becomes the object area.
  • the specified object area (image frame area after coordinate conversion) is cut out from the high-resolution image.
  • step S25 the deduplication processing unit 36 eliminates duplication between the moving object area tracked by the tracking processing unit 31 and the object area specified by the specifying unit 35 in the high-resolution image.
  • IoU Intersection Over Union
  • the ratio of the area of the overlapping portions of the total area of the object region 131 and the object region 132 exceeds a predetermined threshold value (for example, 0.5)
  • a predetermined threshold value for example, 0.5
  • step S26 when the overlapping of the tracked moving object area and the specified object area is eliminated, the process proceeds to step S26.
  • step S26 the recognition unit 37 performs a motion object recognition process on the object area in the high-resolution image from which overlap with the tracked motion object area is eliminated.
  • the recognition unit 37 normalizes the size of the identified object area based on the pixel size of the teacher data, which is the image of the predetermined object used for the recognition process of the moving object. Specifically, the sizes of all the object areas are normalized to the size of 128 ⁇ 64 pixels. As a result, the recognition processing for 64 object areas is performed simultaneously.
  • the recognizing unit 37 uses a learning model preliminarily learned with teacher data to perform binary classification on the object area to determine whether the moving object in the object area is an aircraft. As a result, the certainty factor indicating the certainty that the moving object in the object area is a small object (aircraft) to be recognized is calculated.
  • step S27 the filter processing unit 38 determines the certainty factor by performing the time-series filter process to determine the certainty factor calculated by the recognition unit 37 in time series.
  • the information indicating the three moving objects with the highest magnitude of the determined certainty factor is set as the detection result of the small object (aircraft).
  • step S28 Before describing the processing of step S28, the processing of steps S31 to S33 will be described.
  • step S31 the low resolution image acquisition unit 39 acquires the low resolution image from the medium resolution image from the medium resolution image acquisition unit 32.
  • step S32 the object detection unit 40 performs object detection on the low resolution image acquired by the low resolution image acquisition unit 39.
  • object detection is performed on the low-resolution image, a relatively large object (large object) is detected as the detection target, not a small object such as the small object described above.
  • step S33 the filter processing unit 41 determines the object detection result by performing time-series filter processing to determine the object detection result from the object detection unit 40 in time series.
  • step S28 the deduplication processing unit 42 eliminates duplication between the moving object (small object) recognized in the high resolution image and the large object detected in the low resolution image. Again, the use of IoU eliminates the overlap between the recognized moving object region and the detected large object region.
  • FIG. 13 is a diagram showing an example of a small object detection result.
  • FIG. 13 the high-resolution image of FIG. 2 is shown with the extraction result of the moving object and the detection result of the extracted moving object determined to be an aircraft superimposed.
  • image frames 161, 162, 163 show the detection results of the aircraft, and other image frames show the extraction results of motion objects other than the aircraft.
  • the value of the certainty factor is shown near the image frames 161, 162, 163. That is, it can be said that the moving object identified by the image frame 161 is most likely to be an aircraft.
  • moving objects smaller than a predetermined size are classified in the medium resolution image acquired from the high resolution image, and the area corresponding to the classified moving object is identified as a candidate for recognition on the high resolution image.
  • This makes it possible to reduce the amount of processing required for a series of processes from detection to recognition of an object (particularly a small object) in a high-resolution image. As a result, it becomes possible to track a small object in real time in a high resolution image such as 4K resolution.
  • moving objects are classified based on their size by setting the image frame, it is possible to recognize / track an object smaller than before and improve its recognition accuracy.
  • the image processing apparatus 10 is designed so that the time required for the processing executed for each block surrounded by a thick frame in the drawing has the following values.
  • the recognition processing by the recognition unit 37 is executed for 64 object areas having a size of 128 ⁇ 64 pixels, and the processing time is 20 ms.
  • the processing time of the tracking processing performed by the tracking processing unit 31 every 3 frames is 15 ms per object. Therefore, the processing time of the tracking processing per 30 frames is 150 ms ⁇ the number of objects.
  • the processing time of the small object detection processing by the object extraction unit 33 to the filter processing unit 38 is 220 ms when a small object of 12 ⁇ 8 pixels is detected. Further, the processing time of the large object detection processing by the object detection unit 40 and the filter processing unit 41 is 70 ms.
  • the processing time of the processing executed every 15 frames is 290 ms. Therefore, the processing time of the small object detection processing and the large object detection processing per 30 frames is 580 ms.
  • the above-described series of processing requires a time that is 150 ms per 30 frames ⁇ the number of objects and 580 ms.
  • it is usually 30 frames per second
  • the time required for a series of processing can be reduced to about 1 second.
  • the time required for the series of processes described above can be reduced to about one second even if more objects are recognized.
  • FIG. 15 is a block diagram showing a functional configuration example of an image processing apparatus 10A that is a first modification of the image processing apparatus 10.
  • the image processing apparatus 10A shown in FIG. 15 differs from the image processing apparatus 10 shown in FIG. 1 in that a high resolution processing section 211 is provided before the medium resolution image acquisition section 32.
  • the high resolution processing unit 211 performs high resolution processing such as edge enhancement on the high resolution image supplied from the imaging device 21, and supplies the high resolution image to the medium resolution image acquisition unit 32.
  • the object extracting unit 33 is supplied with the medium resolution image in which the edge of the object is emphasized, so that the object extracting performance of the object extracting unit 33 can be improved.
  • FIG. 16 is a block diagram showing a functional configuration example of an image processing apparatus 10B which is a second modification of the image processing apparatus 10.
  • the image processing apparatus 10B of FIG. 16 differs from the image processing apparatus 10 of FIG. 1 in that a high-resolution background image generation unit 221 is provided in front of the object extraction unit 33.
  • the high-resolution background image generation unit 221 generates a high-resolution background image by enlarging (increasing the resolution of) the background portion of the medium-resolution image from the medium-resolution image acquisition unit 32.
  • the generated high resolution background image is supplied to the object extraction unit 33.
  • a moving object is extracted on the high resolution background image by the background difference.
  • FIG. 17 is a block diagram showing a functional configuration example of an image processing apparatus 10C that is a third modified example of the image processing apparatus 10.
  • the image processing apparatus 10C of FIG. 17 differs from the image processing apparatus 10 of FIG. 1 in that a recognition unit 231 is provided instead of the recognition unit 37.
  • the recognition unit 231 uses the RNN (Recurrent Neural Network) to perform motion object recognition processing on a moving image instead of a still image every 15 frames.
  • RNN Recurrent Neural Network
  • FIG. 18 is a block diagram showing a functional configuration example of an image processing apparatus 10D which is a fourth modified example of the image processing apparatus 10.
  • the image processing device 10D of FIG. 18 differs from the image processing device 10 of FIG. 1 in that a background image space projection unit 241 and a high resolution background image generation unit 242 are provided in front of the object extraction unit 33.
  • the background image space projection unit 241 updates the background image by projecting the medium resolution image from the medium resolution image acquisition unit 32 onto the background image space.
  • the medium resolution image projected onto the background image space is supplied to the high resolution background image generation unit 242.
  • the background image space corresponds to the imaging range that can be imaged by the imaging device 21. When there is a motion in the imaging range of the imaging device 21, the background image temporally changes in the background image space.
  • FIG. 19 is a diagram showing an example of a background image updated by projection onto the background image space.
  • the background image shown in FIG. 19 is composed of background images BG1 to BG5 captured in five different imaging ranges.
  • the medium-resolution image acquisition unit 32 supplies the medium-resolution image of the imaging range different from the background images BG1 to BG5
  • the medium-resolution image is projected on the position corresponding to the imaging range in the background image space, and the image shown in FIG.
  • the background image of is updated.
  • the high-resolution background image generation unit 242 generates a high-resolution background image by enlarging (increasing the resolution) the background portion in the medium-resolution image projected from the background image space projection unit 241 onto the background image space.
  • the generated high resolution background image is supplied to the object extraction unit 33.
  • FIG. 20 is a block diagram showing a functional configuration example of an image processing apparatus 10E which is a fifth modified example of the image processing apparatus 10.
  • the image processing apparatus 10E of FIG. 20 is different from the image processing apparatus 10 of FIG. 1 in that an object extracting unit 251 is provided instead of the object extracting unit 33.
  • the object extraction unit 251 extracts an object of a predetermined color in the medium resolution image from the medium resolution image acquisition unit 32. For example, as shown in FIG. 21, the object extraction unit 251 extracts only objects having an H (hue) of 80 to 120 in the HSV color space in the medium resolution image. Information indicating the extracted object is supplied to the classification unit 34.
  • FIG. 22 is a block diagram showing a functional configuration example of an image processing apparatus 10F which is a sixth modified example of the image processing apparatus 10.
  • the image processing apparatus 10F of FIG. 22 is different from the image processing apparatus 10 of FIG. 1 in that the object extraction unit 33 is not provided and a classification unit 261 is provided instead of the classification unit 34.
  • the classification unit 261 classifies the objects included in the low resolution image based on the object detection result from the object detection unit 40, for example, based on the size thereof.
  • the classification unit 34 supplies information indicating the classified objects to the identification unit 35.
  • the processes from the identifying unit 35 to the filter processing unit 38 are performed on the objects classified in the low resolution image.
  • the recognition unit 37 performs the binary classification of the object area in the moving object recognition process. However, when there are a plurality of types of small objects to be recognized, the recognition area 37 performs the multivalue classification of the object area. You may do so. Accordingly, for example, in addition to the aircraft, it is possible to detect an object (living organism) other than the aircraft, such as a bird.
  • the recognition unit 37 may perform the recognition process of the color of the aircraft and the characters (company name or its abbreviation) drawn on the aircraft when performing the recognition process of the aircraft, for example. As a result, it becomes possible to determine which airline the recognized aircraft belongs to.
  • the classification unit 34 classifies the moving objects based on the size of the moving object.
  • the moving objects may be further classified.
  • the moving objects are classified based on the position of the moving object in the image, for example, by classifying the moving objects in the sky area, only the aircraft flying above can be detected. Further, by classifying the motion objects in the area of the pavement surface, it is possible to detect only the aircraft that is gliding on the ground (runway).
  • the moving objects are classified based on the speed of movement of the moving objects, for example, by classifying the moving objects moving at a low speed, only the aircraft flying over a distant sky is classified. Can be detected.
  • the speed of movement of the moving object is obtained, for example, by dividing the distance obtained by comparing the positions of the moving object in two consecutive frames by the time between two frames.
  • the movement of the coordinate position of the moving object may be tracked, and the aircraft may be detected depending on whether or not the moving object is moving at a constant speed in time series. Note that a moving object that moves faster than the image frame of the tracking process may be excluded from the tracking target.
  • Example of computer configuration> The series of processes described above can be executed by hardware or software.
  • the program forming the software is installed from a program recording medium to a computer incorporated in dedicated hardware or a general-purpose personal computer.
  • FIG. 23 is a block diagram showing a configuration example of hardware of a computer that executes the series of processes described above by a program.
  • the image processing device 10 described above is realized by a computer having the configuration shown in FIG.
  • the CPU 1001, ROM 1002, and RAM 1003 are connected to each other by a bus 1004.
  • An input / output interface 1005 is further connected to the bus 1004.
  • the input / output interface 1005 is connected to an input unit 1006 including a keyboard and a mouse, and an output unit 1007 including a display and a speaker. Further, the input / output interface 1005 is connected with a storage unit 1008 including a hard disk and a non-volatile memory, a communication unit 1009 including a network interface, and a drive 1010 that drives a removable medium 511.
  • the CPU 1001 loads the program stored in the storage unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the program, thereby performing the series of processes described above. Is done.
  • the program executed by the CPU 1001 is recorded in, for example, the removable medium 1011 or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and installed in the storage unit 1008.
  • the program executed by the computer may be a program in which processing is performed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the technology according to the present disclosure is applied to a configuration for tracking a small object such as an aircraft flying at a distance in an image obtained by a camera system of a remote control tower.
  • the technology according to the present disclosure may be applied to a configuration of tracking a person or a small animal in a distant place in an image obtained by a remote monitoring device that remotely monitors a building, a factory, a store, a city, or the like. Good.
  • the technology according to the present disclosure may be applied to a configuration of tracking a ball in a relay image of sports such as soccer and baseball.
  • the technology according to the present disclosure may be applied to an operating room system.
  • FIG. 24 is a diagram schematically showing an overall configuration of an operating room system 5100 to which the technology according to the present disclosure can be applied.
  • the operating room system 5100 is configured by connecting device groups installed in the operating room via an audiovisual controller (AV Controller) 5107 and an operating room control device 5109 so that they can cooperate with each other.
  • AV Controller audiovisual controller
  • FIG. 24 Various devices can be installed in the operating room.
  • a group of various devices 5101 for endoscopic surgery a ceiling camera 5187 installed on the ceiling of the operating room to image the operator's hand, and an operating room installed on the ceiling of the operating room.
  • An operation site camera 5189 that images the entire state, a plurality of display devices 5103A to 5103D, a recorder 5105, a patient bed 5183, and an illumination 5191 are illustrated.
  • the device group 5101 belongs to an endoscopic surgery system 5113, which will be described later, and includes an endoscope and a display device that displays an image captured by the endoscope.
  • Each device belonging to the endoscopic surgery system 5113 is also referred to as a medical device.
  • the display devices 5103A to 5103D, the recorder 5105, the patient bed 5183, and the illumination 5191 are devices provided separately from the endoscopic surgery system 5113, for example, in an operating room.
  • Each device that does not belong to the endoscopic surgery system 5113 is also called a non-medical device.
  • the audiovisual controller 5107 and / or the operating room control device 5109 control the operations of these medical devices and non-medical devices in cooperation with each other.
  • the audiovisual controller 5107 centrally controls the processing related to image display in medical devices and non-medical devices.
  • the device group 5101, the ceiling camera 5187, and the operating room camera 5189 have a function of transmitting information to be displayed during the operation (hereinafter, also referred to as display information). It may be a device (hereinafter, also referred to as a transmission source device).
  • the display devices 5103A to 5103D may be devices that output display information (hereinafter, also referred to as output destination devices).
  • the recorder 5105 may be a device that corresponds to both the transmission source device and the output destination device.
  • the audiovisual controller 5107 has a function of controlling the operations of the transmission source device and the output destination device, acquiring display information from the transmission source device, and transmitting the display information to the output destination device for display or recording.
  • the display information includes various images captured during surgery, various information regarding surgery (for example, patient physical information, past examination results, information regarding surgical procedures, etc.).
  • the device group 5101 can transmit, as display information, information about the image of the surgical site in the body cavity of the patient captured by the endoscope.
  • the ceiling camera 5187 may transmit, as the display information, information about the image of the operator's hand imaged by the ceiling camera 5187.
  • information on an image showing the state of the entire operating room imaged by the surgical field camera 5189 can be transmitted as display information.
  • the audiovisual controller 5107 also acquires, as display information, information about an image captured by the other device from the other device. You may.
  • the recorder 5105 information about these images captured in the past is recorded by the audiovisual controller 5107.
  • the audiovisual controller 5107 can acquire, as the display information, information about the image captured in the past from the recorder 5105. Note that various types of information regarding surgery may be recorded in the recorder 5105 in advance.
  • the audiovisual controller 5107 displays the acquired display information (that is, the image captured during the surgery and various information regarding the surgery) on at least one of the display devices 5103A to 5103D that are the output destination devices.
  • the display device 5103A is a display device that is suspended from the ceiling of the operating room
  • the display device 5103B is a display device that is installed on the wall surface of the operating room
  • the display device 5103C is inside the operating room.
  • the display device 5103D is a display device installed on a desk
  • the display device 5103D is a mobile device having a display function (for example, a tablet PC (Personal Computer)).
  • the operating room system 5100 may include a device outside the operating room.
  • the device outside the operating room may be, for example, a server connected to a network built inside or outside the hospital, a PC used by medical staff, a projector installed in a conference room of the hospital, or the like.
  • the audiovisual controller 5107 can display the display information on the display device of another hospital via a video conference system or the like for remote medical treatment.
  • the operating room control device 5109 centrally controls processing other than processing related to image display in non-medical devices.
  • the operating room controller 5109 controls driving of the patient bed 5183, the ceiling camera 5187, the operating room camera 5189, and the illumination 5191.
  • a centralized operation panel 5111 is provided in the operating room system 5100, and the user gives an instruction for image display to the audiovisual controller 5107 or the operating room control device 5109 via the centralized operation panel 5111. It is possible to give instructions to the operation of the non-medical device.
  • the centralized operation panel 5111 is configured by providing a touch panel on the display surface of the display device.
  • FIG. 25 is a diagram showing a display example of an operation screen on the centralized operation panel 5111.
  • an operation screen corresponding to the case where the operating room system 5100 is provided with two display devices as output destination devices is shown.
  • operation screen 5193 includes a source selection area 5195, a preview area 5197, and a control area 5201.
  • a transmission source device provided in the operating room system 5100 and a thumbnail screen showing display information of the transmission source device are displayed in association with each other. The user can select the display information to be displayed on the display device from any of the transmission source devices displayed in the transmission source selection area 5195.
  • a preview of the screen displayed on the two display devices (Monitor 1 and Monitor 2) that are output destination devices is displayed.
  • four images are displayed in PinP on one display device.
  • the four images correspond to the display information transmitted from the transmission source device selected in the transmission source selection area 5195.
  • the four images one is displayed relatively large as a main image, and the remaining three are displayed relatively small as sub-images.
  • the user can switch the main image and the sub image by appropriately selecting the area in which the four images are displayed.
  • a status display area 5199 is provided below the area where the four images are displayed, and the status related to the operation (for example, the elapsed time of the operation and the physical information of the patient) is appropriately displayed in the area. obtain.
  • a sender operation area 5203 in which a GUI (Graphical User Interface) component for operating the source device is displayed, and a GUI component for operating the destination device And an output destination operation area 5205 in which is displayed.
  • the source operation area 5203 is provided with GUI components for performing various operations (pan, tilt, and zoom) on the camera of the source device having an imaging function. The user can operate the operation of the camera of the transmission source device by appropriately selecting these GUI components.
  • the transmission source device selected in the transmission source selection area 5195 is a recorder (that is, in the preview area 5197, an image recorded in the past is displayed in the recorder).
  • the sender operation area 5203 may be provided with GUI components for performing operations such as reproduction, stop reproduction, rewind, and fast forward of the image.
  • GUI parts for performing various operations are provided. It is provided. The user can operate the display on the display device by appropriately selecting these GUI components.
  • the operation screen displayed on the centralized operation panel 5111 is not limited to the example shown in the figure, and the user operates the audiovisual controller 5107 and the operating room controller 5109 provided in the operating room system 5100 via the centralized operation panel 5111. Operational input may be possible for each device that can be controlled.
  • FIG. 26 is a diagram showing an example of a state of surgery to which the operating room system described above is applied.
  • the ceiling camera 5187 and the operating room camera 5189 are provided on the ceiling of the operating room, and can take a picture of the operator's (doctor) 5181 who is treating the affected part of the patient 5185 on the patient bed 5183 and the entire operating room. Is.
  • the ceiling camera 5187 and the operating room camera 5189 may be provided with a magnification adjustment function, a focal length adjustment function, a shooting direction adjustment function, and the like.
  • the illumination 5191 is provided on the ceiling of the operating room and illuminates at least the operator's 5181 hand.
  • the illumination 5191 may be capable of appropriately adjusting the amount of irradiation light, the wavelength (color) of irradiation light, the irradiation direction of light, and the like.
  • the endoscopic surgery system 5113, the patient bed 5183, the ceiling camera 5187, the operating room camera 5189, and the lighting 5191 are connected via an audiovisual controller 5107 and an operating room control device 5109 (not shown in FIG. 26). Are connected so that they can cooperate with each other.
  • a centralized operation panel 5111 is provided in the operating room, and as described above, the user can appropriately operate these devices existing in the operating room through the centralized operating panel 5111.
  • the endoscopic surgery system 5113 includes an endoscope 5115, other surgical tools 5131, a support arm device 5141 for supporting the endoscope 5115, and various devices for endoscopic surgery. And a cart 5151 on which is mounted.
  • trocars 5139a to 5139d are punctured in the abdominal wall. Then, the barrel 5117 of the endoscope 5115 and other surgical tools 5131 are inserted into the body cavity of the patient 5185 from the trocars 5139a to 5139d.
  • a pneumoperitoneum tube 5133, an energy treatment tool 5135, and forceps 5137 are inserted into the body cavity of the patient 5185 as other surgical tools 5131.
  • the energy treatment tool 5135 is a treatment tool that performs incision and separation of tissue, sealing of blood vessels, or the like by high-frequency current or ultrasonic vibration.
  • the illustrated surgical instrument 5131 is merely an example, and various surgical instruments generally used in endoscopic surgery, such as a concentrator and a retractor, may be used as the surgical instrument 5131.
  • An image of the surgical site in the body cavity of the patient 5185 taken by the endoscope 5115 is displayed on the display device 5155.
  • the surgeon 5181 uses the energy treatment tool 5135 and the forceps 5137 while performing real-time viewing of the image of the surgical site displayed on the display device 5155, and performs a procedure such as excising the affected site.
  • illustration is omitted, the pneumoperitoneum tube 5133, the energy treatment tool 5135, and the forceps 5137 are supported by an operator 5181, an assistant, or the like during surgery.
  • the support arm device 5141 includes an arm portion 5145 extending from the base portion 5143.
  • the arm portion 5145 includes joint portions 5147a, 5147b, 5147c, and links 5149a, 5149b, and is driven by the control from the arm control device 5159.
  • the endoscope 5115 is supported by the arm portion 5145, and its position and posture are controlled. Thereby, stable fixation of the position of the endoscope 5115 can be realized.
  • the endoscope 5115 includes a lens barrel 5117 in which a region having a predetermined length from the distal end is inserted into the body cavity of the patient 5185, and a camera head 5119 connected to the base end of the lens barrel 5117.
  • an endoscope 5115 configured as a so-called rigid endoscope having a rigid barrel 5117 is illustrated, but the endoscope 5115 is configured as a so-called flexible mirror having a flexible barrel 5117. Good.
  • An opening in which the objective lens is fitted is provided at the tip of the lens barrel 5117.
  • a light source device 5157 is connected to the endoscope 5115, and the light generated by the light source device 5157 is guided to the tip of the lens barrel by a light guide extending inside the lens barrel 5117, and the light is emitted. It is irradiated toward the observation target in the body cavity of the patient 5185 through the lens.
  • the endoscope 5115 may be a direct-viewing endoscope, a perspective mirror, or a side-viewing endoscope.
  • An optical system and an image pickup device are provided inside the camera head 5119, and the reflected light (observation light) from the observation target is focused on the image pickup device by the optical system.
  • the observation light is photoelectrically converted by the imaging element, and an electric signal corresponding to the observation light, that is, an image signal corresponding to the observation image is generated.
  • the image signal is transmitted to the camera control unit (CCU) 5153 as RAW data.
  • the camera head 5119 has a function of adjusting the magnification and the focal length by appropriately driving the optical system.
  • the camera head 5119 may be provided with a plurality of image pickup elements in order to support, for example, stereoscopic vision (3D display).
  • a plurality of relay optical systems are provided inside the barrel 5117 to guide the observation light to each of the plurality of image pickup devices.
  • the CCU 5153 is configured by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and the like, and integrally controls the operations of the endoscope 5115 and the display device 5155. Specifically, the CCU 5153 subjects the image signal received from the camera head 5119 to various kinds of image processing such as development processing (demosaic processing) for displaying an image based on the image signal. The CCU 5153 provides the display device 5155 with the image signal subjected to the image processing. Further, the audiovisual controller 5107 shown in FIG. 24 is connected to the CCU 5153. The CCU 5153 also provides the image signal subjected to the image processing to the audiovisual controller 5107.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the CCU 5153 also sends a control signal to the camera head 5119 to control the drive thereof.
  • the control signal may include information regarding imaging conditions such as magnification and focal length.
  • the information regarding the imaging condition may be input via the input device 5161 or may be input via the above-described centralized operation panel 5111.
  • the display device 5155 displays an image based on the image signal subjected to the image processing by the CCU 5153 under the control of the CCU 5153.
  • the endoscope 5115 is compatible with high-resolution imaging such as 4K (horizontal pixel number 3840 ⁇ vertical pixel number 2160) or 8K (horizontal pixel number 7680 ⁇ vertical pixel number 4320), and / or 3D display
  • high-resolution imaging such as 4K (horizontal pixel number 3840 ⁇ vertical pixel number 2160) or 8K (horizontal pixel number 7680 ⁇ vertical pixel number 4320)
  • 3D display In the case where the display device 5155 is compatible with the display device 5155, a device capable of high-resolution display and / or a device capable of 3D display can be used as the display device 5155.
  • the display device 5155 When the display device 5155 is compatible with high-resolution shooting such as 4K or 8K, a more immersive feeling can be obtained by using a display device 5155 having a size of 55 inches or more. Further, a plurality of display devices 5155 having different resolutions and sizes may be provided depending on the application.
  • the light source device 5157 is composed of a light source such as an LED (light emitting diode), and supplies irradiation light to the endoscope 5115 when the surgical site is imaged.
  • a light source such as an LED (light emitting diode)
  • the arm control device 5159 is configured by a processor such as a CPU, for example, and operates according to a predetermined program to control driving of the arm portion 5145 of the support arm device 5141 according to a predetermined control method.
  • the input device 5161 is an input interface for the endoscopic surgery system 5113.
  • the user can input various kinds of information and instructions to the endoscopic surgery system 5113 via the input device 5161.
  • the user inputs various kinds of information regarding the surgery, such as the physical information of the patient and the information regarding the surgical procedure, through the input device 5161.
  • the user may, via the input device 5161, give an instruction to drive the arm portion 5145 or an instruction to change the imaging conditions (type of irradiation light, magnification, focal length, etc.) by the endoscope 5115.
  • the type of the input device 5161 is not limited, and the input device 5161 may be various known input devices.
  • the input device 5161 for example, a mouse, a keyboard, a touch panel, a switch, a foot switch 5171 and / or a lever can be applied.
  • the touch panel may be provided on the display surface of the display device 5155.
  • the input device 5161 is a device worn by the user, such as a glasses-type wearable device or an HMD (Head Mounted Display), and various inputs are performed according to the user's gesture or line of sight detected by these devices. Is done. Further, the input device 5161 includes a camera capable of detecting the movement of the user, and various inputs are performed according to the gesture or the line of sight of the user detected from the image captured by the camera. Further, the input device 5161 includes a microphone capable of collecting the voice of the user, and various inputs are performed by voice through the microphone.
  • a glasses-type wearable device or an HMD Head Mounted Display
  • the input device 5161 is configured to be able to input various kinds of information in a contactless manner
  • a user for example, an operator 5181
  • the user can operate the device without releasing his / her hand from the surgical tool, which is convenient for the user.
  • the treatment instrument control device 5163 controls driving of the energy treatment instrument 5135 for cauterization of tissue, incision, sealing of blood vessel, or the like.
  • the pneumoperitoneum device 5165 supplies gas into the body cavity of the patient 5185 via the pneumoperitoneum tube 5133 in order to inflate the body cavity of the patient 5185 for the purpose of securing a visual field by the endoscope 5115 and a working space of the operator.
  • the recorder 5167 is a device capable of recording various information regarding surgery.
  • the printer 5169 is a device capable of printing various information regarding surgery in various formats such as text, images, and graphs.
  • the support arm device 5141 includes a base portion 5143 that is a base and an arm portion 5145 that extends from the base portion 5143.
  • the arm portion 5145 includes a plurality of joint portions 5147a, 5147b, and 5147c and a plurality of links 5149a and 5149b connected by the joint portion 5147b, but in FIG.
  • the configuration of the arm portion 5145 is shown in a simplified manner. In practice, the shapes, the numbers, and the arrangements of the joints 5147a to 5147c and the links 5149a and 5149b, the directions of the rotation axes of the joints 5147a to 5147c, and the like are appropriately set so that the arm 5145 has a desired degree of freedom. obtain.
  • the arm portion 5145 may suitably be configured to have 6 or more degrees of freedom. Accordingly, the endoscope 5115 can be freely moved within the movable range of the arm portion 5145, so that the lens barrel 5117 of the endoscope 5115 can be inserted into the body cavity of the patient 5185 from a desired direction. It will be possible.
  • the joints 5147a to 5147c are provided with actuators, and the joints 5147a to 5147c are configured to be rotatable about a predetermined rotation axis by driving the actuators.
  • the drive of the actuator is controlled by the arm control device 5159, whereby the rotation angles of the joints 5147a to 5147c are controlled and the drive of the arm 5145 is controlled. Thereby, control of the position and posture of the endoscope 5115 can be realized.
  • the arm control device 5159 can control the drive of the arm portion 5145 by various known control methods such as force control or position control.
  • an operator 5181 appropriately performs an operation input via the input device 5161 (including the foot switch 5171), whereby the arm control device 5159 appropriately controls the drive of the arm portion 5145 according to the operation input.
  • the position and orientation of the endoscope 5115 may be controlled. With this control, the endoscope 5115 at the tip of the arm portion 5145 can be moved from any position to any position and then fixedly supported at the position after the movement.
  • the arm 5145 may be operated by a so-called master slave method. In this case, the arm unit 5145 can be remotely operated by the user via the input device 5161 installed at a place apart from the operating room.
  • the arm control device 5159 When force control is applied, the arm control device 5159 receives the external force from the user and operates the actuators of the joint parts 5147a to 5147c so that the arm part 5145 moves smoothly according to the external force. You may perform what is called a power assist control which drives. Accordingly, when the user moves the arm part 5145 while directly touching the arm part 5145, the arm part 5145 can be moved with a comparatively light force. Therefore, the endoscope 5115 can be moved more intuitively and with a simpler operation, and the convenience of the user can be improved.
  • a doctor called a scoopist supported the endoscope 5115.
  • the position of the endoscope 5115 can be fixed more reliably without manual labor, and thus an image of the surgical site can be stably obtained. It becomes possible to perform surgery smoothly.
  • the arm control device 5159 does not necessarily have to be provided on the cart 5151. Also, the arm control device 5159 does not necessarily have to be one device. For example, the arm control device 5159 may be provided in each of the joint parts 5147a to 5147c of the arm part 5145 of the support arm device 5141, and the plurality of arm control devices 5159 cooperate with each other to drive the arm part 5145. Control may be implemented.
  • the light source device 5157 supplies the endoscope 5115 with irradiation light for imaging the surgical site.
  • the light source device 5157 includes, for example, an LED, a laser light source, or a white light source configured by a combination thereof.
  • the white light source is configured by the combination of the RGB laser light sources, the output intensity and the output timing of each color (each wavelength) can be controlled with high accuracy. Therefore, the white balance of the captured image in the light source device 5157 is obtained. Can be adjusted.
  • the laser light from each of the RGB laser light sources is time-divided onto the observation target, and the drive of the image pickup device of the camera head 5119 is controlled in synchronization with the irradiation timing to correspond to each of the RGB. It is also possible to take the captured image in time division. According to this method, a color image can be obtained without providing a color filter on the image sensor.
  • the drive of the light source device 5157 may be controlled so as to change the intensity of the output light at predetermined time intervals.
  • the drive of the image sensor of the camera head 5119 in synchronism with the timing of changing the intensity of the light to acquire an image in a time-division manner and synthesizing the images, a high dynamic image without so-called blackout and overexposure is obtained. Images of the range can be generated.
  • the light source device 5157 may be configured to be able to supply light in a predetermined wavelength band corresponding to special light observation.
  • the special light observation for example, the wavelength dependence of the absorption of light in body tissues is used to irradiate a narrow band of light as compared with the irradiation light (that is, white light) at the time of normal observation, so that the mucosal surface layer
  • the so-called narrow band imaging is performed, in which predetermined tissues such as blood vessels are imaged with high contrast.
  • fluorescence observation in which an image is obtained by fluorescence generated by irradiating the excitation light may be performed.
  • the body tissue is irradiated with excitation light to observe fluorescence from the body tissue (autofluorescence observation), or a reagent such as indocyanine green (ICG) is locally injected into the body tissue and For example, one that irradiates an excitation light corresponding to the fluorescence wavelength of the reagent to obtain a fluorescence image can be used.
  • the light source device 5157 may be configured to be capable of supplying narrowband light and / or excitation light compatible with such special light observation.
  • FIG. 27 is a block diagram showing an example of the functional configuration of the camera head 5119 and CCU 5153 shown in FIG.
  • the camera head 5119 has, as its functions, a lens unit 5121, an imaging unit 5123, a driving unit 5125, a communication unit 5127, and a camera head control unit 5129.
  • the CCU 5153 has, as its functions, a communication unit 5173, an image processing unit 5175, and a control unit 5177.
  • the camera head 5119 and the CCU 5153 are bidirectionally connected by a transmission cable 5179.
  • the lens unit 5121 is an optical system provided at a connection portion with the lens barrel 5117.
  • the observation light taken in from the tip of the lens barrel 5117 is guided to the camera head 5119 and enters the lens unit 5121.
  • the lens unit 5121 is configured by combining a plurality of lenses including a zoom lens and a focus lens.
  • the optical characteristics of the lens unit 5121 are adjusted so that the observation light is condensed on the light receiving surface of the image pickup element of the image pickup unit 5123.
  • the zoom lens and the focus lens are configured so that their positions on the optical axis can be moved in order to adjust the magnification and focus of the captured image.
  • the image pickup unit 5123 is composed of an image pickup element, and is arranged in the latter stage of the lens unit 5121.
  • the observation light that has passed through the lens unit 5121 is condensed on the light receiving surface of the image sensor, and an image signal corresponding to the observation image is generated by photoelectric conversion.
  • the image signal generated by the imaging unit 5123 is provided to the communication unit 5127.
  • the image pickup device forming the image pickup unit 5123 for example, a CMOS (Complementary Metal Oxide Semiconductor) type image sensor, which has a Bayer array and is capable of color image pickup is used. It should be noted that as the image pickup device, for example, a device capable of capturing a high-resolution image of 4K or higher may be used. By obtaining the image of the operative site with high resolution, the operator 5181 can grasp the state of the operative site in more detail, and can proceed with the operation more smoothly.
  • CMOS Complementary Metal Oxide Semiconductor
  • the image pickup device forming the image pickup unit 5123 is configured to have a pair of image pickup devices for respectively acquiring the image signals for the right eye and the left eye corresponding to 3D display.
  • the 3D display enables the operator 5181 to more accurately grasp the depth of the living tissue in the operation site.
  • the image pickup unit 5123 is configured by a multi-plate type, a plurality of lens unit 5121 systems are provided corresponding to each image pickup element.
  • the image pickup unit 5123 does not necessarily have to be provided on the camera head 5119.
  • the imaging unit 5123 may be provided inside the lens barrel 5117 immediately after the objective lens.
  • the drive unit 5125 is composed of an actuator, and moves the zoom lens and the focus lens of the lens unit 5121 by a predetermined distance along the optical axis under the control of the camera head control unit 5129. As a result, the magnification and focus of the image captured by the image capturing unit 5123 can be adjusted appropriately.
  • the communication unit 5127 is composed of a communication device for transmitting and receiving various information to and from the CCU 5153.
  • the communication unit 5127 transmits the image signal obtained from the imaging unit 5123 as RAW data to the CCU 5153 via the transmission cable 5179.
  • the image signal is transmitted by optical communication in order to display the captured image of the surgical site with low latency.
  • the operator 5181 performs the operation while observing the state of the affected area by the captured image. Therefore, for safer and more reliable operation, the moving image of the operated area is displayed in real time as much as possible. Is required.
  • the communication unit 5127 is provided with a photoelectric conversion module that converts an electric signal into an optical signal.
  • the image signal is converted into an optical signal by the photoelectric conversion module and then transmitted to the CCU 5153 via the transmission cable 5179.
  • the communication unit 5127 also receives a control signal from the CCU 5153 for controlling the driving of the camera head 5119.
  • the control signal includes, for example, information that specifies the frame rate of the captured image, information that specifies the exposure value at the time of capturing, and / or information that specifies the magnification and focus of the captured image. Contains information about the condition.
  • the communication unit 5127 provides the received control signal to the camera head control unit 5129.
  • the control signal from the CCU 5153 may also be transmitted by optical communication.
  • the communication unit 5127 is provided with a photoelectric conversion module that converts an optical signal into an electric signal, and the control signal is converted into an electric signal by the photoelectric conversion module and then provided to the camera head control unit 5129.
  • the imaging conditions such as the frame rate, the exposure value, the magnification, and the focus described above are automatically set by the control unit 5177 of the CCU 5153 based on the acquired image signal. That is, a so-called AE (Auto Exposure) function, AF (Auto Focus) function, and AWB (Auto White Balance) function are installed in the endoscope 5115.
  • AE Auto Exposure
  • AF Automatic Focus
  • AWB Automatic White Balance
  • the camera head controller 5129 controls driving of the camera head 5119 based on the control signal from the CCU 5153 received via the communication unit 5127.
  • the camera head control unit 5129 controls the drive of the image pickup device of the image pickup unit 5123 based on the information indicating the frame rate of the captured image and / or the information indicating the exposure at the time of image capturing.
  • the camera head control unit 5129 appropriately moves the zoom lens and the focus lens of the lens unit 5121 via the drive unit 5125 based on the information indicating that the magnification and the focus of the captured image are specified.
  • the camera head controller 5129 may further have a function of storing information for identifying the lens barrel 5117 and the camera head 5119.
  • the camera head 5119 can be made resistant to autoclave sterilization.
  • the communication unit 5173 is composed of a communication device for transmitting and receiving various information to and from the camera head 5119.
  • the communication unit 5173 receives the image signal transmitted from the camera head 5119 via the transmission cable 5179.
  • the image signal can be preferably transmitted by optical communication.
  • the communication unit 5173 is provided with a photoelectric conversion module that converts an optical signal into an electrical signal in response to optical communication.
  • the communication unit 5173 provides the image signal converted into the electric signal to the image processing unit 5175.
  • the communication unit 5173 also transmits a control signal for controlling the driving of the camera head 5119 to the camera head 5119.
  • the control signal may also be transmitted by optical communication.
  • the image processing unit 5175 performs various types of image processing on the image signal that is the RAW data transmitted from the camera head 5119.
  • image processing for example, development processing, high image quality processing (band emphasis processing, super-resolution processing, NR (Noise reduction) processing and / or camera shake correction processing, etc.), and / or enlargement processing (electronic zoom processing) Etc., various known signal processings are included.
  • the image processing unit 5175 also performs detection processing on the image signal for performing AE, AF, and AWB.
  • the image processing unit 5175 is composed of a processor such as a CPU and a GPU, and the image processing and the detection processing described above can be performed by the processor operating according to a predetermined program.
  • the image processing unit 5175 is composed of a plurality of GPUs, the image processing unit 5175 appropriately divides the information related to the image signal, and the plurality of GPUs perform image processing in parallel.
  • the control unit 5177 performs various controls regarding imaging of the surgical site by the endoscope 5115 and display of the captured image. For example, the control unit 5177 generates a control signal for controlling the driving of the camera head 5119. At this time, when the imaging condition is input by the user, the control unit 5177 generates a control signal based on the input by the user. Alternatively, when the endoscope 5115 is equipped with the AE function, the AF function, and the AWB function, the control unit 5177 controls the optimum exposure value, focal length, and focal length according to the result of the detection processing by the image processing unit 5175. The white balance is appropriately calculated and a control signal is generated.
  • control unit 5177 causes the display device 5155 to display the image of the surgical site based on the image signal subjected to the image processing by the image processing unit 5175.
  • the control unit 5177 recognizes various objects in the operation region image using various image recognition techniques.
  • the control unit 5177 detects a surgical instrument such as forceps, a specific living body part, bleeding, a mist when the energy treatment instrument 5135 is used, by detecting the shape and color of the edge of the object included in the surgical image. Can be recognized.
  • the control unit 5177 uses the recognition result to superimpose and display various types of surgical support information on the image of the surgical site. By displaying the surgery support information in a superimposed manner and presenting it to the operator 5181, it is possible to proceed with the surgery more safely and reliably.
  • the transmission cable 5179 connecting the camera head 5119 and the CCU 5153 is an electric signal cable compatible with electric signal communication, an optical fiber compatible with optical communication, or a composite cable of these.
  • wired communication is performed using the transmission cable 5179, but communication between the camera head 5119 and the CCU 5153 may be performed wirelessly.
  • the communication between the two is performed wirelessly, it is not necessary to lay the transmission cable 5179 in the operating room, so that the situation where the movement of the medical staff in the operating room is hindered by the transmission cable 5179 can be solved.
  • the example of the operating room system 5100 to which the technology according to the present disclosure can be applied has been described above.
  • the medical system to which the operating room system 5100 is applied is the endoscopic surgery system 5113 as an example
  • the configuration of the operating room system 5100 is not limited to such an example.
  • the operating room system 5100 may be applied to a flexible endoscope system for inspection or a microscopic surgery system instead of the endoscopic surgery system 5113.
  • the technology according to the present disclosure can be applied to the control unit 5177 among the configurations described above.
  • the control unit 5177 displays various operation support information on the operation unit image by using the recognition result when displaying the operation unit image on the display device 5155.
  • the technology according to the present disclosure is applicable to any type of moving body such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, a robot, a construction machine, and an agricultural machine (tractor). It may be realized as an installed device.
  • FIG. 28 is a block diagram showing a schematic configuration example of a vehicle control system 7000 which is an example of a mobile body control system to which the technology according to the present disclosure can be applied.
  • the vehicle control system 7000 includes a plurality of electronic control units connected via a communication network 7010.
  • the vehicle control system 7000 includes a drive system control unit 7100, a body system control unit 7200, a battery control unit 7300, a vehicle exterior information detection unit 7400, a vehicle interior information detection unit 7500, and an integrated control unit 7600. .
  • the communication network 7010 that connects these multiple control units complies with any standard such as CAN (Controller Area Network), LIN (Local Interconnect Network), LAN (Local Area Network), or FlexRay (registered trademark). It may be an in-vehicle communication network.
  • CAN Controller Area Network
  • LIN Local Interconnect Network
  • LAN Local Area Network
  • FlexRay registered trademark
  • Each control unit includes a microcomputer that performs arithmetic processing according to various programs, a storage unit that stores a program executed by the microcomputer or parameters used for various arithmetic operations, and a drive circuit that drives various controlled devices. Equipped with.
  • Each control unit is equipped with a network I / F for communicating with other control units via the communication network 7010, and is also capable of wired or wireless communication with devices or sensors inside or outside the vehicle. A communication I / F for performing communication is provided. In FIG.
  • a microcomputer 7610 As the functional configuration of the integrated control unit 7600, a microcomputer 7610, a general-purpose communication I / F 7620, a dedicated communication I / F 7630, a positioning unit 7640, a beacon receiving unit 7650, an in-vehicle device I / F 7660, an audio image output unit 7670, An in-vehicle network I / F 7680 and a storage unit 7690 are illustrated.
  • the other control units also include a microcomputer, a communication I / F, a storage unit, and the like.
  • the drive system control unit 7100 controls the operation of devices related to the drive system of the vehicle according to various programs.
  • the drive system control unit 7100 includes a drive force generation device for generating a drive force of a vehicle such as an internal combustion engine or a drive motor, a drive force transmission mechanism for transmitting the drive force to wheels, and a steering angle of the vehicle. It functions as a steering mechanism for adjusting and a control device such as a braking device for generating a braking force of the vehicle.
  • the drive system control unit 7100 may have a function as a control device such as ABS (Antilock Brake System) or ESC (Electronic Stability Control).
  • a vehicle state detection unit 7110 is connected to the drive system control unit 7100.
  • the vehicle state detection unit 7110 includes, for example, a gyro sensor that detects the angular velocity of the shaft rotational movement of the vehicle body, an acceleration sensor that detects the acceleration of the vehicle, or an accelerator pedal operation amount, a brake pedal operation amount, or a steering wheel steering operation. At least one of the sensors for detecting the angle, the engine speed, the rotation speed of the wheels, etc. is included.
  • the drive system control unit 7100 controls the internal combustion engine, the drive motor, the electric power steering device, the brake device, and the like by performing arithmetic processing using the signal input from the vehicle state detection unit 7110.
  • the body system control unit 7200 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body system control unit 7200 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as a head lamp, a back lamp, a brake lamp, a winker, or a fog lamp.
  • the body system control unit 7200 may receive radio waves or signals of various switches transmitted from a portable device that substitutes for a key.
  • the body system control unit 7200 receives inputs of these radio waves or signals and controls the vehicle door lock device, power window device, lamp, and the like.
  • the battery control unit 7300 controls the secondary battery 7310 that is the power supply source of the drive motor according to various programs. For example, the battery control unit 7300 receives information such as the battery temperature, the battery output voltage, and the remaining capacity of the battery from the battery device including the secondary battery 7310. The battery control unit 7300 performs arithmetic processing using these signals to control the temperature adjustment of the secondary battery 7310 or the cooling device provided in the battery device.
  • the exterior information detection unit 7400 detects information outside the vehicle equipped with the vehicle control system 7000.
  • the image capturing unit 7410 and the vehicle exterior information detection unit 7420 is connected to the vehicle exterior information detection unit 7400.
  • the imaging unit 7410 includes at least one of a ToF (Time Of Flight) camera, a stereo camera, a monocular camera, an infrared camera, and other cameras.
  • the outside-vehicle information detection unit 7420 detects, for example, an environment sensor for detecting current weather or weather, or another vehicle around the vehicle equipped with the vehicle control system 7000, an obstacle, a pedestrian, or the like. At least one of the ambient information detection sensors of.
  • the environmental sensor may be, for example, at least one of a raindrop sensor that detects rainy weather, a fog sensor that detects fog, a sunshine sensor that detects the degree of sunshine, and a snow sensor that detects snowfall.
  • the ambient information detection sensor may be at least one of an ultrasonic sensor, a radar device, and a LIDAR (Light Detection and Ranging, Laser Imaging Detection and Ranging) device.
  • the image pickup unit 7410 and the vehicle exterior information detection unit 7420 may be provided as independent sensors or devices, or may be provided as a device in which a plurality of sensors or devices are integrated.
  • FIG. 29 shows an example of the installation positions of the imaging unit 7410 and the vehicle exterior information detection unit 7420.
  • the imaging units 7910, 7912, 7914, 7916, 7918 are provided at at least one of the front nose of the vehicle 7900, the side mirrors, the rear bumper, the back door, and the upper part of the windshield inside the vehicle.
  • the image capturing unit 7910 provided on the front nose and the image capturing unit 7918 provided on the upper part of the windshield in the vehicle interior mainly acquire an image in front of the vehicle 7900.
  • the imaging units 7912 and 7914 provided in the side mirrors mainly acquire images of the side of the vehicle 7900.
  • the imaging unit 7916 provided in the rear bumper or the back door mainly acquires an image of the rear of the vehicle 7900.
  • the imaging unit 7918 provided on the upper part of the windshield in the vehicle interior is mainly used for detecting a preceding vehicle, a pedestrian, an obstacle, a traffic signal, a traffic sign, a lane, or the like.
  • FIG. 29 shows an example of the shooting ranges of the respective image pickup units 7910, 7912, 7914, 7916.
  • the imaging range a indicates the imaging range of the imaging unit 7910 provided on the front nose
  • the imaging ranges b and c indicate the imaging ranges of the imaging units 7912 and 7914 provided on the side mirrors
  • the imaging range d is The imaging range of the imaging part 7916 provided in the rear bumper or the back door is shown. For example, by overlaying the image data captured by the image capturing units 7910, 7912, 7914, 7916, a bird's-eye view image of the vehicle 7900 viewed from above can be obtained.
  • the vehicle exterior information detection units 7920, 7922, 7924, 7926, 7928, 7930 provided on the front, rear, sides, corners of the vehicle 7900 and on the upper portion of the windshield inside the vehicle may be ultrasonic sensors or radar devices, for example.
  • the vehicle exterior information detection units 7920, 7926, 7930 provided on the front nose, rear bumper, back door, and windshield of the vehicle 7900 may be, for example, LIDAR devices.
  • These vehicle exterior information detection units 7920 to 7930 are mainly used for detecting a preceding vehicle, a pedestrian, an obstacle, or the like.
  • the vehicle exterior information detection unit 7400 causes the image capturing unit 7410 to capture an image of the vehicle exterior and receives the captured image data. Further, the vehicle exterior information detection unit 7400 receives the detection information from the vehicle exterior information detection unit 7420 connected thereto.
  • the vehicle exterior information detection unit 7420 is an ultrasonic sensor, a radar device, or a LIDAR device
  • the vehicle exterior information detection unit 7400 transmits ultrasonic waves, electromagnetic waves, or the like, and receives information on the received reflected waves.
  • the vehicle exterior information detection unit 7400 may perform object detection processing or distance detection processing such as people, vehicles, obstacles, signs, or characters on the road surface based on the received information.
  • the vehicle exterior information detection unit 7400 may perform environment recognition processing for recognizing rainfall, fog, road surface conditions, or the like based on the received information.
  • the vehicle exterior information detection unit 7400 may calculate the distance to the object outside the vehicle based on the received information.
  • the vehicle exterior information detection unit 7400 may perform image recognition processing or distance detection processing that recognizes a person, a car, an obstacle, a sign, characters on the road surface, or the like based on the received image data.
  • the vehicle exterior information detection unit 7400 performs processing such as distortion correction or position adjustment on the received image data, combines the image data captured by different image capturing units 7410, and generates an overhead image or a panoramic image. Good.
  • the vehicle exterior information detection unit 7400 may perform viewpoint conversion processing using image data captured by different image capturing units 7410.
  • the in-vehicle information detection unit 7500 detects in-vehicle information.
  • a driver state detection unit 7510 that detects the state of the driver is connected.
  • the driver state detection unit 7510 may include a camera that captures an image of the driver, a biometric sensor that detects biometric information of the driver, a microphone that collects voice in the vehicle, and the like.
  • the biometric sensor is provided on, for example, a seat surface or a steering wheel, and detects biometric information of an occupant sitting on a seat or a driver who holds the steering wheel.
  • the in-vehicle information detection unit 7500 may calculate the degree of fatigue or concentration of the driver based on the detection information input from the driver state detection unit 7510, or determine whether the driver is asleep. You may.
  • the in-vehicle information detection unit 7500 may perform processing such as noise canceling processing on the collected audio signal.
  • the integrated control unit 7600 controls overall operations in the vehicle control system 7000 according to various programs.
  • An input unit 7800 is connected to the integrated control unit 7600.
  • the input unit 7800 is realized by, for example, a device such as a touch panel, a button, a microphone, a switch or a lever that can be input and operated by a passenger. Data obtained by voice-recognizing voice input by a microphone may be input to the integrated control unit 7600.
  • the input unit 7800 may be, for example, a remote control device that uses infrared rays or other radio waves, or may be an external connection device such as a mobile phone or a PDA (Personal Digital Assistant) that supports the operation of the vehicle control system 7000. You may.
  • the input unit 7800 may be, for example, a camera, in which case the passenger can input information by gesture. Alternatively, data obtained by detecting the movement of the wearable device worn by the passenger may be input. Further, the input unit 7800 may include, for example, an input control circuit that generates an input signal based on information input by a passenger or the like using the input unit 7800 and outputs the input signal to the integrated control unit 7600. A passenger or the like operates the input unit 7800 to input various data or instruct a processing operation to the vehicle control system 7000.
  • the storage unit 7690 may include a ROM (Read Only Memory) that stores various programs executed by the microcomputer, and a RAM (Random Access Memory) that stores various parameters, calculation results, sensor values, and the like.
  • the storage unit 7690 may be realized by a magnetic storage device such as an HDD (Hard Disc Drive), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the general-purpose communication I / F 7620 is a general-purpose communication I / F that mediates communication with various devices existing in the external environment 7750.
  • the general-purpose communication I / F 7620 is a cellular communication protocol such as GSM (registered trademark) (Global System of Mobile communications), WiMAX (registered trademark), LTE (registered trademark) (Long Term Evolution), or LTE-A (LTE-Advanced).
  • GSM Global System of Mobile communications
  • WiMAX registered trademark
  • LTE registered trademark
  • LTE-A Long Term Evolution
  • LTE-A Long Term Evolution-Advanced
  • a wireless LAN also referred to as Wi-Fi (registered trademark)
  • Bluetooth registered trademark
  • the general-purpose communication I / F 7620 is connected to a device (for example, an application server or a control server) existing on an external network (for example, the Internet, a cloud network, or a network unique to an operator) via a base station or an access point, for example. You may.
  • the general-purpose communication I / F 7620 uses, for example, P2P (Peer To Peer) technology, and is a terminal existing in the vicinity of the vehicle (for example, a driver, a pedestrian or a shop terminal, or a MTC (Machine Type Communication) terminal). May be connected with.
  • P2P Peer To Peer
  • MTC Machine Type Communication
  • the dedicated communication I / F 7630 is a communication I / F that supports a communication protocol formulated for use in a vehicle.
  • the dedicated communication I / F 7630 uses a standard protocol such as WAVE (Wireless Access in Vehicle Environment), DSRC (Dedicated Short Range Communications), or a cellular communication protocol, which is a combination of a lower layer IEEE 802.11p and an upper layer IEEE 1609, for example. May be implemented.
  • the dedicated communication I / F 7630 is typically a vehicle-to-vehicle communication, a vehicle-to-infrastructure communication, a vehicle-to-home communication and a vehicle-to-pedestrian communication. ) Perform V2X communications, a concept that includes one or more of the communications.
  • the positioning unit 7640 receives, for example, a GNSS signal from a GNSS (Global Navigation Satellite System) satellite (for example, a GPS signal from a GPS (Global Positioning System) satellite) and performs positioning to determine the latitude, longitude, and altitude of the vehicle.
  • the position information including is generated.
  • the positioning unit 7640 may specify the current position by exchanging a signal with the wireless access point, or may acquire the position information from a terminal having a positioning function, such as a mobile phone, PHS, or smartphone.
  • the beacon receiving unit 7650 receives, for example, a radio wave or an electromagnetic wave transmitted from a wireless station or the like installed on the road, and acquires information such as the current position, traffic jam, traffic closure, and required time.
  • the function of beacon reception unit 7650 may be included in dedicated communication I / F 7630 described above.
  • the in-vehicle device I / F 7660 is a communication interface that mediates a connection between the microcomputer 7610 and various in-vehicle devices 7760 existing in the vehicle.
  • the in-vehicle device I / F 7660 may establish a wireless connection using a wireless communication protocol such as a wireless LAN, Bluetooth (registered trademark), NFC (Near Field Communication) or WUSB (Wireless USB).
  • a wireless communication protocol such as a wireless LAN, Bluetooth (registered trademark), NFC (Near Field Communication) or WUSB (Wireless USB).
  • the in-vehicle device I / F 7660 is connected to a USB (Universal Serial Bus), HDMI (registered trademark) (High-Definition Multimedia Interface), or MHL (Mobile) via a connection terminal (and a cable, if necessary).
  • Wired connection such as High-definition Link
  • the in-vehicle device 7760 may include, for example, at least one of a mobile device or a wearable device that the passenger has, or an information device that is carried in or attached to the vehicle.
  • the in-vehicle device 7760 may include a navigation device that searches for a route to an arbitrary destination.
  • the in-vehicle device I / F 7660 exchanges control signals or data signals with these in-vehicle devices 7760.
  • the in-vehicle network I / F 7680 is an interface that mediates communication between the microcomputer 7610 and the communication network 7010.
  • the in-vehicle network I / F 7680 sends and receives signals and the like according to a predetermined protocol supported by the communication network 7010.
  • the microcomputer 7610 of the integrated control unit 7600 passes through at least one of a general-purpose communication I / F 7620, a dedicated communication I / F 7630, a positioning unit 7640, a beacon receiving unit 7650, an in-vehicle device I / F 7660, and an in-vehicle network I / F 7680.
  • the vehicle control system 7000 is controlled according to various programs based on the information acquired by the above. For example, the microcomputer 7610 calculates a control target value of the driving force generation device, the steering mechanism or the braking device based on the acquired information on the inside and outside of the vehicle, and outputs a control command to the drive system control unit 7100. Good.
  • the microcomputer 7610 realizes the functions of ADAS (Advanced Driver Assistance System) that includes collision avoidance or impact mitigation of the vehicle, follow-up traveling based on inter-vehicle distance, vehicle speed maintenance traveling, vehicle collision warning, vehicle lane departure warning, etc. You may perform the coordinated control aiming at.
  • the microcomputer 7610 controls the driving force generation device, the steering mechanism, the braking device, and the like based on the acquired information about the surroundings of the vehicle, so that the microcomputer 7610 automatically travels independently of the driver's operation. You may perform cooperative control for the purpose of driving etc.
  • ADAS Advanced Driver Assistance System
  • a general-purpose communication I / F 7620 a dedicated communication I / F 7630, a positioning unit 7640, a beacon receiving unit 7650, an in-vehicle device I / F 7660, and an in-vehicle network I / F 7680.
  • the microcomputer 7610 may generate a warning signal by predicting a danger such as a vehicle collision, a pedestrian or the like approaching or entering a closed road, based on the acquired information.
  • the warning signal may be, for example, a signal for generating a warning sound or lighting a warning lamp.
  • the voice image output unit 7670 transmits an output signal of at least one of a voice and an image to an output device capable of visually or audibly notifying information to a passenger of the vehicle or the outside of the vehicle.
  • an audio speaker 7710, a display unit 7720, and an instrument panel 7730 are illustrated as output devices.
  • the display unit 7720 may include at least one of an onboard display and a head-up display, for example.
  • the display unit 7720 may have an AR (Augmented Reality) display function.
  • the output device may be a device other than these devices, such as headphones, a wearable device such as a glasses-type display worn by a passenger, a projector, or a lamp.
  • the display device When the output device is a display device, the display device displays results obtained by various processes performed by the microcomputer 7610 or information received from another control unit in various formats such as text, images, tables, and graphs. Display visually.
  • the output device is a voice output device, the voice output device converts an audio signal composed of reproduced voice data, acoustic data, or the like into an analog signal, and outputs it audibly.
  • At least two control units connected via the communication network 7010 may be integrated as one control unit.
  • each control unit may be composed of a plurality of control units.
  • the vehicle control system 7000 may include another control unit not shown.
  • some or all of the functions of one of the control units may be given to another control unit. That is, if the information is transmitted and received via the communication network 7010, the predetermined arithmetic processing may be performed by any of the control units.
  • a sensor or device connected to one of the control units may be connected to another control unit, and a plurality of control units may send and receive detection information to and from each other via the communication network 7010. .
  • the technology according to the present disclosure can be applied to the vehicle exterior information detection unit 7400 among the configurations described above.
  • the vehicle exterior information detection unit 7400 By applying the technology according to the present disclosure to the vehicle exterior information detection unit 7400, it is possible to recognize a distant person, a car, an obstacle, a sign, or a character on the road surface included in the vehicle exterior image captured outside the vehicle. .
  • the vehicle exterior information detection unit 7400 superimposes and displays various types of driving assistance information on the vehicle exterior image using the recognition result.
  • the driving support information in a superimposed manner and presenting it to the driver, it is possible to grasp the road condition and the like in advance and prevent an accident in advance.
  • An image processing apparatus comprising: a recognition unit that performs recognition processing of the object with respect to the object area specified in the first resolution image.
  • an extraction unit for extracting a moving object in the second resolution image The image processing apparatus according to (1), wherein the classification unit classifies the extracted motion object.
  • a tracking processing unit for tracking the moving object recognized in the first resolution image In any one of (2) to (7), the first resolution image further includes a first deduplication processing unit that eliminates duplication between the tracked moving object and the specified object region.
  • the image processing device described. The image processing device according to (8), wherein the tracking processing unit corrects the position of the moving object to be tracked for each predetermined frame.
  • the recognition unit normalizes the size of the specified object region based on the size of teacher data used for the recognition process of the object to perform the recognition process of the object. ..
  • a second acquisition unit that acquires a third resolution image having a lower resolution than the second resolution image from the second resolution image;
  • the image processing apparatus performs the recognition process of the object by binaryly classifying the object area.
  • the recognition unit performs the recognition process of the object by performing multi-value classification on the object region.
  • the image processing apparatus in which the first acquisition unit, the classification unit, the identification unit, and the recognition unit repeat processing for each predetermined frame.
  • the image processing device A second resolution image having a lower resolution than the first resolution image is acquired from the first resolution image, Classifying objects included in the second resolution image, In the first resolution image, an object area corresponding to the object of a predetermined classification is specified, An image processing method for recognizing the object in the object area specified in the first resolution image. (20) A second resolution image having a lower resolution than the first resolution image is acquired from the first resolution image, Classifying objects included in the second resolution image, In the first resolution image, an object area corresponding to the object of a predetermined classification is specified, A program that causes a computer to execute a process of recognizing the object in the object area specified in the first resolution image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、高解像度画像における物体の検出から認識までの一連の処理にかかる処理量を低減することができるようにする画像処理装置、画像処理方法、およびプログラムに関する。 取得部は、第1解像度画像から、第1解像度画像より解像度の低い第2解像度画像を取得し、分類部は、第2解像度画像に写るオブジェクトを分類し、特定部は、第1解像度画像において、所定の分類のオブジェクトに対応するオブジェクト領域を特定し、認識部は、第1解像度画像において特定されたオブジェクト領域に対して、オブジェクトの認識処理を行う。本開示に係る技術は、例えば、リモート管制塔のカメラシステムに適用することができる。

Description

画像処理装置、画像処理方法、およびプログラム
 本開示は、画像処理装置、画像処理方法、およびプログラムに関し、特に、高解像度画像における物体の検出から認識までの一連の処理にかかる処理量を低減することができるようにする画像処理装置、画像処理方法、およびプログラムに関する。
 従来、撮像された動画像に写る人や物体を検出し、認識処理を行う画像処理装置がある。
 例えば、特許文献1には、全方位を撮像した広範囲画像から取得した低解像度画像において被写体領域を検出し、広範囲画像において被写体領域に対応する領域に対して認識処理を行う技術が開示されている。
特開2013-9050号公報
 しかしながら、高解像度画像において物体を認識する場合、その物体の検出から認識までの一連の処理にかかる処理量が増大してしまう。
 本開示は、このような状況に鑑みてなされたものであり、高解像度画像における物体の検出から認識までの一連の処理にかかる処理量を低減することができるようにするものである。
 本開示の画像処理装置は、第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得する第1の取得部と、前記第2解像度画像に含まれるオブジェクトを分類する分類部と、前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定する特定部と、前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う認識部とを備える画像処理装置である。
 本開示の画像処理方法は、画像処理装置が、第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得し、前記第2解像度画像に含まれるオブジェクトを分類し、前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定し、前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う画像処理方法である。
 本開示のプログラムは、第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得し、前記第2解像度画像に含まれるオブジェクトを分類し、前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定し、前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う処理をコンピュータに実行させるプログラムである。
 本開示においては、第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像が取得され、前記第2解像度画像に含まれるオブジェクトが分類され、前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域が特定され、前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理が行われる。
本開示に係る技術を適用した画像処理装置を示す図である。 高解像度画像の例を示す図である。 本開示に係る技術により検出される小物体の例を示す図である。 画像処理装置の機能構成例を示すブロック図である。 小物体検出処理の流れについて説明するフローチャートである。 オブジェクトの抽出と分類の詳細について説明するフローチャートである。 HSV色マスクの生成により得られた画像の例を示す図である。 背景差分・膨張処理により得られた処理後画像の例を示す図である。 輪郭矩形の設定について説明する図である。 画枠の設定について説明する図である。 輪郭矩形に応じた画枠の切り替えについて説明する図である。 重複の排除について説明する図である。 小物体の検出結果の例を示す図である。 画像処理装置の処理速度について説明する図である。 画像処理装置の他の機能構成例を示すブロック図である。 画像処理装置のさらに他の機能構成例を示すブロック図である。 画像処理装置のさらに他の機能構成例を示すブロック図である。 画像処理装置のさらに他の機能構成例を示すブロック図である。 背景画像空間への射影により更新された背景画像の例を示す図である。 画像処理装置のさらに他の機能構成例を示すブロック図である。 色に基づいたオブジェクト抽出について説明する図である。 画像処理装置のさらに他の機能構成例を示すブロック図である。 コンピュータの構成例を示すブロック図である。 手術室システムの全体構成を概略的に示す図である。 集中操作パネルにおける操作画面の表示例を示す図である。 手術室システムが適用された手術の様子の一例を示す図である。 図26に示すカメラヘッド及びCCUの機能構成の一例を示すブロック図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
 以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.本開示に係る小物体検出の概要
 2.画像処理装置の構成と動作
 3.処理速度について
 4.変形例
 5.コンピュータの構成例
 6.応用例
<1.本開示に係る小物体検出の概要>
 図1は、本開示に係る技術(本技術)を適用した画像処理装置を示す図である。
 図1の画像処理装置10は、撮像装置21により撮像された高解像度画像(動画像)を取得する。画像処理装置10は、取得した高解像度画像から物体(特に小物体)を検出し、その検出結果を表示装置22に出力する。
 撮像装置21は、高解像度画像を撮像することが可能なCMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサを備えるカメラにより構成される。
 表示装置22は、高解像度画像を表示することが可能なLCD(Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイなどにより構成される。表示装置22には、撮像装置21により撮像された高解像度画像に、小物体の検出結果などが重畳して表示される。本技術における画像は、表示装置22に表示される以外にも、画像データとして、例えば図示せぬ記憶装置に記憶されるようにしてもよい。
 高解像度画像は、例えば、管制官のいない空港に設けられるリモート管制塔に設置されたカメラにより撮像された画像であったり、ビルや工場、店舗、街中などを遠隔地で監視する遠隔監視装置により得られる画像であったりする。高解像度画像の解像度は、例えば4K解像度とされる。
 図2は、高解像度画像の例を示す図である。図2に示される高解像度画像は、リモート管制塔に設置されたカメラにより撮像された画像であり、空港のエプロンに複数の航空機が駐機されている様子が写っている。さらに、図示はしないが、図2の高解像度画像においては、空港の上空に、複数の航空機が飛行している様子も写っている。
 従来、4K解像度の高解像度画像において、遠方を飛行している航空機などのような小物体を認識する場合、その小物体の検出から認識までの一連の処理にかかる処理量が増大してしまう。具体的には、高性能のGPU(Graphics Processing Unit)により既存の物体検出手法を用いた場合であっても、4K解像度の高解像度画像において小物体を検出するのに数秒~十数秒要するほどの処理量がかかってしまう。
 一方で、高解像度画像を縮小した低解像度画像においては、解像度が低いため、小物体の認識精度が落ちてしまう。
 そこで、本技術を適用した画像処理装置においては、高解像度画像における小物体の検出から認識までの一連の処理にかかる処理量を低減することを実現する。具体的には、本開示に係る技術により、4K解像度の高解像度画像において、図3に示されるような12×8,20×10,28×15,34×21,41×23,44×23,54×20画素サイズの小物体の検出から認識にかかる処理量を低減することを実現する。
<2.画像処理装置の構成と動作>
 以下では、本技術を適用した画像処理装置10の構成と動作について説明する。
 (画像処理装置の構成)
 図4は、画像処理装置10の機能構成例を示すブロック図である。
 図4の画像処理装置10は、追尾処理部31、中解像度画像取得部32、オブジェクト抽出部33、分類部34、特定部35、重複排除処理部36、認識部37、およびフィルタ処理部38を備えている。画像処理装置10はさらに、低解像度画像取得部39、物体検出部40、フィルタ処理部41、重複排除処理部42を備えている。
 追尾処理部31は、撮像装置21から供給される、例えば3840×2160画素の高解像度画像において、後述する認識部37によって認識されたオブジェクトを追尾する。追尾対象となるオブジェクトは、上述したような画素サイズの小物体とされる。追尾処理部31は、例えば3フレーム毎などの所定フレーム毎に、追尾しているオブジェクトの位置の修正を行う。高解像度画像上で追尾されているオブジェクトの領域(以下、オブジェクト領域という)を示す情報は、重複排除処理部に36に供給される。オブジェクト領域を示す情報には、その動きオブジェクトのサイズおよび位置(画像上の座標位置)を示す情報が含まれる。
 中解像度画像取得部32は、撮像装置21から供給される高解像度画像から、例えば15フレーム毎などの所定フレーム毎に、高解像度画像より解像度の低い、例えば960×540画素の中解像度画像を取得する。具体的には、中解像度画像取得部32は、画像の解像度を変換する解像度変換機能を有しており、高解像度画像に対して、間引き処理などのダウンコンバート処理を施すことにより、中解像度画像を取得する。取得された中解像度画像は、オブジェクト抽出部33と低解像度画像取得部39に供給される。なお、低解像度画像取得部39には、撮像装置21から供給される高解像度画像がそのまま供給されるようにしてもよい。
 なお、図4の画像処理装置10において、破線で囲まれる機能ブロックは、中解像度画像取得部32と同様、15フレーム毎に各処理を繰り返す。
 オブジェクト抽出部33は、中解像度画像取得部32からの中解像度画像において、所定のオブジェクトを抽出する。ここでは、中解像度画像において、動きのある動きオブジェクトが抽出されるものとするが、抽出手法によっては、動きのない静止オブジェクトが抽出されてもよい。抽出される動きオブジェクトには、追尾対象となる小物体の他、追尾対象ではない物体も含まれる。オブジェクト抽出部33は、抽出された動きオブジェクトを示す情報を分類部34に供給する。動きオブジェクトを示す情報には、その動きオブジェクトのサイズおよび座標位置を示す情報が含まれる。
 分類部34は、オブジェクト抽出部33からの情報に基づいて、中解像度画像に含まれる動きオブジェクトを、所定の条件で分類する。分類部34は、分類された動きオブジェクトを示す情報を特定部35に供給する。
 特定部35は、分類部34からの情報に基づいて、高解像度画像において、所定の分類の動きオブジェクトに対応するオブジェクト領域を特定する。オブジェクト領域を示す情報(オブジェクトのサイズおよび座標位置)は、重複排除処理部36に供給される。
 重複排除処理部36は、追尾処理部31からの情報と、特定部35からの情報とに基づいて、高解像度画像において、追尾処理部31により追尾されているオブジェクト領域と、特定部35により特定されたオブジェクト領域との重複を排除する。高解像度画像において重複が排除されたオブジェクト領域を示す情報は、認識部37に供給される。
 認識部37は、重複排除処理部36からの情報に基づいて、高解像度画像におけるオブジェクト領域に対して、動きオブジェクトの認識処理を行う。具体的には、認識部37は、教師データを用いた機械学習による画像分類を行うことで、動きオブジェクトの認識処理を行う。認識部37は、オブジェクト領域内の動きオブジェクトが、認識対象とする小物体であることの確かさを表す確信度をフィルタ処理部38に供給する。
 フィルタ処理部38は、時系列フィルタ処理を行うことで、認識部37からの確信度を時系列に判定することで確信度を決定する。決定された確信度が例えば一定値より大きい動きオブジェクトを示す情報は、小物体の検出結果として重複排除処理部42に供給される。
 低解像度画像取得部39は、中解像度画像取得部32からの中解像度画像から、中解像度画像よりさらに解像度の低い、例えば300×300画素の低解像度画像を取得する。具体的には、低解像度画像取得部39は、画像の解像度を変換する解像度変換機能を有しており、中解像度画像に対して、間引き処理などのダウンコンバート処理を施すことにより、低解像度画像を取得する。取得された低解像度画像は、物体検出部40に供給される。なお、中解像度画像取得部32から、撮像装置21からの高解像度画像がそのまま供給される場合、低解像度画像取得部39は、高解像度画像に対してダウンコンバート処理を施すことにより、低解像度画像を取得することができる。
 物体検出部40は、低解像度画像取得部39からの低解像度画像に対して、物体検出部を行う。物体検出結果は、フィルタ処理部41に供給される。
 フィルタ処理部41は、時系列フィルタ処理を行うことで、物体検出部40からの物体検出結果を時系列に判定することで、物体検出結果を決定する。決定された物体検出結果は、重複排除処理部42に供給する。
 重複排除処理部42は、フィルタ処理部38からの小物体の検出結果と、物体検出部40からの物体検出結果とに基づいて、高解像度画像において認識された動きオブジェクト(小物体)と、物体検出部40により検出された物体との重複を排除する。高解像度画像において重複が排除されたオブジェクト領域を示す情報は、最終的な小物体の検出結果として出力される。
 (画像処理装置の動作)
 次に、図5のフローチャートを参照して、画像処理装置10による小物体検出処理の流れについて説明する。図5の処理において、ステップS11の処理は3フレーム毎に、ステップS21乃至S28の処理と、ステップS31乃至S33の処理は15フレーム毎に実行される。
 ステップS11において、追尾処理部31は、高解像度画像において動きオブジェクト(小物体)を追尾する。ステップS11の処理は、画像処理装置10に高解像度画像の所定フレームに対して、一度ステップS21乃至S28,S31乃至S33の処理が実行されて以降に行われる。
 動きオブジェクトの追尾には、テンプレートマッチングなどの領域ベースの物体追跡方法や、KLT法などの特徴点ベースの物体追跡方法が用いられる。例えば、動きオブジェクトの追尾には、物体を追跡しながら物体テンプレートを随時学習するKCF(Kernelized Correlation Filter)による物体追跡方法を用いることができる。高解像度画像において追尾されている動きオブジェクトには、後述するような画枠が設定され、高解像度画像から、画枠が設定されている領域が切り出される。
 一方、ステップS21においては、中解像度画像取得部32が、高解像度画像から解像度画像を取得する。
 ステップS22において、オブジェクト抽出部33は、中解像度画像取得部32により取得された中解像度画像において動きオブジェクトを抽出する。
 ステップS23において、分類部34は、オブジェクト抽出部33によって中解像度画像から抽出された動きオブジェクトを分類する。
 ここで、図6のフローチャートを参照して、ステップS22,S23における動きオブジェクトの抽出と分類の詳細について説明する。
 ステップS51においては、中解像度画像に基づいて、HSV色マスク画像が生成される。HSV色マスク画像によれば、H(色相),S(彩度),V(明度)の値を指定することで、中解像度画像から特定の色の領域を抽出することができる。
 図7は、図2の高解像度画像から取得された中解像度画像に基づいて生成されたHSV色マスク画像の例である。図7に示されるHSV色マスク画像は、中解像度画像から空の色を抽出するマスク画像である。ここでは、空の色を抽出するマスク画像に限らず、例えばエプロンや滑走路の舗装面の色を抽出するマスク画像が生成されるようにしてもよい。
 ステップS52においては、中解像度画像において、HSV色マスク画像により色が抽出された領域に対して背景差分・膨張処理が行われる。背景差分によれば、中解像度画像から、前フレームと現フレームとの比較により動きのある動きオブジェクトが抽出される。また、膨張処理によれば、背景差分により抽出された動きオブジェクトの画素領域を膨張させることができる。
 図8は、中解像度画像において、図7のHSV色マスク画像により色が抽出された領域に対する背景差分・膨張処理により得られた処理後画像の例を示す図である。
 図8の処理後画像においては、中解像度画像における空の領域に存在する動きオブジェクトが、白画素の集合として複数(具体的には5個)示されている。これらの動きオブジェクトの中には、追尾対象となる航空機の他、追尾対象ではない物体も含まれる。
 ステップS53においては、図9に示されるように、抽出された動きオブジェクトの輪郭が収まる輪郭矩形が設定される。図9においては、図8を参照して説明した5個の動きオブジェクトそれぞれについて輪郭矩形が示されている。
 ステップS54においては、図10に示されるように、輪郭矩形が設定された動きオブジェクトに対して画枠が設定される。画枠は、高解像度画像において追尾対象を含むオブジェクト領域を特定するための情報である。図10の例では、図9を参照して説明した、輪郭矩形が抽出された5個の動きオブジェクトそれぞれについて、画枠が設定されている。
 画枠のサイズは、あらかじめ決められた所定サイズより小さく、複数の異なるサイズの画枠が用意される。動きオブジェクトについて設定された輪郭矩形のサイズに応じて、設定される画枠のサイズが切り替わる。あらかじめ決められた所定サイズは、動きオブジェクトを小物体として検出することができる画枠のサイズの上限となる。これにより、ある大きさを超えない動きオブジェクトは、小物体として検出され、ある大きさを超える動きオブジェクトは、後述する大物体として検出されるようになる。
 図11は、輪郭矩形に応じた画枠の切り替えについて説明する図である。
 図11左上には、所定の動きオブジェクトについて設定された輪郭矩形110が示されている。図11右側には、サイズの異なる複数(具体的には3つ)の画枠120a,120b,120cが示されている。
 例えば、画枠120aのサイズは、高解像度画像の128×64画素に対応した16×8画素とされ、画枠120bのサイズは、高解像度画像の256×128画素に対応した32×16画素とされる。また、画枠120cのサイズは、高解像度画像の512×256画素に対応した64×32画素とされる。
 動きオブジェクトに対して画枠が設定される際、輪郭矩形110の対角線D1の長さと、画枠120(120a,120b,120c)の対角線D2(D2a,D2b,D2c)の長さとが、サイズの小さい画枠から順番に比較される。具体的には、輪郭矩形110の対角線D1の長さが、画枠120の対角線D2の長さの75%(D2×0.75)を超える毎に、1つ上のサイズの画枠120の対角線D2の長さとの比較が繰り返される。そして、輪郭矩形110の対角線D1の長さが、画枠120の対角線D2の長さの75%未満となったとき、動きオブジェクトに対してその画枠120が設定される。
 すなわち、画枠の設定により、抽出された動きオブジェクトは、その大きさに基づいて分類されることになる。
 なお、設定される画枠のサイズは、抽出された動きオブジェクトが存在する領域によって限定されてもよい。例えば、航空機がより小さく写る空の領域に存在する動きオブジェクトには、16×8画素の画枠のみが設定されるようにする。また、空の領域より航空機が大きく見える舗装面の領域に存在する動きオブジェクトには、32×16画素または64×32画素の画枠が設定されるようにする。
 また、その大きさに基づいて分類された動きオブジェクトには、その動きオブジェクトが抽出された時点で、中解像度画像上の座標位置が設定される。中解像度画像上に設定される動きオブジェクトの座標位置は、例えば、その動きオブジェクトに設定された輪郭矩形の中心となる。
 このようにして、動きオブジェクトがその大きさに基づいて分類されると、図5のステップS24に進む。
 ステップS24において、特定部35は、高解像度画像において、大きさに基づいて分類された各動きオブジェクトに対応するオブジェクト領域を特定する。
 具体的には、特定部35は、中解像度画像において動きオブジェクト毎に設定された画枠を、高解像度画像上に座標変換することで、オブジェクト領域を特定する。
 例えば、中解像度画像上の座標位置(100,50)を中心とした5×5画素サイズの動きオブジェクト(輪郭矩形)に、16×8画素の画枠が設定されたとする。この場合、座標位置(100,50)を中心とした16×8画素の画枠は、高解像度画像上の座標位置(400,200)を中心とした128×64画素の画枠に座標変換され、座標変換後の画枠の領域がオブジェクト領域となる。
 ここでは、高解像度画像から、特定されたオブジェクト領域(座標変換後の画枠の領域)が切り出される。
 ステップS25において、重複排除処理部36は、高解像度画像において、追尾処理部31により追尾されている動きオブジェクト領域と、特定部35により特定されたオブジェクト領域との重複を排除する。ここでは、IoU(Intersection Over Union)を用いることで、追尾されている動きオブジェクト領域と、特定されたオブジェクト領域との重複が排除される。
 IoUによれば、図12に示されるように、物体領域131と物体領域132の面積全体のうち、互いに重なっている部分の面積の割合が所定の閾値(例えば0.5)を超える場合に、物体領域131と物体領域132が重複していると判断される。この場合、物体領域131と物体領域132とは、同一の物体領域141と判断される。
 このようにして、追尾されている動きオブジェクト領域と、特定されたオブジェクト領域との重複が排除されると、ステップS26に進む。
 ステップS26において、認識部37は、高解像度画像において、追尾されている動きオブジェクト領域との重複が排除されたオブジェクト領域に対して、動きオブジェクトの認識処理を行う。
 このとき、認識部37は、特定されたオブジェクト領域のサイズを、動きオブジェクトの認識処理に用いられる所定のオブジェクトの画像である教師データの画素サイズに基づいて正規化する。具体的には、オブジェクト領域のサイズは、全て128×64画素のサイズに正規化される。これにより、64個のオブジェクト領域に対する認識処理が同時に行われるようになる。
 認識部37は、教師データであらかじめ学習された学習モデルを用いて、オブジェクト領域を二値分類することで、オブジェクト領域内の動きオブジェクトが航空機らしいか否かを判別する。その結果、オブジェクト領域内の動きオブジェクトが、認識対象とする小物体(航空機)であることの確からしさを表す確信度が算出される。
 ステップS27において、フィルタ処理部38は、時系列フィルタ処理を行うことで、認識部37により算出された確信度を時系列に判定することで、確信度を決定する。ここでは、例えば、決定された確信度の値の大きさが上位3つの動きオブジェクトを示す情報が、小物体(航空機)の検出結果とされる。
 ここで、ステップS28の処理について説明する前に、ステップS31乃至S33の処理について説明する。
 ステップS31においては、低解像度画像取得部39が、中解像度画像取得部32からの中解像度画像から低解像度画像を取得する。
 ステップS32において、物体検出部40は、低解像度画像取得部39により取得された低解像度画像に対して、物体検出を行う。ここでは、低解像度画像に対する物体検出が行われることから、検出対象は、上述した小物体のような小さい物体ではなく、比較的大きい物体(大物体)が検出される。
 ステップS33において、フィルタ処理部41は、時系列フィルタ処理を行うことで、物体検出部40からの物体検出結果を時系列に判定することで、物体検出結果を決定する。
 そして、ステップS28において、重複排除処理部42は、高解像度画像において認識された動きオブジェクト(小物体)と、低解像度画像において検出された大物体との重複を排除する。ここでも、IoUを用いることで、認識された動きオブジェクト領域と、検出された大物体の領域との重複が排除される。
 このようにして、最終的な小物体の検出結果が出力される。
 図13は、小物体の検出結果の例を示す図である。
 図13においては、図2の高解像度画像に、動きオブジェクトの抽出結果と、抽出された動きオブジェクトの中で航空機と判別された検出結果とが重畳されて示されている。
 図中、画枠161,162,163は、航空機の検出結果を示しており、その他の画枠は、航空機以外の動きオブジェクトの抽出結果を示している。画枠161,162,163の近傍には、確信度の値が示されている。すなわち、画枠161で特定される動きオブジェクトが、最も航空機である可能性が高いといえる。
 以上の処理によれば、高解像度画像から取得した中解像度画像において、所定サイズより小さい動きオブジェクトが分類され、分類された動きオブジェクトに対応する領域が高解像度画像上で、認識対象の候補として特定される。これにより、高解像度画像における物体(特に小物体)の検出から認識までの一連の処理にかかる処理量を低減することが可能となる。結果として、4K解像度のような高解像度画像においてリアルタイムに小物体を追尾することが可能となる。
 特に、動きオブジェクトは、画枠の設定によりその大きさに基づいて分類されるようにしたので、従来よりも小さい物体を認識/追尾することができる上、その認識精度を高めることができる。
<3.処理速度について>
 ここで、図14を参照して、本技術の画像処理装置10の処理速度について説明する。画像処理装置10は、図中、太枠で囲われる各ブロック単位で実行される処理にかかる時間が、以下のような値になるように設計される。
 認識部37による認識処理は、128×64画素のサイズの64個のオブジェクト領域に対して実行され、その処理時間は20msとする。
 3フレーム毎に実行される追尾処理部31による追尾処理の処理時間は、1物体あたり15msとする。したがって、30フレームあたりの追尾処理の処理時間は、150ms×物体数となる。
 15フレーム毎に実行される処理のうち、オブジェクト抽出部33乃至フィルタ処理部38による小物体の検出処理の処理時間は、12×8画素の小物体を検出する場合で、220msとする。また、物体検出部40とフィルタ処理部41による大物体の検出処理の処理時間は、70msとする。
 小物体の検出処理と大物体の検出処理とがシリアルに実行される場合、15フレーム毎に実行される処理の処理時間は、290msとなる。したがって、30フレームあたりの小物体の検出処理と大物体の検出処理の処理時間は、580msとなる。
 すなわち、上述した一連の処理には、30フレームあたり150ms×物体数と580msとを合算した時間がかかることになる。ここで、通常1秒30フレームであるとすると、小物体の数が3個であれば、一連の処理にかかる時間を1秒程度に収めることができる。また、上述した一連の処理が並列に実行されるようにした場合には、より多くのオブジェクトの認識であっても、一連の処理にかかる時間を1秒程度に収めることができる。
<4.変形例>
 以下においては、上述した実施の形態における変形例について説明する。
 (変形例1)
 図15は、画像処理装置10の第1の変形例である画像処理装置10Aの機能構成例を示すブロック図である。
 図15の画像処理装置10Aは、中解像度画像取得部32の前段に、高解像度化処理部211が設けられている点で、図1の画像処理装置10と異なる。
 高解像度化処理部211は、撮像装置21から供給される高解像度画像に対して、エッジ強調などの高解像度化処理を施し、中解像度画像取得部32に供給する。
 このような構成により、オブジェクト抽出部33には、物体のエッジが強調された中解像度画像が供給されるので、オブジェクト抽出部33によるオブジェクトの抽出性能を向上させることができる。
 (変形例2)
 図16は、画像処理装置10の第2の変形例である画像処理装置10Bの機能構成例を示すブロック図である。
 図16の画像処理装置10Bは、オブジェクト抽出部33の前段に、高解像度背景画像生成部221が設けられている点で、図1の画像処理装置10と異なる。
 高解像度背景画像生成部221は、中解像度画像取得部32からの中解像度画像において背景部分を拡大(高解像度化)することで、高解像度背景画像を生成する。生成された高解像度背景画像は、オブジェクト抽出部33に供給される。
 オブジェクト抽出部33においては、高解像度背景画像上で、背景差分により動きオブジェクトが抽出される。
 このような構成により、より小さい動きオブジェクトの抽出精度を向上させることができる。
 (変形例3)
 図17は、画像処理装置10の第3の変形例である画像処理装置10Cの機能構成例を示すブロック図である。
 図17の画像処理装置10Cは、認識部37に代えて、認識部231が設けられている点で、図1の画像処理装置10と異なる。
 認識部231は、RNN(Recurrent Neural Network)を用いて、15フレーム毎の静止画像ではなく動画像に対して、動きオブジェクトの認識処理を行う。
 このような構成により、他の物体に見え隠れするような小物体であっても、高い精度で認識処理を行うことができる。
 (変形例4)
 図18は、画像処理装置10の第4の変形例である画像処理装置10Dの機能構成例を示すブロック図である。
 図18の画像処理装置10Dは、オブジェクト抽出部33の前段に、背景画像空間射影部241と高解像度背景画像生成部242が設けられている点で、図1の画像処理装置10と異なる。
 背景画像空間射影部241は、中解像度画像取得部32からの中解像度画像を、背景画像空間へ射影することで背景画像を更新する。背景画像空間へ射影された中解像度画像は、高解像度背景画像生成部242に供給される。背景画像空間は、撮像装置21により撮像され得る撮像範囲に対応する。撮像装置21の撮像範囲に動きがある場合、背景画像は、背景画像空間上で時間的に変化する。
 図19は、背景画像空間への射影により更新される背景画像の例を示す図である。
 図19に示される背景画像は、異なる5つの撮像範囲で撮影された背景画像BG1乃至BG5から構成される。中解像度画像取得部32から、背景画像BG1乃至BG5とは異なる撮像範囲の中解像度画像が供給された場合、背景画像空間上でその撮像範囲に対応する位置に中解像度画像が射影され、図19の背景画像が更新される。
 高解像度背景画像生成部242は、背景画像空間射影部241からの、背景画像空間へ射影された中解像度画像において背景部分を拡大(高解像度化)することで、高解像度背景画像を生成する。生成された高解像度背景画像は、オブジェクト抽出部33に供給される。
 このような構成により、撮像装置21の撮像範囲に動きがある場合であっても、より小さい動きオブジェクトの抽出精度を向上させることができる。
 (変形例5)
 図20は、画像処理装置10の第5の変形例である画像処理装置10Eの機能構成例を示すブロック図である。
 図20の画像処理装置10Eは、オブジェクト抽出部33に代えて、オブジェクト抽出部251が設けられている点で、図1の画像処理装置10と異なる。
 オブジェクト抽出部251は、中解像度画像取得部32からの中解像度画像において、所定の色のオブジェクトを抽出する。オブジェクト抽出部251は、例えば図21に示されるように、中解像度画像において、HSV色空間のH(色相)が80乃至120の物体のみを抽出する。抽出されたオブジェクトを示す情報は、分類部34に供給される。
 このような構成により、高解像度画像において特定の色の小物体を追尾することができる。
 (変形例6)
 図22は、画像処理装置10の第6の変形例である画像処理装置10Fの機能構成例を示すブロック図である。
 図22の画像処理装置10Fは、オブジェクト抽出部33が設けられず、かつ、分類部34に代えて、分類部261が設けられている点で、図1の画像処理装置10と異なる。
 分類部261は、物体検出部40からの物体検出結果に基づいて、低解像度画像に含まれる物体を、例えばその大きさに基づいて分類する。分類部34は、分類された物体を示す情報を特定部35に供給する。特定部35からフィルタ処理部38までの処理は、低解像度画像において分類された物体について行われることになる。
 このような構成により、高解像度画像において比較的小さい物体を追尾することができる。
 (その他の変形例)
 上述した例では、認識部37は、動きオブジェクトの認識処理において、オブジェクト領域を二値分類するものとしたが、認識対象とする小物体の種類が複数ある場合には、オブジェクト領域を多値分類するようにしてもよい。これにより、例えば、航空機に加えて、鳥などの航空機以外の物体(生物)を検出することができる。
 また、認識部37は、例えば航空機の認識処理を行う際、航空機の色や、その機体に描かれた文字(社名やその略称)の認識処理を行うようにしてもよい。これにより、認識された航空機がどの航空会社の機体であるかが判別されるようになる。
 また、上述した例では、分類部34は、動きオブジェクトの大きさに基づいて、動きオブジェクトを分類するものとしたが、画像上の動きオブジェクトの位置や、動きオブジェクトの動きの速さに基づいて、動きオブジェクトをさらに分類するようにしてもよい。
 画像内の動きオブジェクトの位置に基づいて、動きオブジェクトを分類するようにした場合、例えば、空の領域の動きオブジェクトを分類することで、上空を飛行している航空機のみを検出することができる。また、舗装面の領域の動きオブジェクトを分類することで、地上(滑走路)を滑走している航空機のみを検出することができる。
 また、動きオブジェクトの動きの速さに基づいて、動きオブジェクトを分類するようにした場合、例えば、低速で移動している動きオブジェクトを分類することで、遠方の上空を飛行している航空機のみを検出することができる。動きオブジェクトの動きの速さは、例えば、連続する2フレームにおける動きオブジェクトの位置を比較して得られた距離を、2フレーム間の時間で除算することで求められる。また、動きオブジェクトの座標位置の移動を追跡し、時系列で等速に移動しているか否かに応じて、航空機が検出されるようにしてもよい。なお、追尾処理の画枠を超えるほど動きの速い動きオブジェクトは、追尾対象外とされてもよい。
<5.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図23は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 上述した画像処理装置10は、図23に示す構成を有するコンピュータにより実現される。
 CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
 バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア511を駆動するドライブ1010が接続される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
 CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
<6.応用例>
 以上においては、本開示に係る技術は、リモート管制塔のカメラシステムにより得られる画像において、遠方を飛行している航空機などのような小物体を追尾する構成に適用されるものとした。これ以外にも、本開示に係る技術は、ビルや工場、店舗、街中などを遠隔地で監視する遠隔監視装置により得られる画像において、遠方にいる人や小動物を追尾する構成に適用されてもよい。また、本開示に係る技術は、サッカーや野球などのスポーツの中継画像において、ボールを追尾する構成に適用されてもよい。
 さらに、本開示に係る技術は、様々な製品へ応用することができる。
 (手術室システムへの適用)
 例えば、本開示に係る技術は、手術室システムに適用されてもよい。
 図24は、本開示に係る技術が適用され得る手術室システム5100の全体構成を概略的に示す図である。図24を参照すると、手術室システム5100は、手術室内に設置される装置群が視聴覚コントローラ(AV Controller)5107及び手術室制御装置5109を介して互いに連携可能に接続されることにより構成される。
 手術室には、様々な装置が設置され得る。図24では、一例として、内視鏡下手術のための各種の装置群5101と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ5187と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ5189と、複数の表示装置5103A~5103Dと、レコーダ5105と、患者ベッド5183と、照明5191と、を図示している。
 ここで、これらの装置のうち、装置群5101は、後述する内視鏡手術システム5113に属するものであり、内視鏡や当該内視鏡によって撮像された画像を表示する表示装置等からなる。内視鏡手術システム5113に属する各装置は医療用機器とも呼称される。一方、表示装置5103A~5103D、レコーダ5105、患者ベッド5183及び照明5191は、内視鏡手術システム5113とは別個に、例えば手術室に備え付けられている装置である。これらの内視鏡手術システム5113に属さない各装置は非医療用機器とも呼称される。視聴覚コントローラ5107及び/又は手術室制御装置5109は、これら医療機器及び非医療機器の動作を互いに連携して制御する。
 視聴覚コントローラ5107は、医療機器及び非医療機器における画像表示に関する処理を、統括的に制御する。具体的には、手術室システム5100が備える装置のうち、装置群5101、シーリングカメラ5187及び術場カメラ5189は、手術中に表示すべき情報(以下、表示情報ともいう)を発信する機能を有する装置(以下、発信元の装置とも呼称する)であり得る。また、表示装置5103A~5103Dは、表示情報が出力される装置(以下、出力先の装置とも呼称する)であり得る。また、レコーダ5105は、発信元の装置及び出力先の装置の双方に該当する装置であり得る。視聴覚コントローラ5107は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報とは、手術中に撮像された各種の画像や、手術に関する各種の情報(例えば、患者の身体情報や、過去の検査結果、術式についての情報等)等である。
 具体的には、視聴覚コントローラ5107には、装置群5101から、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信され得る。また、シーリングカメラ5187から、表示情報として、当該シーリングカメラ5187によって撮像された術者の手元の画像についての情報が送信され得る。また、術場カメラ5189から、表示情報として、当該術場カメラ5189によって撮像された手術室全体の様子を示す画像についての情報が送信され得る。なお、手術室システム5100に撮像機能を有する他の装置が存在する場合には、視聴覚コントローラ5107は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。
 あるいは、例えば、レコーダ5105には、過去に撮像されたこれらの画像についての情報が視聴覚コントローラ5107によって記録されている。視聴覚コントローラ5107は、表示情報として、レコーダ5105から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ5105には、手術に関する各種の情報も事前に記録されていてもよい。
 視聴覚コントローラ5107は、出力先の装置である表示装置5103A~5103Dの少なくともいずれかに、取得した表示情報(すなわち、手術中に撮影された画像や、手術に関する各種の情報)を表示させる。図示する例では、表示装置5103Aは手術室の天井から吊り下げられて設置される表示装置であり、表示装置5103Bは手術室の壁面に設置される表示装置であり、表示装置5103Cは手術室内の机上に設置される表示装置であり、表示装置5103Dは表示機能を有するモバイル機器(例えば、タブレットPC(Personal Computer))である。
 また、図24では図示を省略しているが、手術室システム5100には、手術室の外部の装置が含まれてもよい。手術室の外部の装置は、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが用いるPC、病院の会議室に設置されるプロジェクタ等であり得る。このような外部装置が病院外にある場合には、視聴覚コントローラ5107は、遠隔医療のために、テレビ会議システム等を介して、他の病院の表示装置に表示情報を表示させることもできる。
 手術室制御装置5109は、非医療機器における画像表示に関する処理以外の処理を、統括的に制御する。例えば、手術室制御装置5109は、患者ベッド5183、シーリングカメラ5187、術場カメラ5189及び照明5191の駆動を制御する。
 手術室システム5100には、集中操作パネル5111が設けられており、ユーザは、当該集中操作パネル5111を介して、視聴覚コントローラ5107に対して画像表示についての指示を与えたり、手術室制御装置5109に対して非医療機器の動作についての指示を与えることができる。集中操作パネル5111は、表示装置の表示面上にタッチパネルが設けられて構成される。
 図25は、集中操作パネル5111における操作画面の表示例を示す図である。図25では、一例として、手術室システム5100に、出力先の装置として、2つの表示装置が設けられている場合に対応する操作画面を示している。図25を参照すると、操作画面5193には、発信元選択領域5195と、プレビュー領域5197と、コントロール領域5201と、が設けられる。
 発信元選択領域5195には、手術室システム5100に備えられる発信元装置と、当該発信元装置が有する表示情報を表すサムネイル画面と、が紐付けられて表示される。ユーザは、表示装置に表示させたい表示情報を、発信元選択領域5195に表示されているいずれかの発信元装置から選択することができる。
 プレビュー領域5197には、出力先の装置である2つの表示装置(Monitor1、Monitor2)に表示される画面のプレビューが表示される。図示する例では、1つの表示装置において4つの画像がPinP表示されている。当該4つの画像は、発信元選択領域5195において選択された発信元装置から発信された表示情報に対応するものである。4つの画像のうち、1つはメイン画像として比較的大きく表示され、残りの3つはサブ画像として比較的小さく表示される。ユーザは、4つの画像が表示された領域を適宜選択することにより、メイン画像とサブ画像を入れ替えることができる。また、4つの画像が表示される領域の下部には、ステータス表示領域5199が設けられており、当該領域に手術に関するステータス(例えば、手術の経過時間や、患者の身体情報等)が適宜表示され得る。
 コントロール領域5201には、発信元の装置に対して操作を行うためのGUI(Graphical User Interface)部品が表示される発信元操作領域5203と、出力先の装置に対して操作を行うためのGUI部品が表示される出力先操作領域5205と、が設けられる。図示する例では、発信元操作領域5203には、撮像機能を有する発信元の装置におけるカメラに対して各種の操作(パン、チルト及びズーム)を行うためのGUI部品が設けられている。ユーザは、これらのGUI部品を適宜選択することにより、発信元の装置におけるカメラの動作を操作することができる。なお、図示は省略しているが、発信元選択領域5195において選択されている発信元の装置がレコーダである場合(すなわち、プレビュー領域5197において、レコーダに過去に記録された画像が表示されている場合)には、発信元操作領域5203には、当該画像の再生、再生停止、巻き戻し、早送り等の操作を行うためのGUI部品が設けられ得る。
 また、出力先操作領域5205には、出力先の装置である表示装置における表示に対する各種の操作(スワップ、フリップ、色調整、コントラスト調整、2D表示と3D表示の切り替え)を行うためのGUI部品が設けられている。ユーザは、これらのGUI部品を適宜選択することにより、表示装置における表示を操作することができる。
 なお、集中操作パネル5111に表示される操作画面は図示する例に限定されず、ユーザは、集中操作パネル5111を介して、手術室システム5100に備えられる、視聴覚コントローラ5107及び手術室制御装置5109によって制御され得る各装置に対する操作入力が可能であってよい。
 図26は、以上説明した手術室システムが適用された手術の様子の一例を示す図である。シーリングカメラ5187及び術場カメラ5189は、手術室の天井に設けられ、患者ベッド5183上の患者5185の患部に対して処置を行う術者(医者)5181の手元及び手術室全体の様子を撮影可能である。シーリングカメラ5187及び術場カメラ5189には、倍率調整機能、焦点距離調整機能、撮影方向調整機能等が設けられ得る。照明5191は、手術室の天井に設けられ、少なくとも術者5181の手元を照射する。照明5191は、その照射光量、照射光の波長(色)及び光の照射方向等を適宜調整可能であってよい。
 内視鏡手術システム5113、患者ベッド5183、シーリングカメラ5187、術場カメラ5189及び照明5191は、図24に示すように、視聴覚コントローラ5107及び手術室制御装置5109(図26では図示せず)を介して互いに連携可能に接続されている。手術室内には、集中操作パネル5111が設けられており、上述したように、ユーザは、当該集中操作パネル5111を介して、手術室内に存在するこれらの装置を適宜操作することが可能である。
 以下、内視鏡手術システム5113の構成について詳細に説明する。図示するように、内視鏡手術システム5113は、内視鏡5115と、その他の術具5131と、内視鏡5115を支持する支持アーム装置5141と、内視鏡下手術のための各種の装置が搭載されたカート5151と、から構成される。
 内視鏡手術では、腹壁を切って開腹する代わりに、トロッカ5139a~5139dと呼ばれる筒状の開孔器具が腹壁に複数穿刺される。そして、トロッカ5139a~5139dから、内視鏡5115の鏡筒5117や、その他の術具5131が患者5185の体腔内に挿入される。図示する例では、その他の術具5131として、気腹チューブ5133、エネルギー処置具5135及び鉗子5137が、患者5185の体腔内に挿入されている。また、エネルギー処置具5135は、高周波電流や超音波振動により、組織の切開及び剥離、又は血管の封止等を行う処置具である。ただし、図示する術具5131はあくまで一例であり、術具5131としては、例えば攝子、レトラクタ等、一般的に内視鏡下手術において用いられる各種の術具が用いられてよい。
 内視鏡5115によって撮影された患者5185の体腔内の術部の画像が、表示装置5155に表示される。術者5181は、表示装置5155に表示された術部の画像をリアルタイムで見ながら、エネルギー処置具5135や鉗子5137を用いて、例えば患部を切除する等の処置を行う。なお、図示は省略しているが、気腹チューブ5133、エネルギー処置具5135及び鉗子5137は、手術中に、術者5181又は助手等によって支持される。
 (支持アーム装置)
 支持アーム装置5141は、ベース部5143から延伸するアーム部5145を備える。図示する例では、アーム部5145は、関節部5147a、5147b、5147c、及びリンク5149a、5149bから構成されており、アーム制御装置5159からの制御により駆動される。アーム部5145によって内視鏡5115が支持され、その位置及び姿勢が制御される。これにより、内視鏡5115の安定的な位置の固定が実現され得る。
 (内視鏡)
 内視鏡5115は、先端から所定の長さの領域が患者5185の体腔内に挿入される鏡筒5117と、鏡筒5117の基端に接続されるカメラヘッド5119と、から構成される。図示する例では、硬性の鏡筒5117を有するいわゆる硬性鏡として構成される内視鏡5115を図示しているが、内視鏡5115は、軟性の鏡筒5117を有するいわゆる軟性鏡として構成されてもよい。
 鏡筒5117の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡5115には光源装置5157が接続されており、当該光源装置5157によって生成された光が、鏡筒5117の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者5185の体腔内の観察対象に向かって照射される。なお、内視鏡5115は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。
 カメラヘッド5119の内部には光学系及び撮像素子が設けられており、観察対象からの反射光(観察光)は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、RAWデータとしてカメラコントロールユニット(CCU:Camera Control Unit)5153に送信される。なお、カメラヘッド5119には、その光学系を適宜駆動させることにより、倍率及び焦点距離を調整する機能が搭載される。
 なお、例えば立体視(3D表示)等に対応するために、カメラヘッド5119には撮像素子が複数設けられてもよい。この場合、鏡筒5117の内部には、当該複数の撮像素子のそれぞれに観察光を導光するために、リレー光学系が複数系統設けられる。
 (カートに搭載される各種の装置)
 CCU5153は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等によって構成され、内視鏡5115及び表示装置5155の動作を統括的に制御する。具体的には、CCU5153は、カメラヘッド5119から受け取った画像信号に対して、例えば現像処理(デモザイク処理)等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。CCU5153は、当該画像処理を施した画像信号を表示装置5155に提供する。また、CCU5153には、図24に示す視聴覚コントローラ5107が接続される。CCU5153は、画像処理を施した画像信号を視聴覚コントローラ5107にも提供する。また、CCU5153は、カメラヘッド5119に対して制御信号を送信し、その駆動を制御する。当該制御信号には、倍率や焦点距離等、撮像条件に関する情報が含まれ得る。当該撮像条件に関する情報は、入力装置5161を介して入力されてもよいし、上述した集中操作パネル5111を介して入力されてもよい。
 表示装置5155は、CCU5153からの制御により、当該CCU5153によって画像処理が施された画像信号に基づく画像を表示する。内視鏡5115が例えば4K(水平画素数3840×垂直画素数2160)又は8K(水平画素数7680×垂直画素数4320)等の高解像度の撮影に対応したものである場合、及び/又は3D表示に対応したものである場合には、表示装置5155としては、それぞれに対応して、高解像度の表示が可能なもの、及び/又は3D表示可能なものが用いられ得る。4K又は8K等の高解像度の撮影に対応したものである場合、表示装置5155として55インチ以上のサイズのものを用いることで一層の没入感が得られる。また、用途に応じて、解像度、サイズが異なる複数の表示装置5155が設けられてもよい。
 光源装置5157は、例えばLED(light emitting diode)等の光源から構成され、術部を撮影する際の照射光を内視鏡5115に供給する。
 アーム制御装置5159は、例えばCPU等のプロセッサによって構成され、所定のプログラムに従って動作することにより、所定の制御方式に従って支持アーム装置5141のアーム部5145の駆動を制御する。
 入力装置5161は、内視鏡手術システム5113に対する入力インタフェースである。ユーザは、入力装置5161を介して、内視鏡手術システム5113に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、入力装置5161を介して、患者の身体情報や、手術の術式についての情報等、手術に関する各種の情報を入力する。また、例えば、ユーザは、入力装置5161を介して、アーム部5145を駆動させる旨の指示や、内視鏡5115による撮像条件(照射光の種類、倍率及び焦点距離等)を変更する旨の指示、エネルギー処置具5135を駆動させる旨の指示等を入力する。
 入力装置5161の種類は限定されず、入力装置5161は各種の公知の入力装置であってよい。入力装置5161としては、例えば、マウス、キーボード、タッチパネル、スイッチ、フットスイッチ5171及び/又はレバー等が適用され得る。入力装置5161としてタッチパネルが用いられる場合には、当該タッチパネルは表示装置5155の表示面上に設けられてもよい。
 あるいは、入力装置5161は、例えばメガネ型のウェアラブルデバイスやHMD(Head Mounted Display)等の、ユーザによって装着されるデバイスであり、これらのデバイスによって検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。また、入力装置5161は、ユーザの動きを検出可能なカメラを含み、当該カメラによって撮像された映像から検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。更に、入力装置5161は、ユーザの声を収音可能なマイクロフォンを含み、当該マイクロフォンを介して音声によって各種の入力が行われる。このように、入力装置5161が非接触で各種の情報を入力可能に構成されることにより、特に清潔域に属するユーザ(例えば術者5181)が、不潔域に属する機器を非接触で操作することが可能となる。また、ユーザは、所持している術具から手を離すことなく機器を操作することが可能となるため、ユーザの利便性が向上する。
 処置具制御装置5163は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具5135の駆動を制御する。気腹装置5165は、内視鏡5115による視野の確保及び術者の作業空間の確保の目的で、患者5185の体腔を膨らめるために、気腹チューブ5133を介して当該体腔内にガスを送り込む。レコーダ5167は、手術に関する各種の情報を記録可能な装置である。プリンタ5169は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。
 以下、内視鏡手術システム5113において特に特徴的な構成について、更に詳細に説明する。
 (支持アーム装置)
 支持アーム装置5141は、基台であるベース部5143と、ベース部5143から延伸するアーム部5145と、を備える。図示する例では、アーム部5145は、複数の関節部5147a、5147b、5147cと、関節部5147bによって連結される複数のリンク5149a、5149bと、から構成されているが、図26では、簡単のため、アーム部5145の構成を簡略化して図示している。実際には、アーム部5145が所望の自由度を有するように、関節部5147a~5147c及びリンク5149a、5149bの形状、数及び配置、並びに関節部5147a~5147cの回転軸の方向等が適宜設定され得る。例えば、アーム部5145は、好適に、6自由度以上の自由度を有するように構成され得る。これにより、アーム部5145の可動範囲内において内視鏡5115を自由に移動させることが可能になるため、所望の方向から内視鏡5115の鏡筒5117を患者5185の体腔内に挿入することが可能になる。
 関節部5147a~5147cにはアクチュエータが設けられており、関節部5147a~5147cは当該アクチュエータの駆動により所定の回転軸まわりに回転可能に構成されている。当該アクチュエータの駆動がアーム制御装置5159によって制御されることにより、各関節部5147a~5147cの回転角度が制御され、アーム部5145の駆動が制御される。これにより、内視鏡5115の位置及び姿勢の制御が実現され得る。この際、アーム制御装置5159は、力制御又は位置制御等、各種の公知の制御方式によってアーム部5145の駆動を制御することができる。
 例えば、術者5181が、入力装置5161(フットスイッチ5171を含む)を介して適宜操作入力を行うことにより、当該操作入力に応じてアーム制御装置5159によってアーム部5145の駆動が適宜制御され、内視鏡5115の位置及び姿勢が制御されてよい。当該制御により、アーム部5145の先端の内視鏡5115を任意の位置から任意の位置まで移動させた後、その移動後の位置で固定的に支持することができる。なお、アーム部5145は、いわゆるマスタースレイブ方式で操作されてもよい。この場合、アーム部5145は、手術室から離れた場所に設置される入力装置5161を介してユーザによって遠隔操作され得る。
 また、力制御が適用される場合には、アーム制御装置5159は、ユーザからの外力を受け、その外力にならってスムーズにアーム部5145が移動するように、各関節部5147a~5147cのアクチュエータを駆動させる、いわゆるパワーアシスト制御を行ってもよい。これにより、ユーザが直接アーム部5145に触れながらアーム部5145を移動させる際に、比較的軽い力で当該アーム部5145を移動させることができる。従って、より直感的に、より簡易な操作で内視鏡5115を移動させることが可能となり、ユーザの利便性を向上させることができる。
 ここで、一般的に、内視鏡下手術では、スコピストと呼ばれる医師によって内視鏡5115が支持されていた。これに対して、支持アーム装置5141を用いることにより、人手によらずに内視鏡5115の位置をより確実に固定することが可能になるため、術部の画像を安定的に得ることができ、手術を円滑に行うことが可能になる。
 なお、アーム制御装置5159は必ずしもカート5151に設けられなくてもよい。また、アーム制御装置5159は必ずしも1つの装置でなくてもよい。例えば、アーム制御装置5159は、支持アーム装置5141のアーム部5145の各関節部5147a~5147cにそれぞれ設けられてもよく、複数のアーム制御装置5159が互いに協働することにより、アーム部5145の駆動制御が実現されてもよい。
 (光源装置)
 光源装置5157は、内視鏡5115に術部を撮影する際の照射光を供給する。光源装置5157は、例えばLED、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成される。このとき、RGBレーザ光源の組み合わせにより白色光源が構成される場合には、各色(各波長)の出力強度及び出力タイミングを高精度に制御することができるため、光源装置5157において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、RGBレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド5119の撮像素子の駆動を制御することにより、RGBそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。
 また、光源装置5157は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド5119の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。
 また、光源装置5157は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光(すなわち、白色光)に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察(Narrow Band Imaging)が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察するもの(自家蛍光観察)、又はインドシアニングリーン(ICG)等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得るもの等が行われ得る。光源装置5157は、このような特殊光観察に対応した狭帯域光及び/又は励起光を供給可能に構成され得る。
 (カメラヘッド及びCCU)
 図27を参照して、内視鏡5115のカメラヘッド5119及びCCU5153の機能についてより詳細に説明する。図27は、図26に示すカメラヘッド5119及びCCU5153の機能構成の一例を示すブロック図である。
 図27を参照すると、カメラヘッド5119は、その機能として、レンズユニット5121と、撮像部5123と、駆動部5125と、通信部5127と、カメラヘッド制御部5129と、を有する。また、CCU5153は、その機能として、通信部5173と、画像処理部5175と、制御部5177と、を有する。カメラヘッド5119とCCU5153とは、伝送ケーブル5179によって双方向に通信可能に接続されている。
 まず、カメラヘッド5119の機能構成について説明する。レンズユニット5121は、鏡筒5117との接続部に設けられる光学系である。鏡筒5117の先端から取り込まれた観察光は、カメラヘッド5119まで導光され、当該レンズユニット5121に入射する。レンズユニット5121は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。レンズユニット5121は、撮像部5123の撮像素子の受光面上に観察光を集光するように、その光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のため、その光軸上の位置が移動可能に構成される。
 撮像部5123は撮像素子によって構成され、レンズユニット5121の後段に配置される。レンズユニット5121を通過した観察光は、当該撮像素子の受光面に集光され、光電変換によって、観察像に対応した画像信号が生成される。撮像部5123によって生成された画像信号は、通信部5127に提供される。
 撮像部5123を構成する撮像素子としては、例えばCMOS(Complementary Metal Oxide Semiconductor)タイプのイメージセンサであり、Bayer配列を有するカラー撮影可能なものが用いられる。なお、当該撮像素子としては、例えば4K以上の高解像度の画像の撮影に対応可能なものが用いられてもよい。術部の画像が高解像度で得られることにより、術者5181は、当該術部の様子をより詳細に把握することができ、手術をより円滑に進行することが可能となる。
 また、撮像部5123を構成する撮像素子は、3D表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための1対の撮像素子を有するように構成される。3D表示が行われることにより、術者5181は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部5123が多板式で構成される場合には、各撮像素子に対応して、レンズユニット5121も複数系統設けられる。
 また、撮像部5123は、必ずしもカメラヘッド5119に設けられなくてもよい。例えば、撮像部5123は、鏡筒5117の内部に、対物レンズの直後に設けられてもよい。
 駆動部5125は、アクチュエータによって構成され、カメラヘッド制御部5129からの制御により、レンズユニット5121のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部5123による撮像画像の倍率及び焦点が適宜調整され得る。
 通信部5127は、CCU5153との間で各種の情報を送受信するための通信装置によって構成される。通信部5127は、撮像部5123から得た画像信号をRAWデータとして伝送ケーブル5179を介してCCU5153に送信する。この際、術部の撮像画像を低レイテンシで表示するために、当該画像信号は光通信によって送信されることが好ましい。手術の際には、術者5181が撮像画像によって患部の状態を観察しながら手術を行うため、より安全で確実な手術のためには、術部の動画像が可能な限りリアルタイムに表示されることが求められるからである。光通信が行われる場合には、通信部5127には、電気信号を光信号に変換する光電変換モジュールが設けられる。画像信号は当該光電変換モジュールによって光信号に変換された後、伝送ケーブル5179を介してCCU5153に送信される。
 また、通信部5127は、CCU5153から、カメラヘッド5119の駆動を制御するための制御信号を受信する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに/又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。通信部5127は、受信した制御信号をカメラヘッド制御部5129に提供する。なお、CCU5153からの制御信号も、光通信によって伝送されてもよい。この場合、通信部5127には、光信号を電気信号に変換する光電変換モジュールが設けられ、制御信号は当該光電変換モジュールによって電気信号に変換された後、カメラヘッド制御部5129に提供される。
 なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、取得された画像信号に基づいてCCU5153の制御部5177によって自動的に設定される。つまり、いわゆるAE(Auto Exposure)機能、AF(Auto Focus)機能及びAWB(Auto White Balance)機能が内視鏡5115に搭載される。
 カメラヘッド制御部5129は、通信部5127を介して受信したCCU5153からの制御信号に基づいて、カメラヘッド5119の駆動を制御する。例えば、カメラヘッド制御部5129は、撮像画像のフレームレートを指定する旨の情報及び/又は撮像時の露光を指定する旨の情報に基づいて、撮像部5123の撮像素子の駆動を制御する。また、例えば、カメラヘッド制御部5129は、撮像画像の倍率及び焦点を指定する旨の情報に基づいて、駆動部5125を介してレンズユニット5121のズームレンズ及びフォーカスレンズを適宜移動させる。カメラヘッド制御部5129は、更に、鏡筒5117やカメラヘッド5119を識別するための情報を記憶する機能を備えてもよい。
 なお、レンズユニット5121や撮像部5123等の構成を、気密性及び防水性が高い密閉構造内に配置することで、カメラヘッド5119について、オートクレーブ滅菌処理に対する耐性を持たせることができる。
 次に、CCU5153の機能構成について説明する。通信部5173は、カメラヘッド5119との間で各種の情報を送受信するための通信装置によって構成される。通信部5173は、カメラヘッド5119から、伝送ケーブル5179を介して送信される画像信号を受信する。この際、上記のように、当該画像信号は好適に光通信によって送信され得る。この場合、光通信に対応して、通信部5173には、光信号を電気信号に変換する光電変換モジュールが設けられる。通信部5173は、電気信号に変換した画像信号を画像処理部5175に提供する。
 また、通信部5173は、カメラヘッド5119に対して、カメラヘッド5119の駆動を制御するための制御信号を送信する。当該制御信号も光通信によって送信されてよい。
 画像処理部5175は、カメラヘッド5119から送信されたRAWデータである画像信号に対して各種の画像処理を施す。当該画像処理としては、例えば現像処理、高画質化処理(帯域強調処理、超解像処理、NR(Noise reduction)処理及び/又は手ブレ補正処理等)、並びに/又は拡大処理(電子ズーム処理)等、各種の公知の信号処理が含まれる。また、画像処理部5175は、AE、AF及びAWBを行うための、画像信号に対する検波処理を行う。
 画像処理部5175は、CPUやGPU等のプロセッサによって構成され、当該プロセッサが所定のプログラムに従って動作することにより、上述した画像処理や検波処理が行われ得る。なお、画像処理部5175が複数のGPUによって構成される場合には、画像処理部5175は、画像信号に係る情報を適宜分割し、これら複数のGPUによって並列的に画像処理を行う。
 制御部5177は、内視鏡5115による術部の撮像、及びその撮像画像の表示に関する各種の制御を行う。例えば、制御部5177は、カメラヘッド5119の駆動を制御するための制御信号を生成する。この際、撮像条件がユーザによって入力されている場合には、制御部5177は、当該ユーザによる入力に基づいて制御信号を生成する。あるいは、内視鏡5115にAE機能、AF機能及びAWB機能が搭載されている場合には、制御部5177は、画像処理部5175による検波処理の結果に応じて、最適な露出値、焦点距離及びホワイトバランスを適宜算出し、制御信号を生成する。
 また、制御部5177は、画像処理部5175によって画像処理が施された画像信号に基づいて、術部の画像を表示装置5155に表示させる。この際、制御部5177は、各種の画像認識技術を用いて術部画像内における各種の物体を認識する。例えば、制御部5177は、術部画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具5135使用時のミスト等を認識することができる。制御部5177は、表示装置5155に術部の画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させる。手術支援情報が重畳表示され、術者5181に提示されることにより、より安全かつ確実に手術を進めることが可能になる。
 カメラヘッド5119及びCCU5153を接続する伝送ケーブル5179は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。
 ここで、図示する例では、伝送ケーブル5179を用いて有線で通信が行われていたが、カメラヘッド5119とCCU5153との間の通信は無線で行われてもよい。両者の間の通信が無線で行われる場合には、伝送ケーブル5179を手術室内に敷設する必要がなくなるため、手術室内における医療スタッフの移動が当該伝送ケーブル5179によって妨げられる事態が解消され得る。
 以上、本開示に係る技術が適用され得る手術室システム5100の一例について説明した。なお、ここでは、一例として手術室システム5100が適用される医療用システムが内視鏡手術システム5113である場合について説明したが、手術室システム5100の構成はかかる例に限定されない。例えば、手術室システム5100は、内視鏡手術システム5113に代えて、検査用軟性内視鏡システムや顕微鏡手術システムに適用されてもよい。
 本開示に係る技術は、上述した構成のうち、制御部5177に適用することができる。制御部5177に本開示に係る技術を適用することにより、術部画像に含まれる術部の微細な血管や、微小な出血点を認識することができる。制御部5177は、表示装置5155に術部画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を術部画像に重畳表示させる。手術支援情報が重畳表示され、術者5181に提示されることにより、より安全かつ確実に手術を進めることが可能になる。
 (移動体制御システムへの適用)
 本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット、建設機械、農業機械(トラクター)などのいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図28は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システム7000の概略的な構成例を示すブロック図である。車両制御システム7000は、通信ネットワーク7010を介して接続された複数の電子制御ユニットを備える。図28に示した例では、車両制御システム7000は、駆動系制御ユニット7100、ボディ系制御ユニット7200、バッテリ制御ユニット7300、車外情報検出ユニット7400、車内情報検出ユニット7500、及び統合制御ユニット7600を備える。これらの複数の制御ユニットを接続する通信ネットワーク7010は、例えば、CAN(Controller Area Network)、LIN(Local Interconnect Network)、LAN(Local Area Network)又はFlexRay(登録商標)等の任意の規格に準拠した車載通信ネットワークであってよい。
 各制御ユニットは、各種プログラムにしたがって演算処理を行うマイクロコンピュータと、マイクロコンピュータにより実行されるプログラム又は各種演算に用いられるパラメータ等を記憶する記憶部と、各種制御対象の装置を駆動する駆動回路とを備える。各制御ユニットは、通信ネットワーク7010を介して他の制御ユニットとの間で通信を行うためのネットワークI/Fを備えるとともに、車内外の装置又はセンサ等との間で、有線通信又は無線通信により通信を行うための通信I/Fを備える。図28では、統合制御ユニット7600の機能構成として、マイクロコンピュータ7610、汎用通信I/F7620、専用通信I/F7630、測位部7640、ビーコン受信部7650、車内機器I/F7660、音声画像出力部7670、車載ネットワークI/F7680及び記憶部7690が図示されている。他の制御ユニットも同様に、マイクロコンピュータ、通信I/F及び記憶部等を備える。
 駆動系制御ユニット7100は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット7100は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。駆動系制御ユニット7100は、ABS(Antilock Brake System)又はESC(Electronic Stability Control)等の制御装置としての機能を有してもよい。
 駆動系制御ユニット7100には、車両状態検出部7110が接続される。車両状態検出部7110には、例えば、車体の軸回転運動の角速度を検出するジャイロセンサ、車両の加速度を検出する加速度センサ、あるいは、アクセルペダルの操作量、ブレーキペダルの操作量、ステアリングホイールの操舵角、エンジン回転数又は車輪の回転速度等を検出するためのセンサのうちの少なくとも一つが含まれる。駆動系制御ユニット7100は、車両状態検出部7110から入力される信号を用いて演算処理を行い、内燃機関、駆動用モータ、電動パワーステアリング装置又はブレーキ装置等を制御する。
 ボディ系制御ユニット7200は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット7200は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット7200には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット7200は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 バッテリ制御ユニット7300は、各種プログラムにしたがって駆動用モータの電力供給源である二次電池7310を制御する。例えば、バッテリ制御ユニット7300には、二次電池7310を備えたバッテリ装置から、バッテリ温度、バッテリ出力電圧又はバッテリの残存容量等の情報が入力される。バッテリ制御ユニット7300は、これらの信号を用いて演算処理を行い、二次電池7310の温度調節制御又はバッテリ装置に備えられた冷却装置等の制御を行う。
 車外情報検出ユニット7400は、車両制御システム7000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット7400には、撮像部7410及び車外情報検出部7420のうちの少なくとも一方が接続される。撮像部7410には、ToF(Time Of Flight)カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ及びその他のカメラのうちの少なくとも一つが含まれる。車外情報検出部7420には、例えば、現在の天候又は気象を検出するための環境センサ、あるいは、車両制御システム7000を搭載した車両の周囲の他の車両、障害物又は歩行者等を検出するための周囲情報検出センサのうちの少なくとも一つが含まれる。
 環境センサは、例えば、雨天を検出する雨滴センサ、霧を検出する霧センサ、日照度合いを検出する日照センサ、及び降雪を検出する雪センサのうちの少なくとも一つであってよい。周囲情報検出センサは、超音波センサ、レーダ装置及びLIDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)装置のうちの少なくとも一つであってよい。これらの撮像部7410及び車外情報検出部7420は、それぞれ独立したセンサないし装置として備えられてもよいし、複数のセンサないし装置が統合された装置として備えられてもよい。
 ここで、図29は、撮像部7410及び車外情報検出部7420の設置位置の例を示す。撮像部7910,7912,7914,7916,7918は、例えば、車両7900のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部のうちの少なくとも一つの位置に設けられる。フロントノーズに備えられる撮像部7910及び車室内のフロントガラスの上部に備えられる撮像部7918は、主として車両7900の前方の画像を取得する。サイドミラーに備えられる撮像部7912,7914は、主として車両7900の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部7916は、主として車両7900の後方の画像を取得する。車室内のフロントガラスの上部に備えられる撮像部7918は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図29には、それぞれの撮像部7910,7912,7914,7916の撮影範囲の一例が示されている。撮像範囲aは、フロントノーズに設けられた撮像部7910の撮像範囲を示し、撮像範囲b,cは、それぞれサイドミラーに設けられた撮像部7912,7914の撮像範囲を示し、撮像範囲dは、リアバンパ又はバックドアに設けられた撮像部7916の撮像範囲を示す。例えば、撮像部7910,7912,7914,7916で撮像された画像データが重ね合わせられることにより、車両7900を上方から見た俯瞰画像が得られる。
 車両7900のフロント、リア、サイド、コーナ及び車室内のフロントガラスの上部に設けられる車外情報検出部7920,7922,7924,7926,7928,7930は、例えば超音波センサ又はレーダ装置であってよい。車両7900のフロントノーズ、リアバンパ、バックドア及び車室内のフロントガラスの上部に設けられる車外情報検出部7920,7926,7930は、例えばLIDAR装置であってよい。これらの車外情報検出部7920~7930は、主として先行車両、歩行者又は障害物等の検出に用いられる。
 図28に戻って説明を続ける。車外情報検出ユニット7400は、撮像部7410に車外の画像を撮像させるとともに、撮像された画像データを受信する。また、車外情報検出ユニット7400は、接続されている車外情報検出部7420から検出情報を受信する。車外情報検出部7420が超音波センサ、レーダ装置又はLIDAR装置である場合には、車外情報検出ユニット7400は、超音波又は電磁波等を発信させるとともに、受信された反射波の情報を受信する。車外情報検出ユニット7400は、受信した情報に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。車外情報検出ユニット7400は、受信した情報に基づいて、降雨、霧又は路面状況等を認識する環境認識処理を行ってもよい。車外情報検出ユニット7400は、受信した情報に基づいて、車外の物体までの距離を算出してもよい。
 また、車外情報検出ユニット7400は、受信した画像データに基づいて、人、車、障害物、標識又は路面上の文字等を認識する画像認識処理又は距離検出処理を行ってもよい。車外情報検出ユニット7400は、受信した画像データに対して歪補正又は位置合わせ等の処理を行うとともに、異なる撮像部7410により撮像された画像データを合成して、俯瞰画像又はパノラマ画像を生成してもよい。車外情報検出ユニット7400は、異なる撮像部7410により撮像された画像データを用いて、視点変換処理を行ってもよい。
 車内情報検出ユニット7500は、車内の情報を検出する。車内情報検出ユニット7500には、例えば、運転者の状態を検出する運転者状態検出部7510が接続される。運転者状態検出部7510は、運転者を撮像するカメラ、運転者の生体情報を検出する生体センサ又は車室内の音声を集音するマイク等を含んでもよい。生体センサは、例えば、座面又はステアリングホイール等に設けられ、座席に座った搭乗者又はステアリングホイールを握る運転者の生体情報を検出する。車内情報検出ユニット7500は、運転者状態検出部7510から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。車内情報検出ユニット7500は、集音された音声信号に対してノイズキャンセリング処理等の処理を行ってもよい。
 統合制御ユニット7600は、各種プログラムにしたがって車両制御システム7000内の動作全般を制御する。統合制御ユニット7600には、入力部7800が接続されている。入力部7800は、例えば、タッチパネル、ボタン、マイクロフォン、スイッチ又はレバー等、搭乗者によって入力操作され得る装置によって実現される。統合制御ユニット7600には、マイクロフォンにより入力される音声を音声認識することにより得たデータが入力されてもよい。入力部7800は、例えば、赤外線又はその他の電波を利用したリモートコントロール装置であってもよいし、車両制御システム7000の操作に対応した携帯電話又はPDA(Personal Digital Assistant)等の外部接続機器であってもよい。入力部7800は、例えばカメラであってもよく、その場合搭乗者はジェスチャにより情報を入力することができる。あるいは、搭乗者が装着したウェアラブル装置の動きを検出することで得られたデータが入力されてもよい。さらに、入力部7800は、例えば、上記の入力部7800を用いて搭乗者等により入力された情報に基づいて入力信号を生成し、統合制御ユニット7600に出力する入力制御回路などを含んでもよい。搭乗者等は、この入力部7800を操作することにより、車両制御システム7000に対して各種のデータを入力したり処理動作を指示したりする。
 記憶部7690は、マイクロコンピュータにより実行される各種プログラムを記憶するROM(Read Only Memory)、及び各種パラメータ、演算結果又はセンサ値等を記憶するRAM(Random Access Memory)を含んでいてもよい。また、記憶部7690は、HDD(Hard Disc Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等によって実現してもよい。
 汎用通信I/F7620は、外部環境7750に存在する様々な機器との間の通信を仲介する汎用的な通信I/Fである。汎用通信I/F7620は、GSM(登録商標)(Global System of Mobile communications)、WiMAX(登録商標)、LTE(登録商標)(Long Term Evolution)若しくはLTE-A(LTE-Advanced)などのセルラー通信プロトコル、又は無線LAN(Wi-Fi(登録商標)ともいう)、Bluetooth(登録商標)などのその他の無線通信プロトコルを実装してよい。汎用通信I/F7620は、例えば、基地局又はアクセスポイントを介して、外部ネットワーク(例えば、インターネット、クラウドネットワーク又は事業者固有のネットワーク)上に存在する機器(例えば、アプリケーションサーバ又は制御サーバ)へ接続してもよい。また、汎用通信I/F7620は、例えばP2P(Peer To Peer)技術を用いて、車両の近傍に存在する端末(例えば、運転者、歩行者若しくは店舗の端末、又はMTC(Machine Type Communication)端末)と接続してもよい。
 専用通信I/F7630は、車両における使用を目的として策定された通信プロトコルをサポートする通信I/Fである。専用通信I/F7630は、例えば、下位レイヤのIEEE802.11pと上位レイヤのIEEE1609との組合せであるWAVE(Wireless Access in Vehicle Environment)、DSRC(Dedicated Short Range Communications)、又はセルラー通信プロトコルといった標準プロトコルを実装してよい。専用通信I/F7630は、典型的には、車車間(Vehicle to Vehicle)通信、路車間(Vehicle to Infrastructure)通信、車両と家との間(Vehicle to Home)の通信及び歩車間(Vehicle to Pedestrian)通信のうちの1つ以上を含む概念であるV2X通信を遂行する。
 測位部7640は、例えば、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して測位を実行し、車両の緯度、経度及び高度を含む位置情報を生成する。なお、測位部7640は、無線アクセスポイントとの信号の交換により現在位置を特定してもよく、又は測位機能を有する携帯電話、PHS若しくはスマートフォンといった端末から位置情報を取得してもよい。
 ビーコン受信部7650は、例えば、道路上に設置された無線局等から発信される電波あるいは電磁波を受信し、現在位置、渋滞、通行止め又は所要時間等の情報を取得する。なお、ビーコン受信部7650の機能は、上述した専用通信I/F7630に含まれてもよい。
 車内機器I/F7660は、マイクロコンピュータ7610と車内に存在する様々な車内機器7760との間の接続を仲介する通信インタフェースである。車内機器I/F7660は、無線LAN、Bluetooth(登録商標)、NFC(Near Field Communication)又はWUSB(Wireless USB)といった無線通信プロトコルを用いて無線接続を確立してもよい。また、車内機器I/F7660は、図示しない接続端子(及び、必要であればケーブル)を介して、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)、又はMHL(Mobile High-definition Link)等の有線接続を確立してもよい。車内機器7760は、例えば、搭乗者が有するモバイル機器若しくはウェアラブル機器、又は車両に搬入され若しくは取り付けられる情報機器のうちの少なくとも1つを含んでいてもよい。また、車内機器7760は、任意の目的地までの経路探索を行うナビゲーション装置を含んでいてもよい。車内機器I/F7660は、これらの車内機器7760との間で、制御信号又はデータ信号を交換する。
 車載ネットワークI/F7680は、マイクロコンピュータ7610と通信ネットワーク7010との間の通信を仲介するインタフェースである。車載ネットワークI/F7680は、通信ネットワーク7010によりサポートされる所定のプロトコルに則して、信号等を送受信する。
 統合制御ユニット7600のマイクロコンピュータ7610は、汎用通信I/F7620、専用通信I/F7630、測位部7640、ビーコン受信部7650、車内機器I/F7660及び車載ネットワークI/F7680のうちの少なくとも一つを介して取得される情報に基づき、各種プログラムにしたがって、車両制御システム7000を制御する。例えば、マイクロコンピュータ7610は、取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット7100に対して制御指令を出力してもよい。例えば、マイクロコンピュータ7610は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行ってもよい。また、マイクロコンピュータ7610は、取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行ってもよい。
 マイクロコンピュータ7610は、汎用通信I/F7620、専用通信I/F7630、測位部7640、ビーコン受信部7650、車内機器I/F7660及び車載ネットワークI/F7680のうちの少なくとも一つを介して取得される情報に基づき、車両と周辺の構造物や人物等の物体との間の3次元距離情報を生成し、車両の現在位置の周辺情報を含むローカル地図情報を作成してもよい。また、マイクロコンピュータ7610は、取得される情報に基づき、車両の衝突、歩行者等の近接又は通行止めの道路への進入等の危険を予測し、警告用信号を生成してもよい。警告用信号は、例えば、警告音を発生させたり、警告ランプを点灯させたりするための信号であってよい。
 音声画像出力部7670は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図28の例では、出力装置として、オーディオスピーカ7710、表示部7720及びインストルメントパネル7730が例示されている。表示部7720は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。表示部7720は、AR(Augmented Reality)表示機能を有していてもよい。出力装置は、これらの装置以外の、ヘッドホン、搭乗者が装着する眼鏡型ディスプレイ等のウェアラブルデバイス、プロジェクタ又はランプ等の他の装置であってもよい。出力装置が表示装置の場合、表示装置は、マイクロコンピュータ7610が行った各種処理により得られた結果又は他の制御ユニットから受信された情報を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。また、出力装置が音声出力装置の場合、音声出力装置は、再生された音声データ又は音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。
 なお、図28に示した例において、通信ネットワーク7010を介して接続された少なくとも二つの制御ユニットが一つの制御ユニットとして一体化されてもよい。あるいは、個々の制御ユニットが、複数の制御ユニットにより構成されてもよい。さらに、車両制御システム7000が、図示されていない別の制御ユニットを備えてもよい。また、上記の説明において、いずれかの制御ユニットが担う機能の一部又は全部を、他の制御ユニットに持たせてもよい。つまり、通信ネットワーク7010を介して情報の送受信がされるようになっていれば、所定の演算処理が、いずれかの制御ユニットで行われるようになってもよい。同様に、いずれかの制御ユニットに接続されているセンサ又は装置が、他の制御ユニットに接続されるとともに、複数の制御ユニットが、通信ネットワーク7010を介して相互に検出情報を送受信してもよい。
 本開示に係る技術は、上述した構成のうち、車外情報検出ユニット7400に適用することができる。車外情報検出ユニット7400に本開示に係る技術を適用することにより、車外を撮像した車外画像に含まれる、遠方の人、車、障害物、標識、または路面上の文字などを認識することができる。車外情報検出ユニット7400は、表示部7720に車外画像を表示させる際に、その認識結果を用いて、各種の運転支援情報を車外画像に重畳表示させる。運転支援情報が重畳表示され、運転者に提示されることにより、事前に道路状況などを把握することができ、未然に事故を防ぐことが可能になる。
 本開示に係る技術の実施の形態は、上述した実施の形態に限定されるものではなく、本開示に係る技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本開示に係る技術は以下のような構成をとることができる。
(1)
 第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得する第1の取得部と、
 前記第2解像度画像に含まれるオブジェクトを分類する分類部と、
 前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定する特定部と、
 前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う認識部と
 を備える画像処理装置。
(2)
 前記第2解像度画像において動きオブジェクトを抽出する抽出部をさらに備え、
 前記分類部は、抽出された前記動きオブジェクトを分類する
 (1)に記載の画像処理装置。
(3)
 前記抽出部は、背景差分により前記動きオブジェクトを抽出する
 (2)に記載の画像処理装置。
(4)
 前記分類部は、抽出された前記動きオブジェクトの大きさに基づいて、前記動きオブジェクトを分類する
 (2)または(3)に記載の画像処理装置。
(5)
 前記分類部は、前記第2解像度画像において抽出された前記動きオブジェクトに、あらかじめ決められた所定サイズより小さい複数の画枠を設定することで、前記動きオブジェクトを分類する
 (4)に記載の画像処理装置。
(6)
 前記分類部は、抽出された前記動きオブジェクトの輪郭が収まる輪郭矩形のサイズに応じて、設定される前記画枠のサイズを切り替える
 (5)に記載の画像処理装置。
(7)
 前記特定部は、前記第2解像度画像において設定された前記画枠を、前記第1解像度画像上に座標変換することで、前記オブジェクト領域を特定する
 (5)または(6)に記載の画像処理装置。
(8)
 前記第1解像度画像において認識された前記動きオブジェクトを追尾する追尾処理部と、
 前記第1解像度画像において、追尾されている前記動きオブジェクトと、特定された前記オブジェクト領域との重複を排除する第1の重複排除処理部とをさらに備える
 (2)乃至(7)のいずれかに記載の画像処理装置。
(9)
 前記追尾処理部は、所定フレーム毎に、追尾する前記動きオブジェクトの位置の修正を行う
 (8)に記載の画像処理装置。
(10)
 前記認識部は、特定された前記オブジェクト領域のサイズを、前記オブジェクトの認識処理に用いられる教師データのサイズに基づいて正規化して、前記オブジェクトの認識処理を行う
 (9)に記載の画像処理装置。
(11)
 前記第2解像度画像から、前記第2解像度画像より解像度の低い第3解像度画像を取得する第2の取得部と、
 前記第3解像度画像に対して、物体検出を行う物体検出部とをさらに備える
 (10)に記載の画像処理装置。
(12)
 前記第1解像度画像において認識された前記動きオブジェクトと、前記物体検出部により検出された物体との重複を排除する第2の重複排除処理部をさらに備える
 (11)に記載の画像処理装置。
(13)
 前記分類部は、さらに、抽出された前記動きオブジェクトの位置に基づいて、前記動きオブジェクトを分類する
 (4)乃至(12)のいずれかに記載の画像処理装置。
(14)
 前記分類部は、さらに、抽出された前記動きオブジェクトの動きの速さに基づいて、前記動きオブジェクトを分類する
 (4)乃至(13)のいずれかに記載の画像処理装置。
(15)
 前記認識部は、前記オブジェクト領域を二値分類することで、前記オブジェクトの認識処理を行う
 (1)乃至(14)のいずれかに記載の画像処理装置。
(16)
 前記認識部は、前記オブジェクト領域を多値分類することで、前記オブジェクトの認識処理を行う
 (1)乃至(14)のいずれかに記載の画像処理装置。
(17)
 前記第1解像度画像を高解像度化する高解像度化処理部をさらに備え、
 前記第1の取得部は、高解像度化された前記第1解像度画像から前記第2解像度画像を取得する
 (1)乃至(16)のいずれかに記載の画像処理装置。
(18)
 前記第1の取得部、前記分類部、前記特定部、および前記認識部は、所定フレーム毎に処理を繰り返す
 (1)乃至(17)のいずれかに記載の画像処理装置。
(19)
 画像処理装置が、
 第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得し、
 前記第2解像度画像に含まれるオブジェクトを分類し、
 前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定し、
 前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う
 画像処理方法。
(20)
 第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得し、
 前記第2解像度画像に含まれるオブジェクトを分類し、
 前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定し、
 前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う
 処理をコンピュータに実行させるプログラム。
 10 画像処理装置, 31 追尾処理部, 32 中解像度画像取得部, 33 オブジェクト抽出部, 34 分類部, 35 特定部, 36 重複排除処理部, 37 認識部, 38 フィルタ処理部, 39 低解像度画像取得部, 40 物体検出部, 41 フィルタ処理部, 42 重複排除処理

Claims (20)

  1.  第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得する第1の取得部と、
     前記第2解像度画像に含まれるオブジェクトを分類する分類部と、
     前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定する特定部と、
     前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う認識部と
     を備える画像処理装置。
  2.  前記第2解像度画像において動きオブジェクトを抽出する抽出部をさらに備え、
     前記分類部は、抽出された前記動きオブジェクトを分類する
     請求項1に記載の画像処理装置。
  3.  前記抽出部は、背景差分により前記動きオブジェクトを抽出する
     請求項2に記載の画像処理装置。
  4.  前記分類部は、抽出された前記動きオブジェクトの大きさに基づいて、前記動きオブジェクトを分類する
     請求項2に記載の画像処理装置。
  5.  前記分類部は、前記第2解像度画像において抽出された前記動きオブジェクトに、あらかじめ決められた所定サイズより小さい複数の画枠を設定することで、前記動きオブジェクトを分類する
     請求項4に記載の画像処理装置。
  6.  前記分類部は、抽出された前記動きオブジェクトの輪郭が収まる輪郭矩形のサイズに応じて、設定される前記画枠のサイズを切り替える
     請求項5に記載の画像処理装置。
  7.  前記特定部は、前記第2解像度画像において設定された前記画枠を、前記第1解像度画像上に座標変換することで、前記オブジェクト領域を特定する
     請求項6に記載の画像処理装置。
  8.  前記第1解像度画像において認識された前記動きオブジェクトを追尾する追尾処理部と、
     前記第1解像度画像において、追尾されている前記動きオブジェクトと、特定された前記オブジェクト領域との重複を排除する第1の重複排除処理部とをさらに備える
     請求項7に記載の画像処理装置。
  9.  前記追尾処理部は、所定フレーム毎に、追尾する前記動きオブジェクトの位置の修正を行う
     請求項8に記載の画像処理装置。
  10.  前記認識部は、特定された前記オブジェクト領域のサイズを、前記オブジェクトの認識処理に用いられる教師データのサイズに基づいて正規化して、前記オブジェクトの認識処理を行う
     請求項9に記載の画像処理装置。
  11.  前記第2解像度画像から、前記第2解像度画像より解像度の低い第3解像度画像を取得する第2の取得部と、
     前記第3解像度画像に対して、物体検出を行う物体検出部とをさらに備える
     請求項10に記載の画像処理装置。
  12.  前記第1解像度画像において認識された前記動きオブジェクトと、前記物体検出部により検出された物体との重複を排除する第2の重複排除処理部をさらに備える
     請求項11に記載の画像処理装置。
  13.  前記分類部は、さらに、抽出された前記動きオブジェクトの位置に基づいて、前記動きオブジェクトを分類する
     請求項4に記載の画像処理装置。
  14.  前記分類部は、さらに、抽出された前記動きオブジェクトの動きの速さに基づいて、前記動きオブジェクトを分類する
     請求項4に記載の画像処理装置。
  15.  前記認識部は、前記オブジェクト領域を二値分類することで、前記オブジェクトの認識処理を行う
     請求項1に記載の画像処理装置。
  16.  前記認識部は、前記オブジェクト領域を多値分類することで、前記オブジェクトの認識処理を行う
     請求項1に記載の画像処理装置。
  17.  前記第1解像度画像を高解像度化する高解像度化処理部をさらに備え、
     前記第1の取得部は、高解像度化された前記第1解像度画像から前記第2解像度画像を取得する
     請求項1に記載の画像処理装置。
  18.  前記第1の取得部、前記分類部、前記特定部、および前記認識部は、所定フレーム毎に処理を繰り返す
     請求項1に記載の画像処理装置。
  19.  画像処理装置が、
     第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得し、
     前記第2解像度画像に含まれるオブジェクトを分類し、
     前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定し、
     前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う
     画像処理方法。
  20.  第1解像度画像から、前記第1解像度画像より解像度の低い第2解像度画像を取得し、
     前記第2解像度画像に含まれるオブジェクトを分類し、
     前記第1解像度画像において、所定の分類の前記オブジェクトに対応するオブジェクト領域を特定し、
     前記第1解像度画像において特定された前記オブジェクト領域に対して、前記オブジェクトの認識処理を行う
     処理をコンピュータに実行させるプログラム。
PCT/JP2019/043358 2018-11-13 2019-11-06 画像処理装置、画像処理方法、およびプログラム WO2020100664A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/277,878 US20210350570A1 (en) 2018-11-13 2019-11-06 Image processing device, image processing method, and program
JP2020556094A JP7248037B2 (ja) 2018-11-13 2019-11-06 画像処理装置、画像処理方法、およびプログラム
CN201980072800.5A CN113056768B (zh) 2018-11-13 2019-11-06 图像处理设备、图像处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018213137 2018-11-13
JP2018-213137 2018-11-13

Publications (1)

Publication Number Publication Date
WO2020100664A1 true WO2020100664A1 (ja) 2020-05-22

Family

ID=70730632

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043358 WO2020100664A1 (ja) 2018-11-13 2019-11-06 画像処理装置、画像処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20210350570A1 (ja)
JP (1) JP7248037B2 (ja)
CN (1) CN113056768B (ja)
WO (1) WO2020100664A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210350570A1 (en) * 2018-11-13 2021-11-11 Sony Corporation Image processing device, image processing method, and program
CN114513446A (zh) * 2020-11-17 2022-05-17 通快医疗系统两合公司 手术室控制和通信系统
WO2023162484A1 (ja) * 2022-02-28 2023-08-31 ソニーセミコンダクタソリューションズ株式会社 情報処理装置及びプログラム
JP7460061B1 (ja) 2023-05-02 2024-04-02 株式会社ビバリー 画像認識システム及び画像認識プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11611707B2 (en) 2021-05-24 2023-03-21 Anduril Industries, Inc. Auto-focus tracking for remote flying targets
US11606492B2 (en) * 2021-05-24 2023-03-14 Anduril Industries, Inc. Auto-focus acquisition for remote flying targets
KR20240003985A (ko) * 2022-07-04 2024-01-11 삼성전자주식회사 이미지 처리 방법 및 시스템
CN114973110B (zh) * 2022-07-27 2022-11-01 四川九通智路科技有限公司 一种高速公路气象在线监测方法及系统
CN115664878B (zh) * 2022-09-14 2023-08-25 重庆甲智甲创科技有限公司 一种双供电模式下的图像采集模块处理控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160743A (ja) * 2009-01-09 2010-07-22 Canon Inc 物体検知装置及び物体検知方法
JP2011002882A (ja) * 2009-06-16 2011-01-06 Olympus Corp 撮像装置、画像処理プログラム、および撮像方法
WO2017046838A1 (ja) * 2015-09-14 2017-03-23 株式会社日立国際電気 特定人物検知システムおよび特定人物検知方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2525941C (en) * 2003-05-16 2015-01-13 Picasa, Inc. Methods and systems for image sharing over a network
US7315631B1 (en) * 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US7574131B2 (en) * 2006-03-29 2009-08-11 Sunvision Scientific Inc. Object detection system and method
KR100809345B1 (ko) * 2006-06-16 2008-03-05 삼성전자주식회사 영상 생성 장치 및 방법
US20080180520A1 (en) * 2007-01-26 2008-07-31 Chao-Hung Chang System and method for variable-resolution image saving
JP5774889B2 (ja) * 2011-03-31 2015-09-09 株式会社ソニー・コンピュータエンタテインメント 情報処理装置、情報処理システム、および情報処理方法
JP5906028B2 (ja) * 2011-06-22 2016-04-20 キヤノン株式会社 画像処理装置、画像処理方法
CN111475059A (zh) * 2013-03-14 2020-07-31 视力移动科技公司 基于近距离传感器和图像传感器的手势检测
US9230168B2 (en) * 2013-07-31 2016-01-05 Digitalglobe, Inc. Automatic generation of built-up layers from high resolution satellite image data
KR102041191B1 (ko) * 2014-03-03 2019-11-06 한국전자통신연구원 손 동작 인식 방법 및 장치
US20160379388A1 (en) * 2014-07-16 2016-12-29 Digitalglobe, Inc. System and method for combining geographical and economic data extracted from satellite imagery for use in predictive modeling
US10052015B2 (en) * 2014-09-30 2018-08-21 Fujifilm Corporation Endoscope system, processor device, and method for operating endoscope system
JP6567384B2 (ja) * 2015-10-01 2019-08-28 株式会社東芝 情報認識装置、情報認識方法、およびプログラム
CN108472002A (zh) * 2015-12-17 2018-08-31 皇家飞利浦有限公司 用于医学图像分析的方法和设备
US10373019B2 (en) * 2016-01-13 2019-08-06 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
KR102622754B1 (ko) * 2016-09-07 2024-01-10 삼성전자주식회사 이미지 합성 방법 및 이를 지원하는 전자 장치
JP6832155B2 (ja) * 2016-12-28 2021-02-24 ソニーセミコンダクタソリューションズ株式会社 画像処理装置、画像処理方法、及び画像処理システム
KR20180086048A (ko) * 2017-01-20 2018-07-30 한화에어로스페이스 주식회사 카메라 및 카메라의 영상 처리 방법
KR102695519B1 (ko) * 2018-07-02 2024-08-14 삼성전자주식회사 영상 모델 구축 장치 및 방법
WO2020100664A1 (ja) * 2018-11-13 2020-05-22 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
US11451746B1 (en) * 2020-03-26 2022-09-20 Amazon Technologies, Inc. Image and audio data processing to create mutual presence in a video conference

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160743A (ja) * 2009-01-09 2010-07-22 Canon Inc 物体検知装置及び物体検知方法
JP2011002882A (ja) * 2009-06-16 2011-01-06 Olympus Corp 撮像装置、画像処理プログラム、および撮像方法
WO2017046838A1 (ja) * 2015-09-14 2017-03-23 株式会社日立国際電気 特定人物検知システムおよび特定人物検知方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210350570A1 (en) * 2018-11-13 2021-11-11 Sony Corporation Image processing device, image processing method, and program
CN114513446A (zh) * 2020-11-17 2022-05-17 通快医疗系统两合公司 手术室控制和通信系统
WO2023162484A1 (ja) * 2022-02-28 2023-08-31 ソニーセミコンダクタソリューションズ株式会社 情報処理装置及びプログラム
JP7460061B1 (ja) 2023-05-02 2024-04-02 株式会社ビバリー 画像認識システム及び画像認識プログラム

Also Published As

Publication number Publication date
CN113056768B (zh) 2024-01-19
US20210350570A1 (en) 2021-11-11
CN113056768A (zh) 2021-06-29
JPWO2020100664A1 (ja) 2021-09-30
JP7248037B2 (ja) 2023-03-29

Similar Documents

Publication Publication Date Title
JP7248037B2 (ja) 画像処理装置、画像処理方法、およびプログラム
US10834315B2 (en) Image transfer apparatus and moving image generating system for transferring moving image data
US11372200B2 (en) Imaging device
JPWO2019012817A1 (ja) 画像処理装置、画像処理装置の画像処理方法、プログラム
US11119633B2 (en) Information processing device and method
WO2018016344A1 (ja) 固体撮像装置および電子機器
US11044463B2 (en) Image processing device and image processing method
JP7306269B2 (ja) 制御装置と制御方法およびプログラム
US11953376B2 (en) Imaging apparatus, signal processing apparatus, signal processing method, and program
JP7077557B2 (ja) 表示制御装置および表示制御方法
US11156751B2 (en) Imaging optical system, camera module, and electronic device
US11482159B2 (en) Display control device, display control method, and display control program
JP2020072457A (ja) 映像処理装置、映像処理方法、およびプログラム
WO2019082686A1 (ja) 撮像装置
EP3761636B1 (en) Signal processing device, signal processing method, and imaging device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19884990

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020556094

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19884990

Country of ref document: EP

Kind code of ref document: A1