WO2023223704A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2023223704A1
WO2023223704A1 PCT/JP2023/014222 JP2023014222W WO2023223704A1 WO 2023223704 A1 WO2023223704 A1 WO 2023223704A1 JP 2023014222 W JP2023014222 W JP 2023014222W WO 2023223704 A1 WO2023223704 A1 WO 2023223704A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
target object
tracking
information processing
processing unit
Prior art date
Application number
PCT/JP2023/014222
Other languages
English (en)
French (fr)
Inventor
泰広 周藤
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023223704A1 publication Critical patent/WO2023223704A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 discloses an object tracking technology using the Lucas-Kanade method (hereinafter referred to as the LK method).
  • the speed of tracking processing as disclosed in Patent Document 1 largely depends on the frame rate of the image.
  • the tracking processing unit includes a tracking processing unit that detects and tracks a target object based on a first image and a second image acquired in time series, and the tracking processing unit Detecting the target object based on the first image, calculating the amount of movement of the target object based on the spatial gradient derived from the first image and the temporal gradient originating from the second image, and calculating the amount of movement of the target object based on the amount of movement.
  • An information processing device is provided that tracks the target object and obtains the second image at a higher frame rate than the first image.
  • the processor detects and tracks the target object based on the first image and the second image acquired in time series, and performs the tracking. That is, detecting the target object based on the first image, calculating the amount of movement of the target object based on a spatial gradient derived from the first image and a temporal gradient derived from the second image, An information processing method is provided, further comprising tracking the target object based on the amount of movement, the second image being acquired at a higher frame rate than the first image.
  • the computer includes a tracking processing unit that detects and tracks a target object based on a first image and a second image acquired in time series, and The processing unit detects the target object based on the first image, and calculates the amount of movement of the target object based on a spatial gradient derived from the first image and a temporal gradient derived from the second image.
  • a program is provided that functions as an information processing device that tracks the target object based on the amount of movement, and obtains the second image at a higher frame rate than the first image. .
  • FIG. 2 is a diagram schematically showing the flow of tracking processing according to an embodiment of the present disclosure. It is a figure showing the outline of motion amount calculation using approximate image 13 concerning the same embodiment.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the information processing device 10 according to the embodiment.
  • FIG. 3 is a diagram for explaining an overview of time-series processing of images according to the embodiment. It is a flowchart which shows an example of the flow of a tracking process based on the same embodiment. It is a flowchart which shows an example of the flow of learning based on the same embodiment.
  • FIG. 6 is a diagram for explaining a configuration when the results of tracking processing according to the embodiment are used for gesture analysis in the NUI.
  • FIG. 3 is a diagram for explaining a configuration in which the results of tracking processing according to the embodiment are used to calculate parameters related to acquisition of an RGB image 11.
  • FIG. 3 is a diagram for explaining the structure of a 2-in-1 sensor 160 according to the same embodiment. It is a block diagram showing an example of the hardware configuration of an information processing device 90 according to the same embodiment.
  • FIG. 3 is a diagram illustrating an example of the flow of tracking processing based on the LK method using RGB images.
  • a target object is tracked by calculating the movement of each pixel between frames.
  • a delay of one frame or more will occur. For example, when acquiring an RGB image at 60 FPS, a delay of 1/60 second or more occurs.
  • a target object such as a user's hand moves significantly in front of an RGB camera, such as an NUI (Natural User Interface) that supports gesture input
  • an RGB camera such as an NUI (Natural User Interface) that supports gesture input
  • the RGB image changes significantly during 1/60 seconds. In this case, tracking accuracy may be significantly reduced or tracking may fail.
  • EVS Event-based Vision Sensor
  • pseudo multi-tone image data is created by integrating data in the time direction, and tracking processing is performed based on the image data.
  • the technical idea according to an embodiment of the present disclosure was conceived with a focus on the above points, and is to realize object tracking with low delay and high precision.
  • the information processing device 10 includes a tracking processing unit 130 (see FIG. 3).
  • the tracking processing unit 130 detects the target object based on the first image, and detects the target object based on the spatial gradient derived from the first image and the temporal gradient derived from the second image.
  • One of the features is that the amount of movement of an object is calculated and the target object is tracked based on the amount of movement.
  • one of the characteristics of the second image is that it is acquired at a higher frame rate than the first image.
  • the first image may be an image with less noise than the second image, that is, an image suitable for object detection or the like.
  • the first image according to the present embodiment may be, for example, an RGB image acquired by an RGB sensor.
  • the second image according to the present embodiment may be, for example, an EVS image acquired by EVS.
  • FIG. 11 is a diagram showing an example of the flow of tracking processing based on the LK method using RGB images.
  • an RGB image 11 is acquired by an RGB camera.
  • the frame rate of the RGB image 11 is assumed to be 60 Hz.
  • a target object is detected based on the acquired RGB image 11 (S901). Detection of the target object in step S901 may be performed at a rate of about 10 Hz, for example.
  • spatial differentiation S902
  • temporal differentiation S903
  • step S905 cumulative calculation of the tracking position is performed based on the result of detecting the target object in step S901 and the result of calculating the amount of motion in step S904 (S905), and post-tracking position data 19 is output.
  • the position data 19 is used to detect the next target object in step S901.
  • the speeds of the spatial differentiation in step S902, the temporal differentiation in step S903, the motion amount calculation in step S904, and the tracking process in step S905 depend on the frame rate (60 Hz) of the RGB image 11 as illustrated.
  • FIG. 1 is a diagram schematically showing the flow of tracking processing according to an embodiment of the present disclosure.
  • the RGB image 11 is acquired by the RGB sensor 110 (see FIG. 3), and the EVS image 12 is acquired by the EVS 120 (see FIG. 3).
  • the frame rate of the RGB image 11 is 60 Hz, and the frame rate of the EVS image is 1 kHz.
  • the tracking processing unit 130 performs target object detection (S101) and spatial differentiation (S102) based on the RGB image 11, similar to the method shown in FIG.
  • the tracking processing unit 130 performs time differentiation based on the EVS image 12, unlike the method shown in FIG. 11 (S103).
  • the tracking processing unit 130 calculates the amount of movement based on the spatial gradient obtained by the spatial differentiation in step S102 and the temporal gradient obtained by the temporal differentiation in step S103 (S104).
  • the tracking processing unit 130 performs cumulative calculation of the tracking position based on the result of detecting the target object in step S101 and the result of calculating the amount of motion in step S104 (S105), and outputs position data 19 of.
  • the time differentiation in step S103, the motion amount calculation in step S104, and the cumulative calculation of the tracking position in step S105 can be performed at the frame rate (1 kHz) of the EVS image 12.
  • the tracking processing unit 130 calculates the spatial gradient based on the approximate image 13 obtained by approximating the RGB image 11 (an example of the first image) to the EVS image 12 (an example of the second image). It's okay.
  • the tracking processing unit 130 may include an estimator 135 (see FIG. 2) that receives the first image as input and outputs the approximate image 13.
  • FIG. 2 is a diagram schematically showing motion amount calculation using the approximate image 13 according to the present embodiment. Note that FIG. 2 shows an example in which the target object is a tire of a vehicle.
  • the tracking processing unit 130 inputs the RGB image 11 to the estimator 135, and calculates a spatial gradient based on the approximate image 13 output by the estimator 135.
  • the tracking processing unit 130 calculates a temporal gradient based on the EVS image.
  • the tracking processing unit 130 calculates the amount of motion 15 based on the spatial gradient and temporal gradient calculated as described above.
  • calculation of the amount of motion 15 and cumulative calculation of the tracking position based on the amount of motion 15 can be processed at the frame rate of the EVS image 12, and the RGB image 11 and EVS image 12 can be calculated at the frame rate of the EVS image 12. It absorbs differences in data characteristics and enables more accurate tracking.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the information processing device 10 according to the present embodiment.
  • the information processing device 10 may include an RGB sensor 110, an EVS 120, a tracking processing section 130, and an application processing section 140.
  • the RGB sensor 110 is an example of a first sensor that acquires a first image.
  • the EVS 120 is an example of a second sensor that acquires a second image.
  • the tracking processing unit 130 detects and tracks a predetermined target object based on the RGB image 11 acquired in time series by the RGB sensor 110 and the EVS image acquired in time series by the EVS 120.
  • the tracking processing unit 130 detects the target object based on the RGB image 11, calculates the amount of movement of the target object based on the spatial gradient derived from the RGB image 11 and the temporal gradient derived from the EVS image 12,
  • One of the features is that the target object is tracked based on the amount of movement.
  • the functions of the tracking processing unit 130 according to this embodiment are realized by various processors. Note that the details of the functions of the tracking processing unit 130 according to this embodiment will be described later.
  • the application processing unit 140 controls the application based on the result of tracking the target object by the tracking processing unit 130.
  • the functions of the application processing unit 140 according to this embodiment are realized by various processors. Note that a specific example of the above application will be described later.
  • the information processing device 10 may further include an operation unit that accepts operations by a user and a display unit 150 that displays various information.
  • each configuration shown in FIG. 3 does not necessarily have to be provided in a single device.
  • the tracking processing unit 130 and the application processing unit 140 may be provided in a server located in the cloud, and may receive images via a network from the RGB sensor 110 and EVS 120 installed locally.
  • the first image and second image according to the present embodiment are not limited to the RGB image 11 and the EVS image, respectively.
  • the tracking processing unit 130 may track the target object using, for example, a LIDAR image, a ToF image, or the like.
  • the functional configuration of the information processing device 10 according to this embodiment can be flexibly modified according to specifications and operation.
  • the tracking processing unit 130 realizes low-delay and high-precision object tracking using the RGB image 11 with little noise and the EVS image 12 with a high frame rate.
  • the tracking processing unit 130 can input the RGB image 11 and the EVS image 12 and output the coordinates (u, v) of the center position of the target object in the image at the frame rate of the EVS image every frame.
  • RGB image 11 and the EVS image 12 are significantly different in both frame rate and data identity.
  • the tracking processing unit 130 absorbs the difference by obtaining an approximate image 13 from the RGB image 11 using an estimator 135 generated by supervised learning, which will be described later.
  • FIG. 4 is a diagram for explaining an overview of time-series processing of images according to this embodiment. Note that in FIG. 4, the target object is a tire of a vehicle, and the center position of the tire is highlighted with diagonal lines.
  • the RGB sensor 110 acquires the RGB image 11 as time t passes.
  • the EVS 120 acquires the EVS image 12 as time t passes.
  • the RGB image 11 is acquired at a lower frame rate than the EVS image 12, in order to calculate the amount of motion for each frame rate of the EVS image 12, it is necessary to interpolate data during a period in which the RGB image 11 is not acquired. is required.
  • the tracking processing unit 130 generates an approximate image 13 using an estimator 135 generated by supervised learning that approximates the RGB image 11 to the EVS image 12, and based on the approximate image 13, the You can calculate the slope.
  • the amount of motion is calculated with high precision for each frame rate of the EVS image 12 using the temporal gradient calculated based on the EVS image 12 and the spatial gradient calculated based on the approximate image 13. becomes possible.
  • FIG. 5 is a flowchart showing an example of the flow of tracking processing according to this embodiment.
  • the RGB sensor 110 acquires the RGB image 11 (S202), and the EVS 120 acquires the EVS image 12 (S204).
  • the tracking processing unit 130 detects the target object based on the RGB image 11 acquired in step S202, and obtains the coordinates (u, v) of the center position of the target object (S206).
  • the tracking processing unit 130 determines whether or not to end the series of processing (S208).
  • the tracking processing unit 130 may make the above determination based on, for example, whether a predetermined termination condition is satisfied, or whether the user has instructed to terminate the process.
  • tracking processing unit 130 determines to end the processing (S208: YES), it ends the series of processing, and if it determines not to end the processing (S208: NO), it continues the series of processing.
  • step S206 the coordinates (u, v) of the center position of the target object acquired in step S206 are used in the alignment process in step S216, which will be described later.
  • the tracking processing unit 130 inputs the RGB image 11 acquired in step S202 to the estimator 135, and obtains the approximate image 13 (S210).
  • the tracking processing unit 130 performs gradient calculation based on the EVS image 12 acquired in step S204 and the approximate image 13 acquired in step S210 (S212).
  • the tracking processing unit 130 calculates a temporal gradient based on the EVS image 12 acquired in step S204, calculates a spatial gradient from the approximate image acquired in step S210, and calculates the amount of motion based on the temporal gradient and the spatial gradient. Calculate.
  • a general gradient calculation formula may be set as follows.
  • Ix (u, v, t) I (u+1, v, t) - I (u-1, v, t)
  • Iy (u, v, t) I (u, v+1, t) - I (u, v-1, t)
  • It (u, v, t) I (u, v, t) - I (u, v, t-1)
  • I represents the RGB image
  • u represents the U coordinate
  • v represents the V coordinate
  • t represents the time (frame number).
  • Ix represents a spatial gradient on the x-axis (spatial horizontal axis)
  • Iy represents a spatial gradient on the y-axis (spatial vertical axis)
  • It represents a temporal gradient on the t-axis (time axis).
  • the tracking processing unit 130 replaces I with the EVS image 12 in the calculation of Ix, replaces I with the approximate image 13 in the calculation of Iy and It, and solves the above equation (3), thereby obtaining the amount of movement (du , dv).
  • represents a very small time.
  • du' and dv' represent the amount of movement from time t to time t+ ⁇ .
  • EVS represents the EVS image 12. The amount of motion (du, dv) obtained by the above equation is used for the next calculation of Ix and Iy.
  • the tracking processing unit 130 uses an approximate image of I in the calculation of Ix and Iy. Replace with 13.
  • the gradient calculation formula is expressed as follows.
  • DNN represents the approximate image 13.
  • the gradient calculation by the tracking processing unit 130 according to the present embodiment has been described above.
  • the tracking processing unit 130 performs cumulative calculation regarding the tracking position of the target object based on the amount of movement (du, dv) calculated as described above in step S212, and calculates the coordinates (u, v) of the center position of the target object. obtained (S214).
  • the tracking processing unit 130 compares the coordinates (u, v) of the center position of the target object detected in step S206 with the coordinates (u, v) of the center position of the target object obtained in step S214. , perform matching processing as necessary (S216).
  • the tracking processing unit 130 After step S216, the tracking processing unit 130 outputs the final tracking position (coordinates (u, v) of the center position of the target object) in the relevant frame (S218). Note that the tracking position is also used for gradient calculation in step S212 and cumulative calculation regarding the tracking position of the target object in step S214.
  • the estimator 135 according to the present embodiment is generated by supervised learning that reduces the difference between the motion amount calculated from the temporal gradient based on the approximate image 13 and the temporal gradient based on the second image, and the given correct motion amount. may be done.
  • the estimator 135 may be, for example, a deep neural network (hereinafter referred to as DNN) having a differentiable or linearly operable Loss function.
  • DNN deep neural network
  • the DNN parameters can be learned if the correct motion amount (dugt, dvgt) that serves as a teacher is given.
  • FIG. 6 is a flowchart showing an example of the flow of learning according to this embodiment.
  • the RGB sensor 110 acquires the RGB image 11 (S302). Further, the EVS 120 acquires the EVS image 12 (S304). Further, for example, a correct motion amount (dugt, dvgt) is given based on the user's operation (S306).
  • the tracking processing unit 130 (or other configuration for learning) inputs the RGB image 11 acquired in step S302 to the estimator 135, and acquires the approximate image 13 (S308). That is, the tracking processing unit 130 obtains the approximate image 13 by subjecting the RGB image 11 to DNN filtering.
  • the tracking processing unit 130 calculates a spatial gradient based on the approximate image 13 obtained in step S308 and a temporal gradient based on the EVS image 12 obtained in step S304, and uses the calculated spatial gradient and temporal gradient. Based on this, the amount of motion (du, dv) is calculated (S310).
  • the tracking processing unit 130 calculates Loss based on the motion amount (du, dv) calculated in step S310 and the correct motion amount (dugt, dvgt) obtained in step S306 (S312).
  • the tracking processing unit 130 determines whether to end learning (S314).
  • the tracking processing unit 130 may make the above determination based on, for example, whether a predetermined termination condition is satisfied, or whether the user has instructed to terminate the process.
  • the tracking processing unit 130 determines to end learning (S314: YES), it ends a series of processes related to learning.
  • the tracking processing unit 130 determines not to end the learning (S314: NO), it updates the DNN parameters based on the Loss calculated in step S312, and moves to the next learning cycle.
  • the flow of the learning method according to the present embodiment has been described above using an example. According to the learning method described above, it is possible to realize efficient learning in which the amount of motion (du, dv) obtained as a result of gradient calculation approaches the amount of correct motion (dugt, dvgt).
  • the results of the tracking process according to this embodiment may be used for gesture analysis in the NUI.
  • FIG. 7 is a diagram for explaining a configuration when the results of the tracking process according to this embodiment are used for gesture analysis in the NUI.
  • the target object may be the user's hand 85, for example.
  • the tracking processing unit 130 performs tracking processing based on the RGB image 11 obtained by the RGB sensor 110 and the EVS image 12 obtained by the EVS 120 using the user's hand 85 as a subject, and outputs the result to the gesture analysis unit 142.
  • the gesture analysis unit 142 is an example of the application processing unit 140 described above.
  • the gesture analysis unit 142 analyzes the gesture made by the user's hand 85 based on the result of the tracking process output from the tracking processing unit 130.
  • the gesture analysis unit 142 may control, for example, the icons displayed on the display unit 150 based on the results of the gesture analysis.
  • the low-latency and high-precision tracking processing it is possible to widely respond to gestures with large movements, and it is also possible to control the NUI with high precision and quickly based on the results of gesture analysis. becomes.
  • the results of the tracking process according to this embodiment may be used to calculate parameters related to acquisition of the first image.
  • FIG. 8 is a diagram for explaining a configuration in which the results of the tracking process according to the present embodiment are used to calculate parameters related to acquisition of the RGB image 11.
  • the target object may be a moving body such as the user 80 who makes large movements, for example.
  • the tracking processing unit 130 performs tracking processing based on, for example, the RGB image 11 acquired by the RGB sensor 110 and the EVS image 12 acquired by the EVS 120 with the user 80 as the subject, and outputs the result to the parameter calculation unit 144.
  • the parameter calculation unit 144 is an example of the application processing unit 140 described above.
  • the parameter calculation unit 144 calculates parameters more suitable for acquiring the RGB image 11 based on the results of the tracking process output from the tracking processing unit 130.
  • Examples of the above parameters include aperture value, shutter speed, ISO sensitivity, and white balance.
  • the parameter calculation unit 144 outputs the calculated parameter values as described above to the RGB sensor 110.
  • the RGB image 11 and the EVS image according to this embodiment may be acquired by a single sensor. That is, the RGB sensor 110 and EVS 120 according to this embodiment may be integrally formed.
  • FIG. 9 is a diagram for explaining the structure of the 2-in-1 sensor 160 according to this embodiment.
  • the 2-in-1 sensor 160 according to this embodiment may have a structure in which RGB pixels 115 and EVS pixels 125 are arranged side by side on a substrate.
  • the optical axes for acquiring the RGB image 11 and the EVS image are automatically aligned, and occlusion caused by parallax between the sensors that may occur when the RGB sensor 110 and the EVS 120 are provided separately can be avoided. This makes it possible to eliminate problems such as phase shift and phase shift.
  • FIG. 10 is a block diagram illustrating an example hardware configuration of an information processing device 90 according to an embodiment of the present disclosure.
  • the information processing device 90 may be a device having the same hardware configuration as the information processing device 10.
  • the information processing device 90 includes, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device. 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • a processor 871 for example, a central processing unit 873, a central processing unit (CPU), a graphics processing unit (GPU), a graphics processing unit (GPU), or a graphics processing unit (GPU), or a graphics processing unit (GPU), or a graphics processing unit.
  • a processor 871 for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device. 879, a storage 880, a drive 881, a connection port 882, and
  • the processor 871 functions, for example, as an arithmetic processing device or a control device, and controls the overall operation of each component or a part thereof based on various programs recorded in the ROM 872, RAM 873, storage 880, or removable storage medium 901. .
  • the ROM 872 is a means for storing programs read into the processor 871, data used for calculations, and the like.
  • the RAM 873 temporarily or permanently stores, for example, a program read into the processor 871 and various parameters that change as appropriate when executing the program.
  • the processor 871, ROM 872, and RAM 873 are interconnected, for example, via a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected, for example, via a bridge 875 to an external bus 876 whose data transmission speed is relatively low.
  • the external bus 876 is connected to various components via an interface 877.
  • the input device 878 includes, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, and the like. Furthermore, as the input device 878, a remote controller (hereinafter referred to as remote control) that can transmit control signals using infrared rays or other radio waves may be used. Furthermore, the input device 878 includes an audio input device such as a microphone.
  • the output device 879 is, for example, a display device such as a CRT (Cathode Ray Tube), LCD, or organic EL, an audio output device such as a speaker or headphone, a printer, a mobile phone, or a facsimile, and transmits the acquired information to the user. This is a device that can notify visually or audibly. Further, the output device 879 according to the present disclosure includes various vibration devices capable of outputting tactile stimulation.
  • Storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable storage medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable storage medium 901, for example.
  • a removable storage medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable storage medium 901 is, for example, DVD media, Blu-ray (registered trademark) media, HD DVD media, various semiconductor storage media, and the like.
  • the removable storage medium 901 may be, for example, an IC card equipped with a non-contact IC chip, an electronic device, or the like.
  • connection port 882 is, for example, a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the communication device 883 is a communication device for connecting to a network, and includes, for example, a wired or wireless LAN, Bluetooth (registered trademark), or WUSB (Wireless USB) communication card, optical communication router, ADSL (Asymmetric Digital A router for Subscriber Line, a modem for various communications, etc.
  • the information processing device 10 includes a tracking processing unit 130 that detects and tracks a target object based on the first image and the second image acquired in time series. Equipped with
  • the tracking processing unit 130 detects the target object based on the first image, and detects the target object based on the spatial gradient derived from the first image and the temporal gradient derived from the second image.
  • One of the features is that the amount of movement of an object is calculated and the target object is tracked based on the amount of movement.
  • one of the characteristics of the second image is that it is acquired at a higher frame rate than the first image.
  • each step related to the processing described in the present disclosure does not necessarily need to be processed in chronological order in the order described in the flowchart or sequence diagram.
  • each step related to the processing of each device may be processed in a different order from the described order, or may be processed in parallel.
  • each device described in the present disclosure may be realized by a program stored in a non-transitory computer readable storage medium.
  • each program is read into a RAM when executed by a computer, and executed by a processor such as a CPU.
  • the storage medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
  • the above program may be distributed, for example, via a network without using a storage medium.
  • a tracking processing unit that detects and tracks a target object based on a first image and a second image acquired in time series; Equipped with The tracking processing unit detects the target object based on the first image, and calculates the amount of movement of the target object based on a spatial gradient derived from the first image and a temporal gradient derived from the second image. and tracking the target object based on the amount of movement; the second image is acquired at a higher frame rate than the first image; Information processing device.
  • the tracking processing unit calculates the spatial gradient based on an approximate image obtained by approximating the first image to the second image.
  • the information processing device according to (1) above.
  • the tracking processing unit includes an estimator that receives the first image and outputs the approximate image.
  • the estimator is generated by supervised learning that reduces the difference between the motion amount calculated from the temporal gradient based on the approximate image and the temporal gradient based on the second image, and a given correct motion amount. Ru, The information processing device according to (3) above.
  • the second image is obtained by EVS, The information processing device according to any one of (1) to (4) above.
  • the first image is acquired by an RGB sensor, The information processing device according to (5) above. (7) further comprising the EVS, The information processing device according to (6) above. (8) further comprising the RGB sensor; The information processing device according to (7) above.
  • the EVS and the RGB sensor are integrally formed;
  • the information processing device according to (8) above. (10) an application processing unit that controls an application based on the result of tracking the target object by the tracking processing unit; further comprising, The information processing device according to any one of (1) to (9) above. (11)
  • the application processing unit performs gesture analysis based on the result of tracking the target object.
  • the application processing unit calculates parameters related to acquisition of the first image based on the result of tracking the target object.
  • the parameters include an aperture value;
  • the processor detects and tracks the target object based on the first image and the second image acquired in time series; including;
  • the tracking includes detecting the target object based on the first image, and detecting the amount of movement of the target object based on a spatial gradient derived from the first image and a temporal gradient derived from the second image. and tracking the target object based on the amount of movement, the second image is acquired at a higher frame rate than the first image;
  • Information processing method includes detecting the target object based on the first image, and detecting the amount of movement of the target object based on a spatial gradient derived from the first image and a temporal gradient derived from the second image.
  • a tracking processing unit that detects and tracks a target object based on a first image and a second image acquired in time series; Equipped with The tracking processing unit detects the target object based on the first image, and calculates the amount of movement of the target object based on a spatial gradient derived from the first image and a temporal gradient derived from the second image. and tracking the target object based on the amount of movement; the second image is acquired at a higher frame rate than the first image; information processing equipment, A program that functions as

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

【課題】低遅延かつ高精度の物体追跡を実現する。 【解決手段】時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、を備え、前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、情報処理装置が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、時系列に取得された画像における対象物体の位置を追跡する技術が開発されている。例えば、特許文献1には、Lucas-Kanade法(以下、LK法、と称する)を用いた物体追跡技術が開示されている。
特開2011-233039号公報
 特許文献1に開示されるような追跡処理の速度は、画像のフレームレートに大きく依存する。
 本開示のある観点によれば、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、を備え、前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、情報処理装置が提供される。
 また、本開示の別の観点によれば、プロセッサが、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行うこと、を含み、前記追跡を行うことは、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行うこと、をさらに含み、前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、情報処理方法が提供される。
 また、本開示の別の観点によれば、コンピュータを、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、を備え、前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、情報処理装置、として機能させるプログラムが提供される。
本開示の一実施形態に係る追跡処理の流れを概略的に示す図である。 同実施形態に係る近似画像13を用いた動き量計算の概略を示す図である。 同実施形態に係る情報処理装置10の機能構成例を示すブロック図である。 同実施形態に係る画像の時系列処理の概要について説明するための図である。 同実施形態に係る追跡処理の流れの一例を示すフローチャートである。 同実施形態に係る学習の流れの一例を示すフローチャートである。 同実施形態に係る追跡処理の結果をNUIにおけるジェスチャ解析に用いる場合の構成について説明するための図である。 同実施形態に係る追跡処理の結果をRGB画像11の取得に係るパラメータの計算に用いる場合の構成について説明するための図である。 同実施形態に係る2in1センサ160の構造について説明するための図である。 同実施形態に係る情報処理装置90のハードウェア構成例を示すブロック図である。 RGB画像を用いたLK法ベースの追跡処理の流れの一例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.情報処理装置10の機能構成例
  1.3.追跡処理の詳細
  1.4.学習の詳細
  1.5.アプリケーションへの適用例
  1.6.センサの変形例
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.概要>>
 上述したように、近年、時系列に取得された画像における対象物体の位置を追跡する技術が開発されている。上記画像の一例としては、RGB画像が挙げられる。
 RGB画像を用いた一般的な追跡手法では、フレーム間の画素ごとの動きを計算することにより対象物体の追跡を行う。
 しかし、一般的な追跡処理のフローは、画像取得、動き検出、追跡、の順に実施されるため、1フレーム以上の遅延が発生することとなる。例えば、RGB画像を60FPSで取得する場合、1/60秒以上の遅延が発生する。
 上記のような遅延は、追跡結果が用いられるアプリケーションの性質によっては、許容し難い場合がある。
 例えば、ジェスチャ入力に対応したNUI(Natural User Interface)のように、RGBカメラの前でユーザの手などの対象物体が大きく動くユースケースの場合、ピントのずれや対象物体の位置の変化等により、1/60秒の間にRGB画像が大きく変化することも想定される。この場合、追跡の精度が大きく低下したり、追跡に失敗したりする可能性がある。
 一方、近年では、EVS(Event-based Vision Sensor)を用いた追跡技術も開発されている。EVSは、各画素の輝度変化を検出し、輝度が変化したデータを座標および時間情報と組み合わせて出力する、高速かつ低遅延なデータ出力を実現するビジョンセンサーである。
 しかし、EVSが出力する信号は、「+1」、「0」、「-1」の3値であることから、そのままでは時間方向のマッチングが困難となる場合がある。
 このため、時間方向にデータを積算することで疑似的に多階調の画像データを作成し、当該画像データに基づいて追跡処理を行う場合がある。
 しかし、この場合、EVSが有する高速応答性が犠牲となる。また、上記のような疑似的な画像データは、一般的なRGB画像と比較してノイズが多いため、動き計算の精度が低下する可能性がある。
 本開示の一実施形態に係る技術思想は、上記のような点に着目して発想されたものであり、低遅延かつ高精度の物体追跡を実現するものである。
 このために、本開示の一実施形態に係る情報処理装置10は、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部130(図3参照)を備える。
 また、本開示の一実施形態に係る追跡処理部130は、第1の画像に基づき対象物体を検出し、第1の画像に由来する空間勾配および第2の画像に由来する時間勾配に基づき対象物体の動き量を計算し、当該動き量に基づき対象物体の追跡を行うことを特徴の一つとする。
 また、上記第2の画像は、上記第1の画像と比較して高いフレームレートで取得されることを特徴の一つとする。
 さらには、上記第1の画像は、上記第2の画像と比較してノイズの少ない画像、すなわち物体検出等に適した画像であってもよい。
 本実施形態に係る第1の画像は、例えば、RGBセンサにより取得されたRGB画像であってもよい。
 また、本実施形態に係る第2の画像は、例えば、EVSにより取得されたEVS画像であってもよい。
 本実施形態に係る情報処理方法が奏する効果について説明するために、まず、RGB画像を用いたLK法ベースの追跡処理について述べる。
 図11は、RGB画像を用いたLK法ベースの追跡処理の流れの一例を示す図である。
 図11に示す一例の場合、まず、RGBカメラによりRGB画像11が取得される。ここでは、RGB画像11のフレームレートを60Hzとする。
 次に、取得されたRGB画像11に基づき対象物体の検出が行われる(S901)。ステップS901における対象物体の検出は、例えば、10Hz程度のレートで実施され得る。
 また、取得されたRGB画像に基づき空間微分(S902)および時間微分(S903)が実施される。
 次に、ステップS902における空間微分により求められた空間勾配、およびステップS903における時間微分により求められた時間勾配に基づいて、動き量が計算される(動き量=時間勾配/空間勾配)(S904)。
 次に、ステップS901における対象物体の検出の結果、およびステップS904における動き量計算の結果に基づき追跡位置の累積計算が実施され(S905)、追跡後の位置データ19が出力される。位置データ19は、ステップS901における次の対象物体の検出に用いられる。
 ステップS902における空間微分、ステップS903における時間微分、ステップS904における動き量計算、およびステップS905における追跡処理の速度は、図示するようにRGB画像11のフレームレート(60Hz)に依存する。
 このため、図11に示すような手法の場合、対象物体の動きが大きい場合等、RGB画像11の変化が大きい場合、対象物体を見失い追跡に失敗する可能性がある。
 一方、図1は、本開示の一実施形態に係る追跡処理の流れを概略的に示す図である。
 本実施形態に係る追跡処理では、まず、RGBセンサ110(図3参照)によりRGB画像11が取得され、EVS120(図3参照)によりEVS画像12が取得される。ここでは、RGB画像11のフレームレートを60Hz、EVS画像のフレームレートを1kHzとする。
 本実施形態に係る追跡処理部130は、図11に示す手法と同様に、RGB画像11に基づき、対象物体の検出(S101)および空間微分(S102)を実施する。
 一方、本実施形態に係る追跡処理部130は、図11に示す手法とは異なり、EVS画像12に基づき時間微分を実施する(S103)。
 また、本実施形態に係る追跡処理部130は、ステップS102における空間微分により求めた空間勾配およびステップS103における時間微分により求めた時間勾配に基づき動き量を計算する(S104)。
 次に、本実施形態に係る追跡処理部130は、ステップS101における対象物体の検出の結果、およびステップS104における動き量計算の結果に基づいて、追跡位置の累積計算を行い(S105)、追跡後の位置データ19を出力する。
 上記のような情報処理方法によれば、ステップS103における時間微分、ステップS104における動き量計算、およびステップS105における追跡位置の累積計算をEVS画像12のフレームレート(1kHz)で実施可能となる。
 さらには、上記のような情報処理方法によれば、フレームレートの高いEVS画像12に基づき時間変化をとらえることで対象物体の大きな動き等にも対応が可能となるとともに、RGB画像11を用いることでEVS画像12単体では追跡が難しい小さな動きにも対応が可能となる。
 しかし、RGB画像11とEVS画像12はデータ素性が大きく異なるため、RGB画像11そのものに基づき空間勾配を計算する場合、追跡の精度が低下する場合も想定される。
 このため、本実施形態に係る追跡処理部130は、RGB画像11(第1の画像の一例)をEVS画像12(第2の画像の一例)に近似した近似画像13に基づき空間勾配を計算してもよい。
 また、このために、本実施形態に係る追跡処理部130は、第1の画像を入力とし近似画像13を出力する推定器135(図2参照)を備えてもよい。
 図2は、本実施形態に係る近似画像13を用いた動き量計算の概略を示す図である。なお、図2には、対象物体が車両のタイヤである場合の一例が示される。
 図2に示すように、本実施形態に係る追跡処理部130は、推定器135にRGB画像11を入力し、推定器135が出力した近似画像13に基づいて空間勾配を計算する。
 また、本実施形態に係る追跡処理部130は、EVS画像に基づき時間勾配を計算する。
 さらには、本実施形態に係る追跡処理部130は、上記のように計算した空間勾配と時間勾配とに基づいて、動き量15を算出する。
 上記のような情報処理方法によれば、動き量15の算出、また動き量15に基づく追跡位置の累積計算をEVS画像12のフレームレートで処理可能となるとともに、RGB画像11とEVS画像12のデータ素性の差を吸収し、より精度の高い追跡が実現可能となる。
 <<1.2.情報処理装置10の機能構成例>>
 次に、本実施形態に係る情報処理装置10の機能構成例について述べる。図3は、本実施形態に係る情報処理装置10の機能構成例を示すブロック図である。
 図3に示すように、本実施形態に係る情報処理装置10は、RGBセンサ110、EVS120、追跡処理部130、およびアプリケーション処理部140を備えてもよい。
 (RGBセンサ110)
 本実施形態に係るRGBセンサ110は、第1の画像を取得する第1のセンサの一例である。
 (EVS120)
 本実施形態に係るEVS120は、第2の画像を取得する第2のセンサの一例である。
 (追跡処理部130)
 本実施形態に係る追跡処理部130は、RGBセンサ110により時系列に取得されるRGB画像11およびEVS120により時系列に取得されるEVS画像に基づき、所定の対象物体の検出および追跡を行う。
 本実施形態に係る追跡処理部130は、RGB画像11に基づき対象物体を検出し、RGB画像11に由来する空間勾配およびEVS画像12に由来する時間勾配に基づき対象物体の動き量を計算し、当該動き量に基づき対象物体の追跡を行うことを特徴の一つとする。
 本実施形態に係る追跡処理部130が有する機能は、各種のプロセッサにより実現される。なお、本実施形態に係る追跡処理部130が有する機能の詳細については後述する。
 (アプリケーション処理部140)
 本実施形態に係るアプリケーション処理部140は、追跡処理部130による対象物体の追跡の結果に基づきアプリケーションの制御を行う。
 本実施形態に係るアプリケーション処理部140が有する機能は、各種のプロセッサにより実現される。なお、上記アプリケーションの具体例については後述する。
 以上、本実施形態に係る情報処理装置10の機能構成例について述べた。なお、図3を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置10の機能構成はかかる構成に限定されない。
 例えば、本実施形態に係る情報処理装置10は、ユーザによる操作を受け付ける操作部や、各種の情報を表示する表示部150をさらに備えてもよい。
 また、図3に示す各構成は必ずしも単一の装置に備えられなくてもよい。例えば、追跡処理部130およびアプリケーション処理部140は、クラウドに配置されるサーバに備えられ、ローカルに設置されるRGBセンサ110およびEVS120からネットワークを介して画像を受信してもよい。
 また、上述したように、本実施形態に係る第1の画像および第2の画像は、それぞれRGB画像11、EVS画像に限定されるものではない。
 本実施形態に係る追跡処理部130は、例えば、LIDAR画像、ToF画像などを用いて対象物体の追跡を行ってもよい。
 本実施形態に係る情報処理装置10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.追跡処理の詳細>>
 次に、本実施形態に係る対象物体の追跡処理について詳細に説明する。上述したように、本実施形態に係る追跡処理部130は、ノイズの少ないRGB画像11と高フレームレートのEVS画像12を用いて低遅延かつ高精度の物体追跡を実現する。
 本実施形態に係る追跡処理部130は、RGB画像11およびEVS画像12を入力として画像における対象物体の中心位置の座標(u,v)をEVS画像のフレームレートで毎フレーム出力可能である。
 ただし、RGB画像11とEVS画像12は、フレームレート、データ素性ともに大きく異なる。
 このため、本実施形態に係る追跡処理部130は、後述する教師あり学習により生成された推定器135を用いてRGB画像11から近似画像13を得ることにより差異を吸収する。
 図4は、本実施形態に係る画像の時系列処理の概要について説明するための図である。なお、図4においては、対象物体を車両のタイヤとし、当該タイヤの中心位置を斜線で強調して示す。
 図4に示すように、RGBセンサ110は、時刻tの経過に伴いRGB画像11を取得する。同様に、EVS120は、時刻tの経過に伴いEVS画像12を取得する。
 RGB画像11は、EVS画像12と比べて低フレームレートで取得されるため、EVS画像12のフレームレート毎に動き量を計算するためには、RGB画像11が取得されない期間におけるデータを補間することが求められる。
 そこで、本実施形態に係る追跡処理部130は、RGB画像11をEVS画像12に近似する教師あり学習により生成された推定器135を用いて近似画像13を生成し、近似画像13に基づいて空間勾配を計算してよい。
 上記のような情報処理方法によれば、EVS画像12に基づき計算した時間勾配と近似画像13に基づき計算した空間勾配とを用いて、EVS画像12のフレームレート毎に動き量を精度高く計算することが可能となる。
 続いて、本実施形態に係る追跡処理の流れについてより詳細に説明する。図5は、本実施形態に係る追跡処理の流れの一例を示すフローチャートである。
 図5に示す一例の場合、まず、RGBセンサ110が、RGB画像11を取得し(S202)、EVS120がEVS画像12を取得する(S204)。
 追跡処理部130は、ステップS202において取得されたRGB画像11に基づいて対象物体の検出を行い、対象物体の中心位置の座標(u,v)を得る(S206)。
 続いて、追跡処理部130は、一連の処理を終了するか否かを判定する(S208)。追跡処理部130は、例えば、所定の終了条件を満たしたか否か、またはユーザにより処理の終了が指示されたか否か、等に基づいて上記判定を行ってもよい。
 追跡処理部130は、処理を終了すると判定した場合(S208:YES)、一連の処理を終了し、処理を終了しないと判定した場合(S208:NO)、一連の処理を続行する。
 なお、処理を終了しない場合、ステップS206において取得された対象物体の中心位置の座標(u,v)は、後述するステップS216における整合処理において用いられる。
 また、追跡処理部130は、ステップS202において取得されたRGB画像11を推定器135に入力し、近似画像13を得る(S210)。
 続いて、追跡処理部130は、ステップS204において取得されたEVS画像12、およびステップS210において取得した近似画像13に基づき勾配計算を行う(S212)。
 すなわち、追跡処理部130は、ステップS204において取得されたEVS画像12に基づき時間勾配を計算し、ステップS210において取得した近似画像から空間勾配を計算し、時間勾配と空間勾配とに基づいて動き量を計算する。
 ここで、まず、一般的な勾配計算式について述べる。一般的な勾配計算式は、以下のように設定され得る。
   Ix(u,v,t) = I(u+1,v,t) - I(u-1,v,t)
   Iy(u,v,t) = I(u,v+1,t) - I(u,v-1,t)
   It(u,v,t) = I(u,v,t) - I(u,v,t-1)
 上記勾配計算式において、IはRGB画像を、uはU座標を、vはV座標を、tは時刻(フレーム番号)をそれぞれ表す。また、Ixはx軸(空間横軸)における空間勾配、Iyはy軸(空間縦軸)における空間勾配、Itはt軸(時間軸)における時間勾配をそれぞれ表す。
 次に、周辺画素を組み合わせて下記の数式(1)に示す推定方程式を作る。
Figure JPOXMLDOC01-appb-M000001
 上記数式(1)を下記の数式(2)に示すようにまとめて表記し、さらに最小二乗を解くと下記の数式(3)となる。
Figure JPOXMLDOC01-appb-M000002
 本実施形態に係る追跡処理部130は、Ixの計算においてIをEVS画像12で置き換え、IyおよびItの計算においてIを近似画像13で置き換えて上記数式(3)を解くことで動き量(du,dv)を得る。
 まず、Itの計算においてIをEVS画像12に置き換える計算について説明する。上記で述べたように、EVS画像12とRGB画像11は、フレームレートが大きく異なる。このため、Itの計算においてIをEVS画像12に置き換える場合、Itと、Ix・Iyの変化を保障しながら計算を行うことが求められる。このため、以下のように式を設定する。
   It(u,v,t+α) = EVS(u,v,t+α)
   Ix(u,v,t+α) = Ix(u+du’,v+dv’,t)
   Iy(u,v,t+α) = Iy(u+du’,v+dv’,t)
 上記の式において、αは非常に小さい時間を表す。また、du’およびdv’は、時刻tから時刻t+αまでの動き量を表す。また、EVSはEVS画像12を表す。上記の式により得られた動き量(du,dv)は、次のIxおよびIyの計算に用いられる。
 ここで、上述したように、RGB画像11とEVS画像12はデータ素性が大きく異なることから、追跡処理部130は、より精度の高い追跡を行うために、IxおよびIyの計算においてIを近似画像13に置き換える。この場合、勾配計算式は以下のように表される。
   It(u,v,t+α) = EVS(u,v,t+α)
   Ix(u,v,t+α) = DNN(u+du’,v+dv’,t)
   Iy(u,v,t+α) = DNN(u+du’,v+dv’,t)
 なお、上記の式において、DNNは近似画像13を表す。
 以上、本実施形態に係る追跡処理部130による勾配計算について説明した。
 追跡処理部130は、ステップS212において上述のように計算した動き量(du,dv)に基づき、対象物体の追跡位置に係る累積計算を行い、対象物体の中心位置の座標(u,v)を得る(S214)。
 次に、追跡処理部130は、ステップS206において検出された対象物体の中心位置の座標(u,v)と、ステップS214において得た対象物体の中心位置の座標(u,v)とを比較し、必要に応じて整合処理を行う(S216)。
 ステップS216の後、追跡処理部130は、該当フレームにおける最終的な追跡位置(対象物体の中心位置の座標(u,v))を出力する(S218)。なお、当該追跡位置は、ステップS212における勾配計算、ステップS214における対象物体の追跡位置に係る累積計算にも用いられる。
 <<1.4.学習の詳細>>
 次に、本実施形態に係る学習方法について詳細に説明する。本実施形態に係る推定器135は、近似画像13に基づく時間勾配および第2の画像に基づく時間勾配から計算した動き量と、与えられる正解動き量との差分をより小さくする教師あり学習により生成されてもよい。
 本実施形態に係る推定器135は、例えば、微分可能または線形演算可能なLoss関数を有するディープニューラルネットワーク(以下、DNN、と称する)であってもよい。
 上記の数式(3)は線形の行列計算であるため、教師となる正解動き量(dugt,dvgt)が与えられれば、DNNのパラメータが学習可能である。
 図6は、本実施形態に係る学習の流れの一例を示すフローチャートである。
 図6に示す一例の場合、まず、RGBセンサ110がRGB画像11を取得する(S302)。また、EVS120がEVS画像12を取得する(S304)。また、例えばユーザによる操作に基づいて正解動き量(dugt,dvgt)が与えられる(S306)。
 追跡処理部130(または、学習用の他の構成)は、ステップS302において取得されたRGB画像11を推定器135に入力し、近似画像13を取得する(S308)。すなわち、追跡処理部130は、RGB画像11をDNNのフィルタリングにかけることで近似画像13を得る。
 次に、追跡処理部130は、ステップS308において取得した近似画像13に基づく空間勾配の計算、ステップS304において取得されたEVS画像12に基づく時間勾配の計算を行い、算出した空間勾配および時間勾配に基づき動き量(du,dv)を計算する(S310)。
 次に、追跡処理部130は、ステップS310において計算した動き量(du,dv)と、ステップS306において取得した正解動き量(dugt,dvgt)とに基づきLossを計算する(S312)。
 次に、追跡処理部130は、学習を終了するか否かを判定する(S314)。追跡処理部130は、例えば、所定の終了条件を満たしたか否か、またはユーザにより処理の終了が指示されたか否か、等に基づいて上記判定を行ってもよい。
 追跡処理部130は、学習を終了すると判定した場合(S314:YES)、学習に係る一連の処理を終了する。
 一方、追跡処理部130は、学習を終了しないと判定した場合(S314:NO)、ステップS312において計算したLossに基づきDNNのパラメータを更新し、次の学習サイクルに移行する。
 以上、本実施形態に係る学習方法の流れについて一例を挙げて説明した。上記で述べたような学習方法によれば、勾配計算の結果として取得する動き量(du,dv)を正解動き量(dugt,dvgt)に近づける効率的な学習を実現することができる。
 <<1.5.アプリケーションへの適用例>>
 次に、本実施形態に係る追跡処理の結果をアプリケーションにおいて用いる場合の例について述べる。
 例えば、本実施形態に係る追跡処理の結果は、NUIにおけるジェスチャ解析に用いられてもよい。図7は、本実施形態に係る追跡処理の結果をNUIにおけるジェスチャ解析に用いる場合の構成について説明するための図である。
 本例の場合、対象物体は、例えば、ユーザの手85であってもよい。追跡処理部130は、ユーザの手85を被写体としてRGBセンサ110が取得したRGB画像11およびEVS120が取得したEVS画像12に基づき追跡処理を行い、結果をジェスチャ解析部142に出力する。
 ジェスチャ解析部142は、上述したアプリケーション処理部140の一例である。ジェスチャ解析部142は、追跡処理部130から出力される追跡処理の結果に基づいて、ユーザの手85が行ったジェスチャを解析する。
 また、ジェスチャ解析部142は、ジェスチャ解析の結果に基づいて、例えば、表示部150に表示されるアイコン等の制御などを行ってもよい。
 本実施形態に係る低遅延かつ高精度の追跡処理によれば、動きの大きいジェスチャなどにも広く対応することができ、またジェスチャ解析の結果に基づきNUIを高精度かつ迅速に制御することが可能となる。
 また、例えば、本実施形態に係る追跡処理の結果は、第1の画像の取得に係るパラメータの計算に用いられてもよい。図8は、本実施形態に係る追跡処理の結果をRGB画像11の取得に係るパラメータの計算に用いる場合の構成について説明するための図である。
 本例の場合、対象物体は、例えば、大きな動きを行うユーザ80などの動体であってもよい。追跡処理部130は、例えば、ユーザ80を被写体としてRGBセンサ110が取得したRGB画像11およびEVS120が取得したEVS画像12に基づき追跡処理を行い、結果をパラメータ計算部144に出力する。
 パラメータ計算部144は、上述したアプリケーション処理部140の一例である。パラメータ計算部144は、追跡処理部130から出力される追跡処理の結果に基づいて、RGB画像11の取得により適したパラメータを計算する。
 上記パラメータには、例えば、絞り値、シャッタースピード、ISO感度、ホワイトバランスなどが挙げられる。
 パラメータ計算部144は、計算した上記のようなパラメータの値をRGBセンサ110に出力する。
 本実施形態に係る低遅延かつ高精度の追跡処理の結果を上記のようなパラメータの計算に用いることにより、対象物体にピントが合うようフォーカスを自動で調整すること等ができ、高速に動く対象物体や遠方に位置する対象物体であってもピントがずれることなく高品質な撮影が実現可能となる。
 <<1.6.センサの変形例>>
 次に、本実施形態に係るセンサの変形例について述べる。上記では、情報処理装置10が、RGB画像11を撮影するRGBセンサ110とEVS画像12を取得するEVS120とを別個に備える場合を主な例として述べた。
 一方、本実施形態に係るRGB画像11とEVS画像とは、単一のセンサにより取得されてもよい。すなわち、本実施形態に係るRGBセンサ110およびEVS120は、一体形成されてもよい。
 図9は、本実施形態に係る2in1センサ160の構造について説明するための図である。図9に示すように、本実施形態に係る2in1センサ160は、基板上にRGB画素115とEVS画素125とが並んで配列された構造を有してもよい。
 上記のような構造によれば、RGB画像11の取得およびEVS画像の取得に係る光軸が自動的に合い、RGBセンサ110とEVS120を別個に備える場合に生じ得るセンサ間の視差に起因するオクルージョンや位相ずれなどを解消することが可能となる。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理装置10のハードウェア構成例について説明する。図10は、本開示の一実施形態に係る情報処理装置90のハードウェア構成例を示すブロック図である。情報処理装置90は、情報処理装置10と同等のハードウェア構成を有する装置であってよい。
 図10に示すように、情報処理装置90は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記憶媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体901に記録された情報を読み出し、又はリムーバブル記憶媒体901に情報を書き込む装置である。
 (リムーバブル記憶媒体901)
リムーバブル記憶媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記憶媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理装置10は、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部130を備える。
 また、本開示の一実施形態に係る追跡処理部130は、第1の画像に基づき対象物体を検出し、第1の画像に由来する空間勾配および第2の画像に由来する時間勾配に基づき対象物体の動き量を計算し、当該動き量に基づき対象物体の追跡を行うことを特徴の一つとする。
 また、上記第2の画像は、上記第1の画像と比較して高いフレームレートで取得されることを特徴の一つとする。
 上記の構成によれば、低遅延かつ高精度の物体追跡を実現することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本開示において説明した処理に係る各ステップは、必ずしもフローチャートやシーケンス図に記載された順序に沿って時系列に処理される必要はない。例えば、各装置の処理に係る各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、本開示において説明した各装置による一連の処理は、コンピュータにより読み取り可能な非一過性の記憶媒体(non-transitory computer readable storage medium)に格納されるプログラムにより実現されてもよい。各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。上記記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のプログラムは、記憶媒体を用いずに、例えばネットワークを介して配信されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
 を備え、
 前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
 前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、
情報処理装置。
(2)
 前記追跡処理部は、前記第1の画像を前記第2の画像に近似した近似画像に基づき前記空間勾配を計算する、
前記(1)に記載の情報処理装置。
(3)
 前記追跡処理部は、前記第1の画像を入力とし前記近似画像を出力する推定器を備える、
前記(2)に記載の情報処理装置。
(4)
 前記推定器は、前記近似画像に基づく前記時間勾配および前記第2の画像に基づく前記時間勾配から計算した前記動き量と、与えられる正解動き量との差分をより小さくする教師あり学習により生成される、
前記(3)に記載の情報処理装置。
(5)
 前記第2の画像は、EVSにより取得される、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記第1の画像は、RGBセンサにより取得される、
前記(5)に記載の情報処理装置。
(7)
 前記EVSをさらに備える、
前記(6)に記載の情報処理装置。
(8)
 前記RGBセンサをさらに備える、
前記(7)に記載の情報処理装置。
(9)
 前記EVSおよび前記RGBセンサは一体に形成される、
前記(8)に記載の情報処理装置。
(10)
 前記追跡処理部による前記対象物体の追跡の結果に基づきアプリケーションの制御を行うアプリケーション処理部、
 をさらに備える、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
 前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、ジェスチャ解析を行う、
前記(10)に記載の情報処理装置。
(12)
 前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、前記第1の画像の取得に係るパラメータを計算する、
前記(10)に記載の情報処理装置。
(13)
 前記パラメータは、絞り値を含む、
前記(12)に記載の情報処理装置。
(14)
 プロセッサが、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行うこと、
 を含み、
 前記追跡を行うことは、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行うこと、をさらに含み、
 前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、
情報処理方法。
(15)
 コンピュータを、
 時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
 を備え、
 前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
 前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、
 情報処理装置、
として機能させるプログラム。
 10   情報処理装置
 11   RGB画像
 12   EVS画像
 13   近似画像
 110  RGBセンサ
 120  EVS
 130  追跡処理部
 135  推定器
 140  アプリケーション処理部
 142  ジェスチャ解析部
 144  パラメータ計算部

Claims (15)

  1.  時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
     を備え、
     前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
     前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、
    情報処理装置。
  2.  前記追跡処理部は、前記第1の画像を前記第2の画像に近似した近似画像に基づき前記空間勾配を計算する、
    請求項1に記載の情報処理装置。
  3.  前記追跡処理部は、前記第1の画像を入力とし前記近似画像を出力する推定器を備える、
    請求項2に記載の情報処理装置。
  4.  前記推定器は、前記近似画像に基づく前記時間勾配および前記第2の画像に基づく前記時間勾配から計算した前記動き量と、与えられる正解動き量との差分をより小さくする教師あり学習により生成される、
    請求項3に記載の情報処理装置。
  5.  前記第2の画像は、EVSにより取得される、
    請求項1に記載の情報処理装置。
  6.  前記第1の画像は、RGBセンサにより取得される、
    請求項5に記載の情報処理装置。
  7.  前記EVSをさらに備える、
    請求項6に記載の情報処理装置。
  8.  前記RGBセンサをさらに備える、
    請求項7に記載の情報処理装置。
  9.  前記EVSおよび前記RGBセンサは一体に形成される、
    請求項8に記載の情報処理装置。
  10.  前記追跡処理部による前記対象物体の追跡の結果に基づきアプリケーションの制御を行うアプリケーション処理部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  11.  前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、ジェスチャ解析を行う、
    請求項10に記載の情報処理装置。
  12.  前記アプリケーション処理部は、前記対象物体の追跡の結果に基づき、前記第1の画像の取得に係るパラメータを計算する、
    請求項10に記載の情報処理装置。
  13.  前記パラメータは、絞り値を含む、
    請求項12に記載の情報処理装置。
  14.  プロセッサが、時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行うこと、
     を含み、
     前記追跡を行うことは、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行うこと、をさらに含み、
     前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、
    情報処理方法。
  15.  コンピュータを、
     時系列に取得される第1の画像および第2の画像に基づき、対象物体の検出および追跡を行う追跡処理部、
     を備え、
     前記追跡処理部は、前記第1の画像に基づき前記対象物体を検出し、前記第1の画像に由来する空間勾配および前記第2の画像に由来する時間勾配に基づき前記対象物体の動き量を計算し、前記動き量に基づき前記対象物体の追跡を行い、
     前記第2の画像は、前記第1の画像と比較して高いフレームレートで取得される、
     情報処理装置、
    として機能させるプログラム。
     
PCT/JP2023/014222 2022-05-20 2023-04-06 情報処理装置、情報処理方法、およびプログラム WO2023223704A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022082796 2022-05-20
JP2022-082796 2022-05-20

Publications (1)

Publication Number Publication Date
WO2023223704A1 true WO2023223704A1 (ja) 2023-11-23

Family

ID=88834999

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/014222 WO2023223704A1 (ja) 2022-05-20 2023-04-06 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023223704A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015216635A (ja) * 2014-05-09 2015-12-03 三菱電機株式会社 環境における物体を追跡する方法及びシステム
JP2017028655A (ja) * 2015-07-28 2017-02-02 日本電気株式会社 追跡システム、追跡方法および追跡プログラム
JP2018207497A (ja) * 2018-07-19 2018-12-27 キヤノン株式会社 画像処理装置及び画像処理方法、撮像装置、プログラム、並びに記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015216635A (ja) * 2014-05-09 2015-12-03 三菱電機株式会社 環境における物体を追跡する方法及びシステム
JP2017028655A (ja) * 2015-07-28 2017-02-02 日本電気株式会社 追跡システム、追跡方法および追跡プログラム
JP2018207497A (ja) * 2018-07-19 2018-12-27 キヤノン株式会社 画像処理装置及び画像処理方法、撮像装置、プログラム、並びに記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GALLEGO GUILLERMO; DELBRUCK TOBI; ORCHARD GARRICK; BARTOLOZZI CHIARA; TABA BRIAN; CENSI ANDREA; LEUTENEGGER STEFAN; DAVISON ANDREW: "Event-Based Vision: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY., USA, vol. 44, no. 1, 10 July 2020 (2020-07-10), USA , pages 154 - 180, XP011891801, ISSN: 0162-8828, DOI: 10.1109/TPAMI.2020.3008413 *
YAMANE K., KURODA T., NAKAMURA Y.: "High-precision and high-speed motion capture by combining heterogeneous cameras", INTELLIGENT ROBOTS AND SYSTEMS, 2004. (IROS 2004). PROCEEDINGS. 2004 I EEE/RSJ INTERNATIONAL CONFERENCE ON SENDAI, JAPAN 28 SEPT.-2 OCT., 2004, PISCATAWAY, NJ, USA,IEEE, PISCATAWAY, NJ, USA, vol. 1, 28 September 2004 (2004-09-28) - 2 October 2004 (2004-10-02), Piscataway, NJ, USA , pages 279 - 286, XP010765548, ISBN: 978-0-7803-8463-7, DOI: 10.1109/IROS.2004.1389365 *

Similar Documents

Publication Publication Date Title
US10394318B2 (en) Scene analysis for improved eye tracking
JP6230751B1 (ja) 物体検出装置および物体検出方法
JP5272886B2 (ja) 動体検出装置と動体検出方法およびコンピュータ・プログラム
JP2019075156A (ja) 多因子画像特徴登録及び追尾のための方法、回路、装置、システム、及び、関連するコンピュータで実行可能なコード
US20110050939A1 (en) Image processing apparatus, image processing method, program, and electronic device
US11839721B2 (en) Information processing apparatus, information processing method, and storage medium
JP2016085487A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2006277666A (ja) 表示画面上位置解析装置及び表示画面上位置解析プログラム
US20110091074A1 (en) Moving object detection method and moving object detection apparatus
US11494975B2 (en) Method for analyzing three-dimensional model and device for analyzing three-dimensional model
US11727637B2 (en) Method for generating 3D skeleton using joint-based calibration acquired from multi-view camera
JP2021530823A (ja) ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器
CN113887547A (zh) 关键点检测方法、装置和电子设备
JP2019212148A (ja) 情報処理装置及び情報処理プログラム
JP2019129482A (ja) 画像処理装置
WO2011096571A1 (ja) 入力装置
JPWO2016158119A1 (ja) 医療用観察装置、情報処理方法、プログラム、及びビデオ顕微鏡装置
WO2023223704A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008035096A (ja) 監視装置、監視方法及びプログラム
CN111479109A (zh) 基于视听联合注意的视频质量评价方法、系统及终端
US20220262031A1 (en) Information processing apparatus, information processing method, and storage medium
JPWO2016158184A1 (ja) 医療用観察装置、レンズ駆動制御装置、レンズ駆動制御方法、プログラム、及びビデオ顕微鏡装置
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
CN114596475A (zh) 单应性流估计模型的训练方法、单应性流估计方法和装置
CN110349109B (zh) 基于鱼眼畸变校正方法及其系统、电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23807319

Country of ref document: EP

Kind code of ref document: A1