WO2020250387A1 - 画像処理装置、画像処理方法及びプログラム - Google Patents
画像処理装置、画像処理方法及びプログラム Download PDFInfo
- Publication number
- WO2020250387A1 WO2020250387A1 PCT/JP2019/023509 JP2019023509W WO2020250387A1 WO 2020250387 A1 WO2020250387 A1 WO 2020250387A1 JP 2019023509 W JP2019023509 W JP 2019023509W WO 2020250387 A1 WO2020250387 A1 WO 2020250387A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- reference point
- circle
- points
- complementary
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 141
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000000295 complement effect Effects 0.000 claims abstract description 73
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 230000005484 gravity Effects 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 12
- 238000000034 method Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 16
- 230000006399 behavior Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/698—Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
Definitions
- the present invention relates to an image processing apparatus, an image processing method and a program.
- Patent Document 1 discloses a technique for performing machine learning using a training image and information for identifying the location of a business store. Then, Patent Document 1 discloses that a panoramic image, an image having a field of view larger than 180 °, and the like can be used as a training image.
- Non-Patent Document 1 discloses a technique for estimating human behavior indicated by a moving image based on 3D-CNN (convolutional neural network).
- a fisheye image Since distortion occurs in an image generated by a fisheye lens camera (hereinafter, may be referred to as a "fisheye image"), the direction of gravity may differ depending on the position in the image. For this reason, an unnatural situation may occur in which the direction in which the body of the standing person extends differs depending on the position in the image. Even if such a fisheye image is input to an estimation model generated by machine learning based on an image (learning data) generated by a standard lens (for example, an angle of view of about 40 ° to about 60 °), sufficient estimation is performed. I can't get results.
- a means for panoramicly expanding the fisheye image to generate a panoramic image can be considered.
- a fisheye image can be panoramicly developed by a method as disclosed in FIG.
- the reference line L s is a position where the fisheye image is cut open, and is located at the end in the panoramic image. There are various ways to determine the reference line L s .
- the reference point (x c , y c ) is the center of the image in the circular image circle of the fisheye image.
- the width w is the width of the panoramic image
- the height h is the height of the panoramic image.
- any target point (x f , y f ) in the fisheye image is converted to a point (x p , y p ) in the panoramic image based on the “panoramic expansion” formula shown in the figure. can do. If an arbitrary target point (x f , y f ) in the fisheye image is specified, the distance r f between the reference point (x c , y c ) and the target point (x f , y f ) can be calculated. Similarly, the angle ⁇ formed by the line connecting the reference point (x c , y c ) and the target point (x f , y f ) and the reference line L s can be calculated.
- the unnaturalness of the above-mentioned image can be reduced.
- the reference points (x c , y c ) are not located at appropriate positions in the image, the above-mentioned unnaturalness may remain in the panoramic image.
- An object of the present invention is to provide a new technique for panoramic development of a fisheye image in order to alleviate the problem.
- a circular image obtained by adding a complementary image to the image in the image circle in the image generated by the fisheye lens camera, and generating a complementary circular image centered on a reference point different from the center of the image in the image circle.
- the computer A circular image obtained by adding a complementary image to the image in the image circle in the image generated by the fisheye lens camera, and generating a complementary circular image centered on a reference point different from the center of the image in the image circle.
- An image processing method for panoramicly developing the complementary circular image based on the reference point to generate a panoramic image is provided.
- Computer A circular image obtained by adding a complementary image to the image in the image circle in the image generated by the fisheye lens camera, and generating a complementary circular image centered on a reference point different from the center of the image in the image circle.
- Image generation means A developing means for panoramicly expanding the complementary circular image based on the reference point to generate a panoramic image.
- a program is provided to function as.
- the system of the present embodiment includes an image processing device 10 and a processing device 20.
- the image processing device 10 panoramicly develops the input fisheye image and generates a panoramic image.
- the image processing device 10 panoramicly develops the fisheye image by the method described with reference to FIG. 1, but since the center of the image in the image circle of the fisheye image is uniformly set to the reference point (x c , y c ). However, a means for appropriately setting a reference point (x c , y c ) is provided. The details will be described later.
- the panoramic image generated by the image processing device 10 alleviates the inconvenience that the direction in which the body of the standing person extends varies.
- the processing device 20 estimates the human behavior indicated by the plurality of input panoramic images (moving images). Based on the 3D-CNN, the processing device 20 generates three-dimensional feature information indicating the time change of the feature of each position in the image from a plurality of two-dimensional images (panoramic images) in time series, and also generates the plurality of images. In each case, the person position information indicating the position where the person exists is generated. Then, the processing device 20 estimates the person behavior indicated by the plurality of images based on the time change of the feature indicated by the three-dimensional feature information at the position where the person indicated by the person position information exists. According to such a processing device 20, since the person behavior can be estimated using only the information related to the person in the three-dimensional feature information, the estimation accuracy is improved.
- Each functional unit included in each of the image processing device 10 and the processing device 20 includes a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program loaded into the memory, and a storage unit such as a hard disk for storing the program (device in advance).
- a CPU Central Processing Unit
- a storage unit such as a hard disk for storing the program (device in advance).
- programs stored from the stage of shipment it can also store programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet), hardware and software centered on network connection interfaces. It is realized by any combination of. And, it is understood by those skilled in the art that there are various modifications of the realization method and the device.
- FIG. 3 is a block diagram illustrating the hardware configurations of the image processing device 10 and the processing device 20.
- each of the image processing device 10 and the processing device 20 has a processor 1A, a memory 2A, an input / output interface 3A, a peripheral circuit 4A, and a bus 5A.
- the peripheral circuit 4A includes various modules.
- Each of the image processing device 10 and the processing device 20 does not have to have the peripheral circuit 4A.
- Each of the image processing device 10 and the processing device 20 may be composed of a plurality of physically and / or logically separated devices, or may be composed of one physically and / or logically integrated device. May be done.
- each of the image processing device 10 and the processing device 20 is composed of a plurality of physically and / or logically separated devices, each of the plurality of devices can be provided with the above hardware configuration.
- the bus 5A is a data transmission path for the processor 1A, the memory 2A, the peripheral circuit 4A, and the input / output interface 3A to send and receive data to and from each other.
- the processor 1A is, for example, an arithmetic processing unit such as a CPU or a GPU (Graphics Processing Unit).
- the memory 2A is, for example, a memory such as a RAM (RandomAccessMemory) or a ROM (ReadOnlyMemory).
- the input / output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. ..
- the input device is, for example, a keyboard, a mouse, a microphone, a physical button, a touch panel, or the like.
- the output device is, for example, a display, a speaker, a printer, a mailer, or the like.
- the processor 1A can issue commands to each module and perform calculations based on the calculation results thereof.
- FIG. 4 shows an example of a functional block diagram of the image processing device 10. As shown in the figure, the image processing device 10 is expanded with an image acquisition unit 11, a detection unit 12, a gravity direction identification unit 13, a reference point determination unit 14, a storage unit 15, and a complementary circular image generation unit 16. It has a part 17.
- the image acquisition unit 11 acquires a fisheye image.
- acquisition means “acquisition of data stored in another device or storage medium by the own device” based on user input or program instruction (active acquisition). ) ”, For example, requesting or inquiring about another device and receiving it, accessing another device or a storage medium, and reading the data may be included.
- acquisition means “inputting data output from another device to the own device (passive acquisition)” based on user input or program instruction, for example, distribution (or distribution (or). , Transmission, push notification, etc.) may include receiving data.
- acquisition means to select and acquire from received data or information, and “edit data (text conversion, data sorting, partial data extraction, file format change, etc.)". It may include “to generate new data and acquire the new data”.
- the detection unit 12 detects a predetermined plurality of points on the body of each of the plurality of persons from the images in the image circle of the fisheye image. Then, the gravity direction specifying unit 13 specifies the gravity direction (vertical direction) at each position of the plurality of persons based on the predetermined plurality of points detected by the detecting unit 12.
- the detection unit 12 may detect a plurality of points (2 points) of the body in which the lines connecting each other are parallel to the direction of gravity in the image generated by photographing the standing person from the front. Examples of such a combination of two points include (middle of both shoulders, middle of waist), (tip of head, middle of waist), (tip of head, middle of both shoulders), and the like. Not limited.
- the gravity direction specifying unit 13 specifies the direction from a predetermined one of the two points detected corresponding to each person toward the other point as the gravity direction.
- the detection unit 12 may detect a plurality of points (2 points) of the body in which the lines connecting each other are perpendicular to the direction of gravity in the image generated by photographing the standing person from the front. Examples of such a combination of the two points include (right shoulder, left shoulder), (right waist, left waist), and the like, but are not limited thereto.
- the gravity direction specifying unit 13 specifies the direction in which the line perpendicular to the line connecting the two points extends through the midpoint of the two points detected corresponding to each person as the gravity direction. To do.
- the detection unit 12 can detect a plurality of points on the body described above by using any image analysis technique.
- the detection unit 12 uses the same algorithm as the "algorithm for detecting predetermined plurality of points of each person's body existing in the image generated by a standard lens (for example, an angle of view of about 40 ° to about 60 °) camera" for a fisheye image. By analyzing the above, it is possible to detect a predetermined plurality of points on the body of each of the plurality of persons.
- the detection unit 12 may analyze the image while rotating the fisheye image. That is, the detection unit 12 rotates the image in the image circle of the fisheye image, analyzes the image in the image circle after the rotation, and detects a predetermined plurality of points of the human body at a plurality of rotation angles. You may go against it.
- FIGS. 5 to 8 there are five persons M1 to M5 in the image C1 in the image circle of the fisheye image F. All five people M1 to M5 are standing upright, but their body stretches in different directions.
- the detection unit 12 first analyzes the image in the rotated state shown in FIG. 5, and performs a process of detecting the middle P1 of both shoulders and the middle P2 of the waist of each person. In this case, the detection unit 12 could detect the points P1 and P2 of the persons M1 and M2 whose body extension direction is close to the vertical direction in the figure, but could not detect the points P1 and P2 of the other persons.
- the detection unit 12 rotates the fisheye image F by 90 °. Then, the state shown in FIG. 6 is obtained.
- the detection unit 12 analyzes the image in this rotated state, and performs a process of detecting the middle P1 of both shoulders and the middle P2 of the waist of each person. In this case, the detection unit 12 could detect the points P1 and P2 of the person M5 whose body extension direction is close to the vertical direction in the figure, but could not detect the points P1 and P2 of the other person.
- the detection unit 12 rotates the fisheye image F by 90 °. Then, the state shown in FIG. 7 is obtained.
- the detection unit 12 analyzes the image in this rotated state, and performs a process of detecting the middle P1 of both shoulders and the middle P2 of the waist of each person. In this case, the detection unit 12 could detect the points P1 and P2 of the person M4 whose body extension direction is close to the vertical direction in the figure, but could not detect the points P1 and P2 of the other person.
- the detection unit 12 rotates the fisheye image F by 90 °. Then, the state shown in FIG. 8 is obtained.
- the detection unit 12 analyzes the image in this rotated state, and performs a process of detecting the middle P1 of both shoulders and the middle P2 of the waist of each person. In this case, the detection unit 12 could detect the points P1 and P2 of the person M3 whose body extension direction is close to the vertical direction in the figure, but could not detect the points P1 and P2 of the other person.
- the detection unit 12 can detect a predetermined plurality of points on the body of each of the plurality of persons whose body stretches in different directions by analyzing the image while rotating the fisheye image.
- the rotation is performed by 90 °, but this is just an example and is not limited to this.
- the reference point determination unit 14 determines the reference point (x c , y c ) based on the direction of gravity at each position of the plurality of persons in the fisheye image. Then, the reference point determination unit 14 stores the determined reference points (x c , y c ) in the storage unit 15.
- the intersecting points are set as reference points (x c , y c ). And.
- the reference point determining unit 14 determines the distance from each of the plurality of straight lines. A point that satisfies the condition is set as a reference point (x c , y c ).
- the detection unit 12 detects a plurality of points (2 points) of the body in which the lines connecting each other are parallel to the direction of gravity in the image generated by photographing the standing person from the front, "the position of each of the plurality of persons".
- the "straight line extending in the direction of gravity at each position of the plurality of persons” may be a line connecting the two points detected by the detection unit 12.
- the detection unit 12 detects a plurality of points (two points) of the body in which the lines connecting each other are perpendicular to the direction of gravity in the image generated by photographing the standing person from the front, "each of the plurality of persons".
- the "straight line extending in the direction of gravity at each position of the plurality of persons” is a line that passes through the midpoint of the two points detected by the detection unit 12 and is perpendicular to the line connecting the two points. You may.
- FIG. 9 shows the concept of processing by the reference point determination unit 14.
- the detection unit 12 detects a plurality of points P1 and P2 of the body in which the lines connecting each other are parallel to the direction of gravity in the image generated by photographing the standing person from the front.
- the "straight lines L1 to L5 that pass through the positions of the plurality of persons and extend in the direction of gravity at the positions of the plurality of persons" are lines connecting the points P1 and P2 detected by the detection unit 12.
- the plurality of straight lines L1 to L5 do not intersect at one point.
- the detection unit 12 sets a point at which the distance from each of the plurality of straight lines L1 to L5 satisfies a predetermined condition as a reference point (x c , y c ).
- the predetermined condition is, for example, "the sum of the distances to each of the plurality of straight lines is the minimum", but is not limited to this.
- the detection unit 12 can calculate a point satisfying a predetermined condition based on the following formulas (1) to (3).
- each of the straight lines L1 to L5 is shown by the equation (1).
- k i is the inclination of each straight line
- c i is the intercept of each straight line. From the equations (2) and (3), the point at which the sum of the distances to each of the straight lines L1 to L5 is the minimum can be calculated as a reference point (x c , y c ).
- the complementary circular image generation unit 16 generates a complementary circular image when the reference point (x c , y c ) is different from the center of the image in the image circle of the fisheye image.
- the complementary circular image is a circular image obtained by adding a complementary image to the image in the image circle, and is an image centered on a reference point (x c , y c ).
- the maximum value of the distance from the reference point (x c , y c ) to the point on the outer circumference of the image in the image circle is the radius, and the image in the image circle may be inscribed.
- the complementary image added to the image in the image circle may be a single color (example: black) image, an arbitrary pattern image, or any other image.
- FIG. 10 shows an example of the complementary circular image C2 generated by the complementary circular image generation unit 16.
- a complementary circular image C2 is generated by adding a black single color complementary image to the image C1 in the image circle of the fisheye image F.
- the complementary circular image C2 is centered on a reference point (x c , y c ).
- the radius r of the complementary circular image C2 is the maximum value of the distance from the reference point (x c , y c ) to the point on the outer circumference of the image C1 in the image circle.
- the image C1 in the image circle is inscribed in the complementary circular image C2.
- the complementary circular image generation unit 16 does not generate the complementary circular image.
- the developing unit 17 panoramicly develops the fisheye image based on the reference points (x c , y c ) and generates a panoramic image.
- the expansion unit 17 is a complementary circular image when the reference point (x c , y c ) is different from the center of the image in the image circle of the fisheye image, that is, when the complementary circular image generation unit 16 generates the storage circular image. To generate a panoramic image by expanding the panorama.
- the expansion unit 17 sets The image in the image circle of the fisheye image is panoramicly expanded to generate a panoramic image.
- the development unit 17 can perform panoramic development by using the method described with reference to FIG.
- the development unit 17 can determine a reference line L s that does not overlap with the person, cut out a complementary circular image or an image in the image circle from the reference line L s , and generate a panoramic image. By doing so, it is possible to suppress the inconvenience that the person in the image is separated into two parts in the panoramic image. For example, the developing unit 17 does not set the reference line L s within a predetermined distance from the plurality of points of each person's body detected by the detection unit 12, and the reference line is located at a place separated from the detected plurality of points by a predetermined distance or more. L s may be set.
- the detection unit 12 detects a predetermined plurality of points on the body of each of the plurality of persons from the images in the image circle (S10). For example, the detection unit 12 detects the middle P1 of both shoulders and the middle P2 of the waist of each person.
- the detection unit 12 analyzes the image in the image circle and detects a predetermined plurality of points on the body of each of the plurality of persons (S20). After that, the detection unit 12 rotates the image in the image circle by a predetermined angle (S21).
- the predetermined angle is, for example, 90 °, but is not limited thereto.
- the detection unit 12 analyzes the image in the image circle after rotation and detects a predetermined plurality of points on the body of each of the plurality of persons (S22). Then, when the total rotation angle has not reached 360 ° (No in S43), the detection unit 12 returns to S21 and repeats the same process. On the other hand, when the total rotation angle reaches 360 ° (Yes in S43), the detection unit 12 ends the process.
- the detection unit 12 rotates the image in the image circle, analyzes the image in the image circle after the rotation, and detects a predetermined plurality of points of the human body with respect to a plurality of rotation angles. It can be carried out.
- the gravity direction specifying unit 13 specifies the gravity direction at each position of the plurality of persons based on the predetermined plurality of points detected in S10 (S11). For example, the gravity direction specifying unit 13 specifies the direction from the center P1 of both shoulders of each person to the center P2 of the waist as the gravity direction at the position of each person.
- the reference point determination unit 14 passes through the positions of each of the plurality of persons and calculates a straight line extending in the direction of gravity at each position (S12).
- the reference point determining unit 14 sets the intersecting points as reference points (x c , y c ) (S14).
- the reference point determination unit 14 finds a point at which the distance from each of the plurality of straight lines satisfies a predetermined condition (example: shortest), and uses that point as a reference. Let it be a point (x c , y c ) (S15).
- the developing unit 17 is the method described with reference to FIG. Is used to panoramicly expand the image in the image circle of the fisheye image to generate a panoramic image (S33). That is, in this case, the generation of the complementary circular image and the panoramic expansion of the complementary circular image are not performed.
- the complementary circular image generation unit 16 uses the complementary circular image. Is generated (S31).
- the complementary circular image is a circular image obtained by adding a complementary image to the image in the image circle, and is an image centered on a reference point (x c , y c ).
- the maximum value of the distance from the reference point (x c , y c ) to the point on the outer circumference of the image in the image circle is the radius, and the image in the image circle may be inscribed.
- the complementary image added to the image in the image circle may be a single color (example: black) image, an arbitrary pattern image, or any other image.
- the developing unit 17 panoramicly develops the complementary circular image by using the method described with reference to FIG. 1 to generate a panoramic image (S32).
- the image processing device 10 may perform a process of determining the above-mentioned reference points (x c , y c ) for all the fisheye images to be developed in the panorama.
- a plurality of fisheye images are generated with the position and orientation of the cameras fixed.
- the reference points (x c , y c ) can be applied to all the fisheye images.
- the image processing apparatus 10 determines the above-mentioned reference points (x c , y c ) only for the fisheye image first input, and the determined reference points (x c , y c ).
- the panoramic development based on the above is performed, and the fisheye image input thereafter is not subjected to the above-mentioned processing for determining the reference point (x c , y c ), and the reference point ( c ) stored in the storage unit 15 ( Panorama development based on x c , y c ) may be performed.
- the image processing device 10 does not have to have the detection unit 12, the gravity direction specifying unit 13, and the reference point determining unit 14. Then, the image processing device 10 may have a reference point receiving unit 18.
- the reference point reception unit 18 accepts user input with any one point in the fisheye image as a reference point (x c , y c ) by any means.
- the configurations of the image acquisition unit 11, the complementary circular image generation unit 16, and the development unit 17 are as described above.
- the reference points (x c , y c ) are not calculated by the image processing apparatus 10, but are determined by user input.
- the processing device 20 uses a machine learning technique to estimate the human behavior indicated by a plurality of time-series images.
- FIG. 15 shows an example of a functional block diagram of the processing device 20.
- the processing device 20 includes an input receiving unit 21, a first generation unit 22, a second generation unit 23, and an estimation unit 24.
- the input reception unit 21 accepts input of a plurality of images in chronological order. For example, a plurality of time-series panoramic images generated by the image processing device 10 are input.
- the first generation unit 22 generates three-dimensional feature information indicating a time change of features at each position in the image from a plurality of time-series images.
- the first generation unit 22 can generate three-dimensional feature information based on 3D CNN (for example, a convolutional deep learning network such as 3D Resnet, but is not limited to this).
- the second generation unit 23 generates person position information indicating the position where the person exists in each of the plurality of images.
- the second generation unit 23 can generate person position information indicating the position where each of the plurality of people exists.
- the second generation unit 23 extracts the silhouette (whole body) of the person in the image, and generates the person position information indicating the area in the image including the extracted silhouette.
- the second generation unit 23 is based on deep learning technology, and more specifically, "deep learning of object recognition" that recognizes any object (for example, a person) from a flat image or video at high speed and with high accuracy. Person position information can be generated based on the "network". Examples of the deep learning network for object recognition include, but are not limited to, Mask-RCNN, RCNN, Fast RCNN, and Faster RCNN.
- the estimation unit 24 estimates the person behavior shown by the plurality of images based on the time change of the feature indicated by the three-dimensional feature information at the position where the person indicated by the person position information exists. For example, the estimation unit 24 corrects the three-dimensional feature information to change the value at a position other than the position where the person indicated by the person position information exists to a predetermined value (example: 0), and then after the correction. It is possible to estimate the human behavior shown by a plurality of images based on the three-dimensional feature information. The estimation unit 24 can estimate the human behavior based on the estimation model generated in advance by machine learning and the corrected three-dimensional feature information.
- the input reception unit 21 acquires a plurality of time-series images (S40).
- the first generation unit 22 generates three-dimensional feature information indicating the time change of the feature at each position in the image from the plurality of time-series images (S41).
- the second generation unit 23 generates person position information indicating the position where the person exists in each of the plurality of images (S42).
- the estimation unit 24 estimates the person behavior indicated by the plurality of images based on the time change of the feature indicated by the three-dimensional feature information at the position where the person indicated by the person position information exists (S43).
- a time-series image (16 x 2451 x 800) for 16 frames is input to the processing device 20.
- the processing device 20 is based on a 3D CNN (for example, a convolutional deep learning network such as 3D Resnet, but is not limited to this), and is three-dimensionally convoluted into 512 channels from the images of 16 frames.
- Generate feature information (512 ⁇ 77 ⁇ 25).
- the processing device 20 generates person position information indicating a position where a person exists in each of 16 frames of images based on a deep learning network of object recognition such as Mask-RCNN.
- the person position information indicates the position of each of a plurality of rectangular areas including each person.
- the processing device 20 performs correction on the three-dimensional feature information to change the value at the position other than the position where the person indicated by the person position information exists to a predetermined value (example: 0). After that, the processing device 20 collects the data into 512 ⁇ 1 ⁇ 3 by Average Pooling, and then converts the data into one dimension by flatten (1536). Next, the processing device 20 inputs the one-dimensional data into the fully-connected layer, and obtains a probability (output value) corresponding to each of the plurality of categories (personal behavior). In the illustrated example, 19 categories are defined and learned.
- the 19 categories are “walking”, “running”, “waving”, “picking up”, “throwing away”, “taking off the jacket”, “wearing the jacket”, “making a phone call”, “” “Use a smartphone”, “Eat a snack”, “Up the stairs”, “Down the stairs”, “Drink water”, “Shake hands”, “Take things from someone else's pocket”, “Give things to others” , “Push another person”, “Hold the card to enter the station yard”, “Hold the card to exit the station ticket gate”, but it is not limited to these.
- the processing device 20 estimates that the person behavior corresponding to the category whose probability is equal to or higher than the threshold value is shown in the image.
- the center of the image in the image circle of the fisheye image is not uniformly panoramicly developed as a reference point (x c , y c ), but is appropriately in the fisheye image. It is possible to develop a panorama with various positions as reference points (x c , y c ). Therefore, in the panoramic image, it is possible to suppress the inconvenience that the extending direction of the body of the standing person varies. As a result, by inputting the panoramic image into the estimation model generated by machine learning based on the image (learning data) generated by the standard lens camera, it is possible to estimate the person behavior indicated by the image with high accuracy. ..
- predetermined plurality of points of the body of each of the plurality of persons included in the image are detected, and the gravity direction at each position of the plurality of persons is specified based on the plurality of points.
- the reference points (x c , y c ) can be determined based on the direction of gravity at each position of the plurality of persons. According to such an image processing apparatus 10, it is possible to determine an appropriate reference point (x c , y c ) with high accuracy in order to suppress the above inconvenience.
- the image processing device 10 of the present embodiment it is possible to detect a predetermined plurality of points on the body of each of the plurality of persons while rotating the fisheye image. Therefore, even if the body of the person standing up in the fisheye image varies in the direction of extension, each of the plurality of people in the fisheye image is subjected to the same processing as the image analysis process for the image generated by the standard lens camera. It is possible to detect a plurality of predetermined points on the body with high accuracy.
- the image processing apparatus 10 of the present embodiment when the determined reference point (x c , y c ) is different from the center of the image in the image circle of the fisheye image, a complementary image is added to the image in the image circle. It is possible to generate a complementary circular image centered on a determined reference point (x c , y c ), which is a circular image, and panoramicly develop the complementary circular image. Therefore, even if the determined reference point (x c , y c ) is different from the center of the image in the image circle of the fisheye image, the fisheye image is panoramicly expanded by using the method disclosed in FIG. Can be done.
- the reference line L s is determined so as not to overlap with the person, and the complementary circular image or the image in the image circle is cut open from the reference line L s to generate a panoramic image. Can be done. Therefore, it is possible to suppress the inconvenience that the person in the image is separated into two parts in the panoramic image. As a result, based on the panoramic image, it is possible to estimate the human behavior indicated by the image with high accuracy.
- a reference point calculated once is taken into consideration when a plurality of images are generated in a state where the position and orientation of the cameras are fixed, for example, a surveillance camera or the like.
- x c , y c ) can be stored in the storage unit 15, and thereafter, panoramic development can be performed based on the reference points (x c , y c ) stored in the storage unit 15. That is, instead of performing the process of determining the reference points (x c , y c ) for all fisheye images, the process of determining the reference points (x c , y c ) for only one fisheye image. , And the process of determining the reference point (x c , y c ) for other fisheye images can be omitted. As a result, the processing load of the image processing device 10 can be reduced.
- the processing device 20 of the present embodiment after generating three-dimensional feature information indicating the time change of the feature of each position in the image based on 3D-CNN, the information of the position where the person is detected from the three-dimensional feature information is generated. Only the information is extracted (other information is invalidated), and the person behavior can be estimated by using only the information related to the person in the three-dimensional feature information. Since unnecessary information can be eliminated and estimation can be performed by focusing on only necessary information, estimation accuracy is improved and the processing load on the computer is reduced.
- the image processing device 10 that outputs a panoramic image when a fisheye image is input may be used for a purpose other than inputting the panoramic image to the processing device 20. Further, a panoramic image generated by the image processing device 10 may be input to the processing device 20, a panoramic image generated by another device may be input, or an image generated by a standard lens camera may be input. It may be entered.
- the image processing device 10 and the processing device 20 are described separately, but the image processing device 10 and the processing device 20 may be physically and / or logically separately configured, or may be physically and physically separated. It may be configured as one target and / or logically.
- the image processing apparatus or image processing system according to 1 or 2, wherein the developing means determines a reference line that does not overlap with a person, cuts the complementary circular image from the reference line, and generates the panoramic image.
- a detection means for detecting a predetermined plurality of points on the body of each of a plurality of persons from the images in the image circle.
- Gravity direction specifying means for specifying the gravity direction at each position of a plurality of persons based on the predetermined plurality of points, and
- a reference point determining means for determining the reference point based on the direction of gravity at each position of the plurality of persons,
- the image processing apparatus or image processing system according to any one of 1 to 3 having the above. 5.
- the intersecting points are set as the reference points 4.
- the reference point determining means passes through the positions of the plurality of persons and the straight lines extending in the direction of gravity at the positions of the plurality of persons do not intersect at one point, the distance from each of the plurality of straight lines is determined.
- the image processing apparatus according to any one of 4 to 6, wherein the detection means detects a plurality of points on the body in which lines connecting each other are parallel to the direction of gravity in an image generated by photographing a standing person from the front. Image processing system.
- the detection means detects a plurality of points on the body in which lines connecting each other are perpendicular to the direction of gravity in an image generated by photographing a standing person from the front. Image processing system.
- the detection means rotates the image in the image circle, analyzes the image in the image circle after the rotation, and detects a predetermined plurality of points on the body of the person for a plurality of rotation angles. 8.
- the image processing apparatus or image processing system according to any one of 8. 10.
- the storage circular image generation means When the reference point and the center of the image in the image circle do not match, The storage circular image generation means generates the storage circular image, The image processing apparatus or image processing system according to any one of 4 to 9, wherein the developing means panoramicly develops the complementary circular image. 11. When the reference point and the center of the image in the image circle coincide with each other The storage circular image generation means does not generate the storage circular image, The image processing apparatus or image processing system according to any one of 4 to 10, wherein the developing means panoramicly develops an image in the image circle. 12.
- the computer A circular image obtained by adding a complementary image to the image in the image circle in the image generated by the fisheye lens camera, and generating a complementary circular image centered on a reference point different from the center of the image in the image circle.
- Computer A circular image obtained by adding a complementary image to the image in the image circle in the image generated by the fisheye lens camera, and generating a complementary circular image centered on a reference point different from the center of the image in the image circle.
- Image generation means A developing means for panoramicly expanding the complementary circular image based on the reference point to generate a panoramic image.
- a program that functions as.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本発明は、魚眼画像のイメージサークル内画像の中から複数の人物各々の身体の所定の複数点を検出する検出部(12)と、所定の複数点から複数の人物各々の位置における重力方向を特定する重力方向特定部(13)と、複数の人物各々の位置における重力方向に基づき基準点を決定する基準点決定部(14)と、魚眼画像のイメージサークル内画像に補完画像を加えた円形の画像であって、イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成部(16)と、基準点に基づき補完円形画像をパノラマ展開してパノラマ画像を生成する展開部(17)と、を有する画像処理装置(10)を提供する。
Description
本発明は、画像処理装置、画像処理方法及びプログラムに関する。
特許文献1は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。そして、特許文献1は、パノラマ画像、視野が180°より大きい画像等をトレーニング画像にできることを開示している。
非特許文献1は、3D-CNN(convolutional neural network)に基づき動画像が示す人物行動を推定する技術を開示している。
Kensho Hara、他2名、" Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"、[online]、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555)、[令和1年5月28日検索]、インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf>
魚眼レンズカメラで生成された画像(以下、「魚眼画像」という場合がある)においては、歪みが発生する為、画像内の位置毎に重力方向が異なり得る。このため、起立した人物の身体が伸びる方向が画像内の位置毎に異なる等の不自然な状況が発生し得る。標準レンズ(例えば画角40°前後~60°前後)カメラで生成された画像(学習データ)に基づく機械学習で生成された推定モデルにこのような魚眼画像を入力しても、十分な推定結果を得られない。
当該問題を解決する手段として、魚眼画像をパノラマ展開してパノラマ画像を生成する手段が考えられる。例えば、図1に開示のような手法で魚眼画像をパノラマ展開することができる。
まず、パノラマ展開する上で、基準線Ls、基準点(xc、yc)、幅w、高さhを定める必要がある。
基準線Lsは、魚眼画像を切り開く位置であり、パノラマ画像においては端部に位置する。基準線Lsの定め方は様々である。
基準点(xc、yc)は、魚眼画像の円形のイメージサークル内画像の中心である。
幅wはパノラマ画像の幅であり、高さhはパノラマ画像の高さである。これらの値はデフォルト値であってもよいし、ユーザが任意に設定してもよい。
これらの値が定まると、図示する「パノラマ展開」の式に基づき、魚眼画像内の任意の対象点(xf、yf)を、パノラマ画像内の点(xp、yp)に変換することができる。魚眼画像内の任意の対象点(xf、yf)を指定すると、基準点(xc、yc)と対象点(xf、yf)との距離rfを算出できる。同様に、基準点(xc、yc)と対象点(xf、yf)を結ぶ線と基準線Lsとのなす角θが算出できる。結果、図示する「パノラマ展開」の式における変数w、θ、h、rf及びrの値が定まる。なお、rは、イメージサークル内画像の半径である。これらの変数の値を当該式に代入することで、点(xp、yp)を算出することができる。
また、図示する「逆パノラマ展開」の式より、パノラマ画像を魚眼画像に変換することもできる。
確かに、魚眼画像をパノラマ展開してパノラマ画像を生成することで、上述した画像の不自然さを軽減できる。しかし、上述した手法の場合、基準点(xc、yc)が画像内の適切な位置になければ、パノラマ画像においても上述した不自然さが残り得る。
魚眼画像のイメージサークル内画像の中心に写るものは撮影時のカメラの向き等に応じて変化し得る。このような撮影時のカメラの向き等に応じて写るものが変化し得る魚眼画像のイメージサークル内画像の中心を一律に基準点(xc、yc)に設定する方法の場合、基準点(xc、yc)の設定が不適切となり、パノラマ画像において上述した不自然さが残るという問題が発生し得る。
本発明は、当該問題を軽減するため、魚眼画像をパノラマ展開する新たな技術を提供することを目的とする。
本発明によれば、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段と、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段と、
を有する画像処理装置が提供される。
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段と、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段と、
を有する画像処理装置が提供される。
また、本発明によれば、
コンピュータが、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成し、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する画像処理方法が提供される。
コンピュータが、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成し、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する画像処理方法が提供される。
また、本発明によれば、
コンピュータを、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段、
として機能させるプログラムが提供される。
コンピュータを、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段、
として機能させるプログラムが提供される。
本発明によれば、魚眼画像をパノラマ展開する新たな技術が実現される。
上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
<システムの全体像及び概要>
まず、図2を用いて、本実施形態のシステムの全体像及び概要を説明する。本実施形態のシステムは、画像処理装置10と、処理装置20とを有する。
まず、図2を用いて、本実施形態のシステムの全体像及び概要を説明する。本実施形態のシステムは、画像処理装置10と、処理装置20とを有する。
画像処理装置10は、入力された魚眼画像をパノラマ展開し、パノラマ画像を生成する。画像処理装置10は、図1を用いて説明した手法で魚眼画像をパノラマ展開するが、魚眼画像のイメージサークル内画像の中心を一律に基準点(xc、yc)に設定するのでなく、基準点(xc、yc)を適切に設定する手段を備える。その詳細は後述する。このような画像処理装置10が生成するパノラマ画像は、起立した人物の身体が伸びる方向がばらつく不都合が軽減されている。
処理装置20は、入力された複数のパノラマ画像(動画像)が示す人物行動を推定する。処理装置20は、3D-CNNに基づき、時系列な複数の2次元の画像(パノラマ画像)から、画像内の各位置の特徴の時間変化を示す3次元特徴情報を生成するとともに、複数の画像各々において人物が存在する位置を示す人物位置情報を生成する。そして、処理装置20は、人物位置情報で示される人物が存在する位置における3次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する。このような処理装置20によれば、3次元特徴情報の中の人物に関係する情報のみを用いて人物行動の推定を行うことができるので、推定精度が向上する。
<ハードウエア構成>
以下、本実施形態のシステムの構成を詳細に説明する。まず、画像処理装置10及び処理装置20のハードウエア構成の一例を説明する。画像処理装置10及び処理装置20各々が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
以下、本実施形態のシステムの構成を詳細に説明する。まず、画像処理装置10及び処理装置20のハードウエア構成の一例を説明する。画像処理装置10及び処理装置20各々が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図3は、画像処理装置10及び処理装置20各々のハードウエア構成を例示するブロック図である。図3に示すように、画像処理装置10及び処理装置20各々は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。画像処理装置10及び処理装置20各々は周辺回路4Aを有さなくてもよい。なお、画像処理装置10及び処理装置20各々は物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。画像処理装置10及び処理装置20各々が物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
<画像処理装置10の機能構成>
次に、画像処理装置10の機能構成を詳細に説明する。図4に、画像処理装置10の機能ブロック図の一例を示す。図示するように、画像処理装置10は、画像取得部11と、検出部12と、重力方向特定部13と、基準点決定部14と、記憶部15と、補完円形画像生成部16と、展開部17とを有する。
次に、画像処理装置10の機能構成を詳細に説明する。図4に、画像処理装置10の機能ブロック図の一例を示す。図示するように、画像処理装置10は、画像取得部11と、検出部12と、重力方向特定部13と、基準点決定部14と、記憶部15と、補完円形画像生成部16と、展開部17とを有する。
画像取得部11は、魚眼画像を取得する。本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。
検出部12は、魚眼画像のイメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する。そして、重力方向特定部13は、検出部12が検出した所定の複数点に基づき、複数の人物各々の位置における重力方向(鉛直方向)を特定する。
例えば、検出部12は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点(2点)を検出してもよい。このような2点の組み合わせとしては、(両肩の真ん中、腰の真ん中)、(頭の先、腰の真ん中)、(頭の先、両肩の真ん中)等が例示されるが、これらに限定されない。この例の場合、重力方向特定部13は、各人物に対応して検出された2点のうちの所定の1点から他方の点に向かう方向を、重力方向として特定する。
他の例として、検出部12は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点(2点)を検出してもよい。このような2点の組み合わせとしては、(右肩、左肩)、(右腰、左腰)等が例示されるが、これらに限定されない。この例の場合、重力方向特定部13は、各人物に対応して検出された2点の中点を通り、かつ、2点を結ぶ線と垂直な線が延伸する方向を、重力方向として特定する。
なお、検出部12は、あらゆる画像解析の技術を利用して、上述した身体の複数点を検出することができる。検出部12は、「標準レンズ(例えば画角40°前後~60°前後)カメラで生成された画像に存在する人物各々の身体の所定の複数点を検出するアルゴリズム」と同じアルゴリズムで魚眼画像を解析することで、複数の人物各々の身体の所定の複数点を検出することができる。
しかし、魚眼画像内では、起立した人物の身体が伸びる方向がばらつき得る。そこで、検出部12は、魚眼画像を回転させながら画像の解析を行ってもよい。すなわち、検出部12は、魚眼画像のイメージサークル内画像を回転させ、回転した後のイメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行ってもよい。
図5乃至図8を用いて、当該処理の概要を説明する。図5の例では、魚眼画像Fのイメージサークル内画像C1内に5人の人物M1乃至M5が存在する。5人の人物M1乃至M5はいずれも起立しているが、身体が伸びる方向はばらついている。
検出部12は、まず図5に示す回転状態で画像を解析し、各人物の両肩の真ん中P1と腰の真ん中P2を検出する処理を行う。この場合、検出部12は、身体が伸びる方向が図の上下方向に近い人物M1及びM2の点P1及びP2を検出できたが、その他の人物の点P1及びP2は検出できていない。
次に、検出部12は、魚眼画像Fを90°回転させる。すると、図6の状態となる。検出部12は、この回転状態で画像を解析し、各人物の両肩の真ん中P1と腰の真ん中P2を検出する処理を行う。この場合、検出部12は、身体が伸びる方向が図の上下方向に近い人物M5の点P1及びP2を検出できたが、その他の人物の点P1及びP2は検出できていない。
次に、検出部12は、魚眼画像Fを90°回転させる。すると、図7の状態となる。検出部12は、この回転状態で画像を解析し、各人物の両肩の真ん中P1と腰の真ん中P2を検出する処理を行う。この場合、検出部12は、身体が伸びる方向が図の上下方向に近い人物M4の点P1及びP2を検出できたが、その他の人物の点P1及びP2は検出できていない。
次に、検出部12は、魚眼画像Fを90°回転させる。すると、図8の状態となる。検出部12は、この回転状態で画像を解析し、各人物の両肩の真ん中P1と腰の真ん中P2を検出する処理を行う。この場合、検出部12は、身体が伸びる方向が図の上下方向に近い人物M3の点P1及びP2を検出できたが、その他の人物の点P1及びP2は検出できていない。
このように、検出部12は、魚眼画像を回転させながら画像を解析することで、身体が伸びる方向がばらついている複数の人物各々の身体の所定の複数点を検出することができる。なお、上記例では90°づつ回転したが、あくまで一例でありこれに限定されない。
図4に戻り、基準点決定部14は、魚眼画像内の複数の人物各々の位置における重力方向に基づき、基準点(xc、yc)を決定する。そして、基準点決定部14は、決定した基準点(xc、yc)を記憶部15に記憶させる。
基準点決定部14は、複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線が1点で交わる場合、交わる点を基準点(xc、yc)とする。
一方、複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線が1点で交わらない場合、基準点決定部14は、複数の直線各々からの距離が所定条件を満たす点を基準点(xc、yc)とする。
検出部12が、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点(2点)を検出する場合、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線」は、検出部12が検出した2点を結ぶ線であってもよい。
そして、検出部12は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点(2点)を検出する場合、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線」は、検出部12が検出した2点の中点を通り、かつ、2点を結ぶ線と垂直な線であってもよい。
図9は、基準点決定部14による処理の概念を示す。図示する例では、検出部12は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点P1及びP2を検出している。そして、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線L1乃至L5」は、検出部12が検出した点P1及びP2を結ぶ線である。図示する例の場合、複数の直線L1乃至L5は1点で交わらない。このため、検出部12は、複数の直線L1乃至L5各々からの距離が所定条件を満たす点を基準点(xc、yc)とする。所定条件は、例えば「複数の直線各々との距離の和が最小」であるが、これに限定されない。
例えば、検出部12は、以下の式(1)乃至(3)に基づき、所定条件を満たす点を算出することができる。
まず、式(1)により、直線L1乃至L5各々を示す。kiは各直線の傾きで、ciは各直線の切片である。式(2)及び式(3)により、直線L1乃至L5各々との距離の和が最小となる点を基準点(xc、yc)として算出することができる。
図4に戻り、補完円形画像生成部16は、基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と異なる場合、補完円形画像を生成する。補完円形画像は、イメージサークル内画像に補完画像を加えた円形の画像であって、基準点(xc、yc)が中心となる画像である。なお、補完円形画像は、基準点(xc、yc)からイメージサークル内画像の外周上の点までの距離の最大値が半径となり、イメージサークル内画像が内接してもよい。イメージサークル内画像に加える補完画像は、単色(例:黒)の画像であってもよいし、任意のパターン画像であってもよいし、その他であってもよい。
図10に、補完円形画像生成部16が生成した補完円形画像C2の一例を示す。魚眼画像Fのイメージサークル内画像C1に黒単色の補完画像を加えて、補完円形画像C2が生成されている。補完円形画像C2は、基準点(xc、yc)が中心である。そして、補完円形画像C2の半径rは、基準点(xc、yc)からイメージサークル内画像C1の外周上の点までの距離の最大値である。なお、イメージサークル内画像C1は補完円形画像C2に内接している。
なお、基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と一致する場合、補完円形画像生成部16は補完円形画像を生成しない。
図4に戻り、展開部17は、基準点(xc、yc)に基づき魚眼画像をパノラマ展開し、パノラマ画像を生成する。なお、展開部17は、基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と異なる場合、すなわち補完円形画像生成部16が保管円形画像を生成した場合、補完円形画像をパノラマ展開してパノラマ画像を生成する。一方、基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と一致する場合、すなわち補完円形画像生成部16が保管円形画像を生成しなかった場合、展開部17は、魚眼画像のイメージサークル内画像をパノラマ展開してパノラマ画像を生成する。展開部17は、図1を用いて説明した手法を用いて、パノラマ展開することができる。
なお、展開部17は、人物と重ならない基準線Lsを決定し、基準線Lsから補完円形画像又はイメージサークル内画像を切り開いて、パノラマ画像を生成することができる。このようにすれば、画像内の人物がパノラマ画像内で2つの部分に分離する不都合を抑制できる。例えば、展開部17は、検出部12が検出した各人物の身体の複数点から所定距離以内には基準線Lsを設定せず、上記検出した複数点から所定距離以上離れた場所に基準線Lsを設定してもよい。
次に、画像処理装置10の処理の流れの一例を説明する。なお、各処理の詳細は上述したので、ここでの説明は適宜省略する。まず、図11のフローチャートを用いて、基準点(xc、yc)を決定する処理の流れの一例を説明する。
魚眼画像が入力されると、検出部12は、イメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する(S10)。例えば、検出部12は、各人物の両肩の真ん中P1と腰の真ん中P2を検出する。
ここで、図12のフローチャートを用いて、S10の処理の流れの一例を説明する。まず、検出部12は、イメージサークル内画像を解析し、複数の人物各々の身体の所定の複数点を検出する(S20)。その後、検出部12は、イメージサークル内画像を所定角度回転する(S21)。所定角度は例えば90°であるが、これに限定されない。
そして、検出部12は、回転後のイメージサークル内画像を解析し、複数の人物各々の身体の所定の複数点を検出する(S22)。そして、回転角度の合計が360°に達していない場合(S43のNo)、検出部12は、S21に戻り同様の処理を繰り返す。一方、回転角度の合計が360°に達した場合(S43のYes)、検出部12は処理を終了する。
このように、検出部12は、イメージサークル内画像を回転させ、回転した後のイメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行うことができる。
図11に戻り、S10の後、重力方向特定部13は、S10で検出された所定の複数点に基づき複数の人物各々の位置における重力方向を特定する(S11)。例えば、重力方向特定部13は、各人物の両肩の真ん中P1から腰の真ん中P2に向かう方向を、各人物の位置における重力方向として特定する。
次いで、基準点決定部14は、複数の人物各々の位置を通り、各々の位置における重力方向に延伸した直線を算出する(S12)。そして、複数の直線が1点で交わる場合(S13のYes)、基準点決定部14は、交わる点を基準点(xc、yc)とする(S14)。一方、複数の直線が1点で交わらない場合(S13のNo)、基準点決定部14は、複数の直線各々からの距離が所定条件(例:最短)を満たす点を求め、その点を基準点(xc、yc)とする(S15)。
次に、図13のフローチャートを用いて、魚眼画像からパノラマ画像を生成する処理の流れの一例を説明する。
図11の処理で決定した基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と一致する場合(S30のYes)、展開部17は、図1を用いて説明した手法を用いて、その魚眼画像のイメージサークル内画像をパノラマ展開し、パノラマ画像を生成する(S33)。すなわち、この場合、補完円形画像の生成、及び、補完円形画像のパノラマ展開は実施されない。
一方、図11の処理で決定した基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と一致しない場合(S30のNo)、補完円形画像生成部16は、補完円形画像を生成する(S31)。補完円形画像は、イメージサークル内画像に補完画像を加えた円形の画像であって、基準点(xc、yc)が中心となる画像である。なお、補完円形画像は、基準点(xc、yc)からイメージサークル内画像の外周上の点までの距離の最大値が半径となり、イメージサークル内画像が内接してもよい。イメージサークル内画像に加える補完画像は、単色(例:黒)の画像であってもよいし、任意のパターン画像であってもよいし、その他であってもよい。
そして、展開部17は、図1を用いて説明した手法を用いて、その補完円形画像をパノラマ展開し、パノラマ画像を生成する(S32)。
なお、画像処理装置10は、パノラマ展開の対象の全ての魚眼画像に対して、上述した基準点(xc、yc)を決定する処理を行ってもよい。しかし、監視カメラ等の場合は、カメラの位置や向きは固定された状態で複数の魚眼画像が生成される。このような複数の魚眼画像の場合、基準点(xc、yc)を一度算出すれば、全ての魚眼画像にその基準点(xc、yc)を適用できる。このため、画像処理装置10は、最初に入力された魚眼画像に対してのみ上述した基準点(xc、yc)を決定する処理、及び、決定した基準点(xc、yc)に基づくパノラマ展開を行い、以降に入力された魚眼画像に対しては、上述した基準点(xc、yc)を決定する処理を行わず、記憶部15に記憶されている基準点(xc、yc)に基づくパノラマ展開を行ってもよい。
ここで、画像処理装置10の変形例を説明する。図14の機能ブロック図に示すように、画像処理装置10は、検出部12、重力方向特定部13及び基準点決定部14を有さなくてもよい。そして、画像処理装置10は、基準点受付部18を有してもよい。基準点受付部18は、任意の手段で、魚眼画像内の任意の1点を基準点(xc、yc)とするユーザ入力を受付ける。画像取得部11、補完円形画像生成部16及び展開部17の構成は、上述の通りである。この変形例の場合、基準点(xc、yc)は画像処理装置10により算出されるのでなく、ユーザ入力により決定される。
<処理装置20の機能構成>
次に、処理装置20の機能構成を詳細に説明する。処理装置20は、機械学習の技術を利用して、時系列な複数の画像が示す人物行動を推定する。
次に、処理装置20の機能構成を詳細に説明する。処理装置20は、機械学習の技術を利用して、時系列な複数の画像が示す人物行動を推定する。
図15に、処理装置20の機能ブロック図の一例を示す。図示するように、処理装置20は、入力受付部21と、第1の生成部22と、第2の生成部23と、推定部24とを有する。
入力受付部21は、時系列な複数の画像の入力を受付ける。例えば、画像処理装置10により生成された時系列な複数のパノラマ画像が入力される。
第1の生成部22は、時系列な複数の画像から、画像内の各位置の特徴の時間変化を示す3次元特徴情報を生成する。例えば、第1の生成部22は、3D CNN(例えば、3D Resnet等の畳み込み深層学習ネットワークなどであるが、これに限定されない)に基づき3次元特徴情報を生成することができる。
第2の生成部23は、複数の画像各々において人物が存在する位置を示す人物位置情報を生成する。画像内に複数の人物が存在する場合、第2の生成部23は、複数の人物各々が存在する位置を示す人物位置情報を生成することができる。例えば、第2の生成部23は、人物のシルエット(全身)を画像内で抽出し、抽出したシルエットを内包する画像内のエリアを示す人物位置情報を生成する。例えば、第2の生成部23は、深層学習技術に基づき、より具体的には平面の画像や映像の中からあらゆる物体(例えば、人)を高速かつ高精度に認識する「物体認識の深層学習ネットワーク」に基づき人物位置情報を生成することができる。物体認識の深層学習ネットワークとしては、Mask-RCNN、RCNN、Fast RCNN、Faster RCNN等が例示されるが、これらに限定されない。
推定部24は、人物位置情報で示される人物が存在する位置における3次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する。例えば、推定部24は、人物位置情報で示される人物が存在する位置を除く位置における値を所定値(例:0)に変更する補正を3次元特徴情報に対して行った後、補正後の3次元特徴情報に基づき複数の画像が示す人物行動を推定することができる。推定部24は、予め機械学習で生成された推定モデルと、補正後の3次元特徴情報とに基づき、人物行動を推定することができる。
ここで、図16のフローチャートを用いて、処理装置20の処理の流れの一例を説明する。
まず、入力受付部21が、時系列な複数の画像を取得する(S40)。
すると、第1の生成部22は、時系列な複数の画像から、画像内の各位置の特徴の時間変化を示す3次元特徴情報を生成する(S41)。また、第2の生成部23は、複数の画像各々において人物が存在する位置を示す人物位置情報を生成する(S42)。
そして、推定部24は、人物位置情報で示される人物が存在する位置における3次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する(S43)。
次に、図17を用いて、処理装置20の実施例を説明する。なお、あくまで一例であり、これに限定されない。
まず、処理装置20に、16フレーム分の時系列な画像(16×2451×800)が入力される。すると、処理装置20は、3D CNN(例えば、3D Resnet等の畳み込み深層学習ネットワークなどであるが、これに限定されない)に基づき、この16フレーム分の画像から、512チャンネルに畳み込まれた3次元特徴情報(512×77×25)を生成する。また、処理装置20は、Mask-RCNN等の物体認識の深層学習ネットワークに基づき、16フレーム分の画像各々において人物が存在する位置を示す人物位置情報を生成する。図示する例では、人物位置情報は、各人物を内包する複数の矩形のエリア各々の位置を示す。
次いで、処理装置20は、人物位置情報で示される人物が存在する位置を除く位置における値を所定値(例:0)に変更する補正を3次元特徴情報に対して行う。その後、処理装置20は、Average Poolingでデータを512×1×3にまとめた後、flattenでデータを1次元に変換する(1536)。次いで、処理装置20は、当該1次元のデータをfully-connected層に入力し、複数のカテゴリ(人物行動)各々に該当する確率(出力値)を得る。図示する例では、19のカテゴリが定義・学習されている。19のカテゴリは、「歩く」、「走る」、「手を振る」、「物を拾う」、「物を捨てる」、「ジャケットを脱ぐ」、「ジャケットを着る」、「電話を掛ける」、「スマートフォンを使う」、「おやつを食べる」、「階段を上がる」、「階段を下る」、「水を飲む」、「握手」、「他人のポケットから物を取る」、「他人に物を渡す」、「他人を押す」、「カードをかざして駅構内に入る」、「カードをかざして駅改札を出る」であるが、これらに限定されない。例えば、処理装置20は、当該確率が閾値以上のカテゴリに対応する人物行動が、その画像で示されていると推定する。
なお、上記流れと逆方向にトレースすることで、当該確率が閾値以上のカテゴリ(人物行動)が示される画像内の位置を算出することができる。
<作用効果>
以上説明した本実施形態の画像処理装置10によれば、魚眼画像のイメージサークル内画像の中心を一律に基準点(xc、yc)としてパノラマ展開するのでなく、魚眼画像内の適切な位置を基準点(xc、yc)としてパノラマ展開することができる。このため、パノラマ画像において、起立した人物の身体が伸びる方向がばらつく不都合を抑制できる。結果、標準レンズカメラで生成された画像(学習データ)に基づく機械学習で生成された推定モデルに当該パノラマ画像を入力することで、画像が示す人物行動を高精度に推定することが可能となる。
以上説明した本実施形態の画像処理装置10によれば、魚眼画像のイメージサークル内画像の中心を一律に基準点(xc、yc)としてパノラマ展開するのでなく、魚眼画像内の適切な位置を基準点(xc、yc)としてパノラマ展開することができる。このため、パノラマ画像において、起立した人物の身体が伸びる方向がばらつく不都合を抑制できる。結果、標準レンズカメラで生成された画像(学習データ)に基づく機械学習で生成された推定モデルに当該パノラマ画像を入力することで、画像が示す人物行動を高精度に推定することが可能となる。
また、本実施形態の画像処理装置10によれば、画像に含まれる複数の人物各々の身体の所定の複数点を検出し、当該複数点に基づき複数の人物各々の位置における重力方向を特定した後、複数の人物各々の位置における重力方向に基づき基準点(xc、yc)を決定することができる。このような画像処理装置10によれば、上記不都合を抑制する上で適切な基準点(xc、yc)を高精度に決定することができる。
また、本実施形態の画像処理装置10によれば、魚眼画像を回転させながら、複数の人物各々の身体の所定の複数点を検出することができる。このため、魚眼画像内で起立した人物の身体が伸びる方向がばらついていても、標準レンズカメラで生成された画像に対する画像解析処理と同様の処理により、魚眼画像内の複数の人物各々の身体の所定の複数点を高精度に検出することができる。
また、本実施形態の画像処理装置10によれば、決定した基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と異なる場合、イメージサークル内画像に補完画像を加えた円形の画像であって、決定した基準点(xc、yc)が中心となる補完円形画像を生成し、当該補完円形画像をパノラマ展開することができる。このため、決定した基準点(xc、yc)が魚眼画像のイメージサークル内画像の中心と異なる場合であっても、図1に開示の手法を用いて魚眼画像をパノラマ展開することができる。
また、本実施形態の画像処理装置10によれば、人物と重ならないように基準線Lsを決定し、基準線Lsから補完円形画像又はイメージサークル内画像を切り開いてパノラマ画像を生成することができる。このため、画像内の人物がパノラマ画像内で2つの部分に分離する不都合を抑制できる。結果、当該パノラマ画像に基づき、画像が示す人物行動を高精度に推定することが可能となる。
また、本実施形態の画像処理装置10によれば、例えば、監視カメラ等、カメラの位置や向きが固定された状態で複数の画像が生成される場合を考慮し、一度算出された基準点(xc、yc)を記憶部15に記憶しておき、以降、記憶部15に記憶されている基準点(xc、yc)に基づくパノラマ展開を行うことができる。すなわち、全ての魚眼画像に対して基準点(xc、yc)を決定する処理を行うのでなく、1つの魚眼画像に対してのみ基準点(xc、yc)を決定する処理を行い、他の魚眼画像に対しては基準点(xc、yc)を決定する処理を省略することができる。結果、画像処理装置10による処理負担を軽減できる。
また、本実施形態の処理装置20によれば、3D-CNNに基づき画像内の各位置の特徴の時間変化を示す3次元特徴情報を生成した後、その中から人物が検出された位置の情報のみを抽出し(その他の情報を無効化)、3次元特徴情報の中の人物に関係する情報のみを用いて人物行動の推定を行うことができる。不要な情報をなくし、必要な情報のみに絞って推定を行うことができるので、推定精度が向上するほか、コンピュータの処理負担が軽減する。
<変形例>
ここで、本実施形態の変形例を説明する。魚眼画像が入力されると、パノラマ画像を出力する画像処理装置10は、処理装置20へのパノラマ画像の入力以外の目的で利用されてもよい。また、処理装置20には、画像処理装置10が生成したパノラマ画像が入力されてもよいし、他の装置が生成したパノラマ画像が入力されてもよいし、標準レンズカメラで生成された画像が入力されてもよい。
ここで、本実施形態の変形例を説明する。魚眼画像が入力されると、パノラマ画像を出力する画像処理装置10は、処理装置20へのパノラマ画像の入力以外の目的で利用されてもよい。また、処理装置20には、画像処理装置10が生成したパノラマ画像が入力されてもよいし、他の装置が生成したパノラマ画像が入力されてもよいし、標準レンズカメラで生成された画像が入力されてもよい。
また、上記実施形態では画像処理装置10と処理装置20とを分けて記載したが、画像処理装置10と処理装置20とは物理的及び/又は論理的に分かれて構成されてもよいし、物理的及び/又は論理的に一体となって構成されてもよい。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段と、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段と、
を有する画像処理装置又は画像処理システム。
2. 前記補完円形画像生成手段は、前記基準点から前記イメージサークル内画像の外周上の点までの距離の最大値が半径となる前記補完円形画像を生成する
1に記載の画像処理装置又は画像処理システム。
3. 前記展開手段は、人物と重ならない基準線を決定し、前記基準線から前記補完円形画像を切り開いて、前記パノラマ画像を生成する
1又は2に記載の画像処理装置又は画像処理システム。
4. 前記イメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する検出手段と、
前記所定の複数点に基づき、複数の人物各々の位置における重力方向を特定する重力方向特定手段と、
前記複数の人物各々の位置における重力方向に基づき、前記基準点を決定する基準点決定手段と、
を有する1から3のいずれかに記載の画像処理装置又は画像処理システム。
5. 前記基準点決定手段は、前記複数の人物各々の位置を通り、かつ、前記複数の人物各々の位置における重力方向に延伸した直線が1点で交わる場合、交わる点を前記基準点とする
4に記載の画像処理装置又は画像処理システム。
6. 前記基準点決定手段は、前記複数の人物各々の位置を通り、かつ、前記複数の人物各々の位置における重力方向に延伸した直線が1点で交わらない場合、複数の前記直線各々からの距離が所定条件を満たす点を前記基準点とする
4又は5に記載の画像処理装置又は画像処理システム。
7. 前記検出手段は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点を検出する
4から6のいずれかに記載の画像処理装置又は画像処理システム。
8. 前記検出手段は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点を検出する
4から6のいずれかに記載の画像処理装置又は画像処理システム。
9. 前記検出手段は、前記イメージサークル内画像を回転させ、回転した後の前記イメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行う
4から8のいずれかに記載の画像処理装置又は画像処理システム。
10. 前記基準点と前記イメージサークル内画像の中心とが一致しない場合、
前記保管円形画像生成手段は、前記保管円形画像を生成し、
前記展開手段は、前記補完円形画像をパノラマ展開する
4から9のいずれかに記載の画像処理装置又は画像処理システム。
11. 前記基準点と前記イメージサークル内画像の中心とが一致する場合、
前記保管円形画像生成手段は、前記保管円形画像を生成せず、
前記展開手段は、前記イメージサークル内画像をパノラマ展開する
4から10のいずれかに記載の画像処理装置又は画像処理システム。
12. コンピュータが、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成し、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する画像処理方法。
13. コンピュータを、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段、
として機能させるプログラム。
1. 魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段と、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段と、
を有する画像処理装置又は画像処理システム。
2. 前記補完円形画像生成手段は、前記基準点から前記イメージサークル内画像の外周上の点までの距離の最大値が半径となる前記補完円形画像を生成する
1に記載の画像処理装置又は画像処理システム。
3. 前記展開手段は、人物と重ならない基準線を決定し、前記基準線から前記補完円形画像を切り開いて、前記パノラマ画像を生成する
1又は2に記載の画像処理装置又は画像処理システム。
4. 前記イメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する検出手段と、
前記所定の複数点に基づき、複数の人物各々の位置における重力方向を特定する重力方向特定手段と、
前記複数の人物各々の位置における重力方向に基づき、前記基準点を決定する基準点決定手段と、
を有する1から3のいずれかに記載の画像処理装置又は画像処理システム。
5. 前記基準点決定手段は、前記複数の人物各々の位置を通り、かつ、前記複数の人物各々の位置における重力方向に延伸した直線が1点で交わる場合、交わる点を前記基準点とする
4に記載の画像処理装置又は画像処理システム。
6. 前記基準点決定手段は、前記複数の人物各々の位置を通り、かつ、前記複数の人物各々の位置における重力方向に延伸した直線が1点で交わらない場合、複数の前記直線各々からの距離が所定条件を満たす点を前記基準点とする
4又は5に記載の画像処理装置又は画像処理システム。
7. 前記検出手段は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点を検出する
4から6のいずれかに記載の画像処理装置又は画像処理システム。
8. 前記検出手段は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点を検出する
4から6のいずれかに記載の画像処理装置又は画像処理システム。
9. 前記検出手段は、前記イメージサークル内画像を回転させ、回転した後の前記イメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行う
4から8のいずれかに記載の画像処理装置又は画像処理システム。
10. 前記基準点と前記イメージサークル内画像の中心とが一致しない場合、
前記保管円形画像生成手段は、前記保管円形画像を生成し、
前記展開手段は、前記補完円形画像をパノラマ展開する
4から9のいずれかに記載の画像処理装置又は画像処理システム。
11. 前記基準点と前記イメージサークル内画像の中心とが一致する場合、
前記保管円形画像生成手段は、前記保管円形画像を生成せず、
前記展開手段は、前記イメージサークル内画像をパノラマ展開する
4から10のいずれかに記載の画像処理装置又は画像処理システム。
12. コンピュータが、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成し、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する画像処理方法。
13. コンピュータを、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段、
として機能させるプログラム。
Claims (13)
- 魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段と、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段と、
を有する画像処理装置。 - 前記補完円形画像生成手段は、前記基準点から前記イメージサークル内画像の外周上の点までの距離の最大値が半径となる前記補完円形画像を生成する
請求項1に記載の画像処理装置。 - 前記展開手段は、人物と重ならない基準線を決定し、前記基準線から前記補完円形画像を切り開いて、前記パノラマ画像を生成する
請求項1又は2に記載の画像処理装置。 - 前記イメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する検出手段と、
前記所定の複数点に基づき、複数の人物各々の位置における重力方向を特定する重力方向特定手段と、
前記複数の人物各々の位置における重力方向に基づき、前記基準点を決定する基準点決定手段と、
を有する請求項1から3のいずれか1項に記載の画像処理装置。 - 前記基準点決定手段は、前記複数の人物各々の位置を通り、かつ、前記複数の人物各々の位置における重力方向に延伸した直線が1点で交わる場合、交わる点を前記基準点とする
請求項4に記載の画像処理装置。 - 前記基準点決定手段は、前記複数の人物各々の位置を通り、かつ、前記複数の人物各々の位置における重力方向に延伸した直線が1点で交わらない場合、複数の前記直線各々からの距離が所定条件を満たす点を前記基準点とする
請求項4又は5に記載の画像処理装置。 - 前記検出手段は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点を検出する
請求項4から6のいずれか1項に記載の画像処理装置。 - 前記検出手段は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点を検出する
請求項4から6のいずれか1項に記載の画像処理装置。 - 前記検出手段は、前記イメージサークル内画像を回転させ、回転した後の前記イメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を、複数の回転角度に対して行う
請求項4から8のいずれか1項に記載の画像処理装置。 - 前記基準点と前記イメージサークル内画像の中心とが一致しない場合、
前記保管円形画像生成手段は、前記保管円形画像を生成し、
前記展開手段は、前記補完円形画像をパノラマ展開する
請求項4から9のいずれか1項に記載の画像処理装置。 - 前記基準点と前記イメージサークル内画像の中心とが一致する場合、
前記保管円形画像生成手段は、前記保管円形画像を生成せず、
前記展開手段は、前記イメージサークル内画像をパノラマ展開する
請求項4から10のいずれか1項に記載の画像処理装置。 - コンピュータが、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成し、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する画像処理方法。 - コンピュータを、
魚眼レンズカメラで生成された画像の中のイメージサークル内画像に補完画像を加えた円形の画像であって、前記イメージサークル内画像の中心と異なる基準点が中心となる補完円形画像を生成する補完円形画像生成手段、
前記基準点に基づき前記補完円形画像をパノラマ展開してパノラマ画像を生成する展開手段、
として機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021525512A JP7327478B2 (ja) | 2019-06-13 | 2019-06-13 | 画像処理装置、画像処理方法及びプログラム |
PCT/JP2019/023509 WO2020250387A1 (ja) | 2019-06-13 | 2019-06-13 | 画像処理装置、画像処理方法及びプログラム |
US17/617,420 US12081873B2 (en) | 2019-06-13 | 2019-06-13 | Image processing device, image processing method, and non-transitory storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/023509 WO2020250387A1 (ja) | 2019-06-13 | 2019-06-13 | 画像処理装置、画像処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020250387A1 true WO2020250387A1 (ja) | 2020-12-17 |
Family
ID=73781371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/023509 WO2020250387A1 (ja) | 2019-06-13 | 2019-06-13 | 画像処理装置、画像処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US12081873B2 (ja) |
JP (1) | JP7327478B2 (ja) |
WO (1) | WO2020250387A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012141972A (ja) * | 2010-12-15 | 2012-07-26 | Panasonic Corp | 画像生成装置、画像生成方法及びプログラム |
JP2016025516A (ja) * | 2014-07-22 | 2016-02-08 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5990941A (en) * | 1991-05-13 | 1999-11-23 | Interactive Pictures Corporation | Method and apparatus for the interactive display of any portion of a spherical image |
JPH11119303A (ja) * | 1997-10-20 | 1999-04-30 | Fujitsu Ltd | 監視システム及び監視方法 |
US6687387B1 (en) * | 1999-12-27 | 2004-02-03 | Internet Pictures Corporation | Velocity-dependent dewarping of images |
US20020118890A1 (en) * | 2001-02-24 | 2002-08-29 | Michael Rondinelli | Method and apparatus for processing photographic images |
JP2006270676A (ja) * | 2005-03-25 | 2006-10-05 | Fujitsu Ltd | パノラマ画像生成プログラム、パノラマ画像生成装置、パノラマ画像生成方法 |
JP2007306353A (ja) * | 2006-05-12 | 2007-11-22 | Opt Kk | 動画の表示方法、動画表示システムおよび広角動画撮像装置 |
WO2008034144A2 (en) * | 2006-09-15 | 2008-03-20 | Redzone Robotics, Inc. | Manhole modeler |
WO2009039512A1 (en) * | 2007-09-21 | 2009-03-26 | The Trustees Of Columbia University In The City Of New York | Systems and methods for panoramic imaging |
JP5072576B2 (ja) * | 2007-12-20 | 2012-11-14 | アルパイン株式会社 | 画像表示方法および画像表示装置 |
JP4629131B2 (ja) * | 2008-09-03 | 2011-02-09 | 大日本印刷株式会社 | 画像変換装置 |
AU2010344652A1 (en) * | 2010-02-01 | 2012-09-20 | Youngkook Electronics, Co., Ltd. | Tracking and monitoring camera device and remote monitoring system using same |
JP2011182176A (ja) * | 2010-03-01 | 2011-09-15 | Toyama Univ | 広視野角画像処理方法と広視野角画像撮影装置 |
JP5569329B2 (ja) * | 2010-10-15 | 2014-08-13 | 大日本印刷株式会社 | 会議システム、監視システム、画像処理装置、画像処理方法及び画像処理プログラム等 |
JP5739722B2 (ja) * | 2011-04-26 | 2015-06-24 | 株式会社日立情報通信エンジニアリング | 物体認識方法及び認識装置 |
JP5966341B2 (ja) * | 2011-12-19 | 2016-08-10 | 大日本印刷株式会社 | 画像処理装置、画像処理方法、画像処理装置用プログラム、画像表示装置 |
JP2013243610A (ja) * | 2012-05-22 | 2013-12-05 | Tamron Co Ltd | 画像データ送信装置、画像データ受信装置、画像データ伝送システム、画像データ送信方法、画像データ受信方法、送信画像データおよびプログラム |
WO2015129280A1 (ja) * | 2014-02-26 | 2015-09-03 | 京セラ株式会社 | 画像処理装置および画像処理方法 |
JP2015210702A (ja) * | 2014-04-28 | 2015-11-24 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
EP2988248B1 (en) | 2014-07-22 | 2019-09-18 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, information processing apparatus, information processing method, and program |
US10442355B2 (en) * | 2014-09-17 | 2019-10-15 | Intel Corporation | Object visualization in bowl-shaped imaging systems |
JP5846549B1 (ja) * | 2015-02-06 | 2016-01-20 | 株式会社リコー | 画像処理システム、画像処理方法、プログラム、撮像システム、画像生成装置、画像生成方法およびプログラム |
US9866752B2 (en) * | 2015-06-02 | 2018-01-09 | Qualcomm Incorporated | Systems and methods for producing a combined view from fisheye cameras |
JP6677098B2 (ja) * | 2015-07-01 | 2020-04-08 | 株式会社リコー | 全天球動画の撮影システム、及びプログラム |
JP6310149B2 (ja) * | 2015-07-28 | 2018-04-11 | 株式会社日立製作所 | 画像生成装置、画像生成システム及び画像生成方法 |
US9594984B2 (en) | 2015-08-07 | 2017-03-14 | Google Inc. | Business discovery from imagery |
JP6627352B2 (ja) * | 2015-09-15 | 2020-01-08 | カシオ計算機株式会社 | 画像表示装置、画像表示方法及びプログラム |
CN108604055B (zh) * | 2015-12-28 | 2021-05-25 | 球面光学有限公司 | 具有奇次项非球面轮廓或多透镜的全方向折反射透镜 |
US20170243384A1 (en) * | 2016-02-19 | 2017-08-24 | Mediatek Inc. | Image data processing system and associated methods for processing panorama images and image blending using the same |
US10102610B2 (en) * | 2016-04-05 | 2018-10-16 | Qualcomm Incorporated | Dual fisheye images stitching for spherical video |
US10275928B2 (en) * | 2016-04-05 | 2019-04-30 | Qualcomm Incorporated | Dual fisheye image stitching for spherical image content |
US10434877B2 (en) * | 2016-05-05 | 2019-10-08 | Via Technologies, Inc. | Driver-assistance method and a driver-assistance apparatus |
JP2017208619A (ja) * | 2016-05-16 | 2017-11-24 | 株式会社リコー | 画像処理装置、画像処理方法、プログラム及び撮像システム |
US10482574B2 (en) * | 2016-07-06 | 2019-11-19 | Gopro, Inc. | Systems and methods for multi-resolution image stitching |
US10694102B2 (en) * | 2016-07-22 | 2020-06-23 | Immervision, Inc. | Method to capture, store, distribute, share, stream and display panoramic image or video |
JP6724659B2 (ja) * | 2016-08-30 | 2020-07-15 | 株式会社リコー | 撮影装置、方法およびプログラム |
US10743002B2 (en) * | 2017-03-03 | 2020-08-11 | Gopro, Inc. | Sequential in-place blocking transposition for image signal processing |
JP6812862B2 (ja) * | 2017-03-14 | 2021-01-13 | 株式会社リコー | 画像処理システム、撮像装置、画像処理方法及びプログラム |
TWI659394B (zh) * | 2017-03-31 | 2019-05-11 | 聚星電子股份有限公司 | 影像處理方法及影像處理裝置 |
US10992961B2 (en) * | 2017-05-25 | 2021-04-27 | Qualcomm Incorporated | High-level signaling for fisheye video data |
US10621767B2 (en) * | 2017-06-12 | 2020-04-14 | Qualcomm Incorporated | Fisheye image stitching for movable cameras |
CN107392851A (zh) * | 2017-07-04 | 2017-11-24 | 上海小蚁科技有限公司 | 用于生成全景图像的方法和设备 |
US20190014269A1 (en) * | 2017-07-05 | 2019-01-10 | Motorola Mobility Llc | Device with Lens, Bezel, and Mechanical Upright, and Corresponding Systems and Methods |
US10575018B2 (en) * | 2017-07-10 | 2020-02-25 | Qualcomm Incorporated | Enhanced high-level signaling for fisheye virtual reality video in dash |
US10397481B2 (en) * | 2017-07-13 | 2019-08-27 | Qualcomm Incorporated | Stabilization and rolling shutter correction for omnidirectional image content |
US10757384B2 (en) * | 2017-09-28 | 2020-08-25 | Gopro, Inc. | Desaturation control |
JP7043255B2 (ja) * | 2017-12-28 | 2022-03-29 | キヤノン株式会社 | 電子機器及びその制御方法 |
JP2019121857A (ja) * | 2017-12-28 | 2019-07-22 | キヤノン株式会社 | 電子機器及びその制御方法 |
WO2019147008A1 (ko) * | 2018-01-23 | 2019-08-01 | 엘지전자 주식회사 | 카메라 렌즈 정보를 포함한 360도 비디오를 송수신하는 방법 및 그 장치 |
CN108171759A (zh) * | 2018-01-26 | 2018-06-15 | 上海小蚁科技有限公司 | 双鱼眼镜头全景相机的标定方法及装置、存储介质、终端 |
US11341623B2 (en) * | 2018-02-12 | 2022-05-24 | Gopro, Inc. | High dynamic range image processing with noise reduction |
JP7073850B2 (ja) * | 2018-03-29 | 2022-05-24 | 株式会社リコー | 入力装置および入力装置の入力方法 |
US10735709B2 (en) * | 2018-04-04 | 2020-08-04 | Nextvr Inc. | Methods and apparatus for capturing, processing and/or communicating images |
US10796402B2 (en) * | 2018-10-19 | 2020-10-06 | Tusimple, Inc. | System and method for fisheye image processing |
CN113544733A (zh) * | 2019-03-10 | 2021-10-22 | 谷歌有限责任公司 | 使用对缝法的360度广角相机 |
US11729364B2 (en) * | 2019-09-18 | 2023-08-15 | Gopro, Inc. | Circular stitching of images |
-
2019
- 2019-06-13 WO PCT/JP2019/023509 patent/WO2020250387A1/ja active Application Filing
- 2019-06-13 JP JP2021525512A patent/JP7327478B2/ja active Active
- 2019-06-13 US US17/617,420 patent/US12081873B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012141972A (ja) * | 2010-12-15 | 2012-07-26 | Panasonic Corp | 画像生成装置、画像生成方法及びプログラム |
JP2016025516A (ja) * | 2014-07-22 | 2016-02-08 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US12081873B2 (en) | 2024-09-03 |
JP7327478B2 (ja) | 2023-08-16 |
US20220247924A1 (en) | 2022-08-04 |
JPWO2020250387A1 (ja) | 2020-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10198823B1 (en) | Segmentation of object image data from background image data | |
Jesorsky et al. | Robust face detection using the hausdorff distance | |
US8879803B2 (en) | Method, apparatus, and computer program product for image clustering | |
JP2022071195A (ja) | コンピューティング装置及び方法 | |
US9626552B2 (en) | Calculating facial image similarity | |
KR102016082B1 (ko) | 딥러닝 기반의 포즈 변화에 강인한 얼굴 인식 방법 및 장치 | |
US7995805B2 (en) | Image matching apparatus, image matching method, computer program and computer-readable storage medium | |
CN110287772B (zh) | 平面手掌掌心区域提取方法及装置 | |
CN109934065B (zh) | 一种用于手势识别的方法和装置 | |
CN110688929B (zh) | 一种人体骨架关节点定位方法及装置 | |
US10452953B2 (en) | Image processing device, image processing method, program, and information recording medium | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
Phankokkruad et al. | An evaluation of technical study and performance for real-time face detection using web real-time communication | |
US11436804B2 (en) | Augmented reality system | |
CN108875506B (zh) | 人脸形状点跟踪方法、装置和系统及存储介质 | |
WO2022009301A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN106970709A (zh) | 一种基于全息成像的3d交互方法和装置 | |
CN106406507B (zh) | 图像处理方法以及电子设备 | |
JP4708835B2 (ja) | 顔検出装置、顔検出方法、及び顔検出プログラム | |
CN109785439A (zh) | 人脸素描图像生成方法及相关产品 | |
US20230419737A1 (en) | Methods and systems for detecting fraud during biometric identity verification | |
WO2022064632A1 (ja) | 画像処理装置、画像処理方法及びプログラム | |
WO2020250387A1 (ja) | 画像処理装置、画像処理方法及びプログラム | |
WO2020250388A1 (ja) | 処理装置、処理方法及びプログラム | |
Saha et al. | Two person interaction detection using kinect sensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19932750 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021525512 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19932750 Country of ref document: EP Kind code of ref document: A1 |