WO2021024860A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2021024860A1
WO2021024860A1 PCT/JP2020/028902 JP2020028902W WO2021024860A1 WO 2021024860 A1 WO2021024860 A1 WO 2021024860A1 JP 2020028902 W JP2020028902 W JP 2020028902W WO 2021024860 A1 WO2021024860 A1 WO 2021024860A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information processing
processing device
person
saliency
Prior art date
Application number
PCT/JP2020/028902
Other languages
English (en)
French (fr)
Inventor
仕豪 温
西堀 一彦
貴光 後藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2021024860A1 publication Critical patent/WO2021024860A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • This technology relates to information processing devices, information processing methods, and programs that can execute image processing.
  • Non-Patent Document 1 discloses a technique of detecting a person from an image and performing a blurring process on the image based on the detection result.
  • the purpose of this technology is to provide an information processing device, an information processing method, and a program capable of outputting a high quality image.
  • the information processing apparatus includes a calculation unit and an image processing unit.
  • the calculation unit calculates saliency for at least one of a plurality of partial regions in the image.
  • the image processing unit executes blurring processing on the image based on the sariency.
  • blurring processing is executed on the image based on the saliency calculated for the partial area. This makes it possible to output a high quality image.
  • the calculation unit may calculate the saliency for each of the plurality of partial regions.
  • the image processing unit may perform blurring processing on each of the plurality of partial regions based on the saliency.
  • the image processing unit may set a blur intensity for the partial region based on the saliency and execute the blur process based on the blur intensity.
  • the image processing unit sets the blur intensity relatively high with respect to the partial region having a relatively low saliency, and sets the blur intensity relatively low with respect to the partial region having a relatively high saliency. You may.
  • the image processing unit may generate a blur intensity map for the image based on the sariency, and execute the blur process based on the blur intensity map.
  • the calculation unit may generate a sariency map for the image.
  • the image processing unit may generate the blur intensity map based on the salienci map.
  • the plurality of partial regions may include a region corresponding to an object included in the image.
  • the plurality of partial areas may include an area corresponding to a person included in the image.
  • the calculation unit may calculate the saliency as a parameter indicating the conspicuity for a person who sees the image.
  • the calculation unit may calculate the saliency based on at least one of the color, size, contrast, brightness, shape, and position in the image of the partial region.
  • the plurality of partial regions may include a region corresponding to an object included in the image.
  • the calculation unit determines the type of the object corresponding to the partial region, the state of the object corresponding to the partial region, the size of the object corresponding to the partial region, or the object corresponding to the partial region.
  • the saliency may be calculated based on at least one of the positions in the image or the positional relationship between the objects corresponding to the partial regions in the depth direction of the image.
  • the plurality of partial areas may include an area corresponding to a person included in the image.
  • the calculation unit determines the state of the person corresponding to the partial area, the size of the person corresponding to the partial area, the position of the person corresponding to the partial area in the image, or the partial area.
  • the saliency may be calculated based on at least one of the positional relationships between the corresponding persons in the depth direction of the image.
  • the state of the person corresponding to the partial area may include at least one of the posture of the person or information about the face of the person.
  • the information about the face of the person may include at least one of face size, face orientation, facial expression, or face position in the image.
  • the information processing device may further include a reception unit that receives user instructions.
  • the image processing unit may be able to execute the blurring process based on the instruction of the user.
  • the information processing device may further include a reception unit that receives user instructions.
  • the image processing unit may be able to set the blur intensity based on the instruction of the user.
  • the information processing device may further include a reception unit that receives user instructions.
  • the calculation unit may be able to calculate the sariency based on the instruction of the user.
  • the reception unit may receive an instruction to select the partial area.
  • the image processing unit may execute the blurring process on the selected partial region.
  • the information processing method is an information processing method executed by a computer system, and includes calculating saliency for at least one of a plurality of subregions in an image. A blurring process is performed on the image based on the saliency.
  • a program causes a computer system to perform the following steps.
  • FIG. 1 is a schematic diagram for explaining an outline of the present technology.
  • the present technology can execute a blurring process on an input input image and output it as a blurred image.
  • the person P1 is displayed in the center of the image, and the person P2 is displayed on the lower right side of the image.
  • two people they are overlapped and lined up, so they are collectively referred to as person P3 are displayed. That is, the input image 5 includes the persons P1 to P3.
  • the person P2 on the lower right side with respect to the person P1 in the center is photographed on the front side of the person P1 (hereinafter, referred to as the person P2 on the front side).
  • the person P3 on the upper right side with respect to the person P1 in the center is photographed on the back side of the person P1 (hereinafter, referred to as the person P3 on the back side).
  • the input image 5 includes objects such as trees, grass, roads, and buildings in addition to the persons P1 to P3.
  • the input image 5 also includes the sky (the sky is reflected). In the present disclosure, it is assumed that an object is also reflected in a portion of the image in which the sky is reflected. That is, the sky is also included in the object.
  • the persons P1 to P3 are also included in the object.
  • the input image 5 is an image taken in a state where the depth of field is relatively deep as a shooting condition. That is, it is assumed that the entire image including the persons P1 to P3 and other objects is almost in focus.
  • the focus is expressed by the thickness and color (shade) of the boundary line in the persons P1 to P3 and other objects. The thicker the line and the darker the color, the more the person or object surrounded by the line is in focus.
  • the persons P1 to P3 and other objects are in a state of being substantially in focus.
  • the information processing apparatus executes an information processing method and a program (for example, an application program) according to the present technology, and performs blurring processing on the input image 5.
  • a program for example, an application program
  • a blurred image 6 taken in a state where the depth of field is relatively shallow is output.
  • the central person P1 is most in focus.
  • the person P2 on the front side is slightly blurred and out of focus.
  • the person P3 on the back side is further blurred and is in a state of being out of focus. Objects other than the persons P1 to P3 are displayed more blurry than the persons P3, and appear in the most out-of-focus state.
  • the information processing apparatus, the information processing method, and the program according to the present technology can realize a desired focus expression for the input image 5, and can output a high-quality image.
  • FIG. 2 is a flowchart showing an example of an information processing method according to the present technology.
  • the image is acquired (step 101).
  • the salience of a plurality of subregions in the image is calculated (step 102).
  • the saliency may be calculated for each of the plurality of subregions.
  • the saliency may be calculated for only one of the plurality of subregions. That is, the salinency is calculated for at least one of the plurality of subregions.
  • the blurring process is executed on the image acquired in step 101 (step 103). This makes it possible to generate and output a blurred image 6 as illustrated in FIG. 1B.
  • a blurring process may be executed for each of the plurality of subregions.
  • the blurring process may be executed on the partial area for which the saliency has been calculated among the plurality of partial areas.
  • the blurring process may be executed for each of the plurality of subregions based on the calculated saliency.
  • blurring processing and blurring expression can be referred to as blurring processing and blurring expression.
  • FIG. 3 and 4 are schematic views showing an embodiment of the information processing apparatus of the present technology.
  • a user-portable mobile terminal 10 can be used as an embodiment of the information processing apparatus of the present technology.
  • the mobile terminal 10 include various devices such as smartphones, tablet terminals, wearable devices, and PDAs (Personal Digital Assistants).
  • the mobile terminal 10 includes a camera 11, a speaker 12, a display unit 13, an operation unit 14, an I / F (interface) unit 15, a communication unit 16, a sensor unit 17, a storage unit 18, and a controller 19.
  • I / F interface
  • the camera 11 can capture an object and generate an image (image data) of the object.
  • the image includes a still image and a moving image.
  • a plurality of frame images included in the moving image are also included in the image.
  • a digital camera including an image sensor such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor or a CCD (Charge Coupled Device) sensor can be used.
  • any configuration may be adopted.
  • the speaker 12 can output various sounds. The specific configuration of the speaker 12 is not limited.
  • the display unit 13 is a display device using, for example, a liquid crystal, EL (Electro-Luminescence), or the like, and displays various images, various GUIs (Graphical User Interfaces), and the like.
  • the operation unit 14 is, for example, a keyboard, a pointing device, or other operation device.
  • the touch panel 20 is installed on the mobile terminal 10.
  • the touch panel 20 is a device having the functions of both the display unit 13 and the operation unit 14 shown in FIG.
  • the I / F unit 15 is an interface to which other devices and various cables are connected, such as a USB (Universal Serial Bus) terminal and an HDMI (registered trademark) (High-Definition Multimedia Interface) terminal.
  • the communication unit 16 is a communication module for communicating with other devices. For example, a wireless LAN (Local Area Network) module such as WiFi or a communication module for short-range wireless communication such as Bluetooth (registered trademark) is used. ..
  • the sensor unit 17 includes a microphone 22, an IMU (Inertial Measurement Unit) 23, and a GPS 24.
  • the microphone 22 can acquire the sound generated in the vicinity. For example, the microphone 22 can detect and acquire the voice spoken by the user and the ambient sound.
  • the specific configuration of the microphone 22 is not limited.
  • the IMU 23 is one of the motion sensors and can detect acceleration and angular velocity in three axes.
  • the specific configuration of the IMU 23 is not limited, and any configuration including a gyro sensor, an acceleration sensor, a compass sensor, and the like may be adopted.
  • the GPS 24 can output the position information of the mobile terminal 10.
  • the specific configuration of the GPS 24 is not limited, and any configuration may be adopted.
  • the storage unit 18 is a non-volatile storage device, and for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like is used.
  • Image data 25 is stored in the storage unit 18.
  • the image data 25 includes arbitrary image data such as an image taken by the camera 11 and a blurred image 6 in which a blurring process as illustrated in FIG. 1B is executed.
  • the storage unit 18 stores a control program 26 for controlling the entire operation of the mobile terminal 10.
  • the control program 26 includes a program related to the present technology.
  • the method of installing the control program 26 on the mobile terminal 10 is not limited.
  • the installation may be executed via various recording media, or the program may be installed via the Internet or the like.
  • the type of recording medium on which the program according to the present technology is recorded is not limited, and any computer-readable recording medium may be used.
  • any recording medium for recording data non-temporarily may be used.
  • the controller 19 controls the operation of each block of the mobile terminal 10.
  • the controller 19 has hardware necessary for configuring a computer, such as a processor such as a CPU or GPU and a memory such as ROM or RAM.
  • the information processing method according to the present technology is executed by loading and executing the control program (program according to the present technology) 26 recorded in the storage unit 18 by the CPU or the like into the RAM.
  • the specific configuration of the controller 19 is not limited, and any hardware such as FPGA (Field Programmable Gate Array) and ASIC (Application Specific Integrated Circuit) may be used.
  • the CPU of the controller 19 or the like executes the program according to the present embodiment, and as functional blocks, the camera control unit 28, the object detection unit 29, the sariency calculation unit 30, the blur intensity control unit 31, and the blur.
  • the filter unit 32 is realized. Then, the information processing method according to the present embodiment is executed by these functional blocks.
  • dedicated hardware such as an IC (integrated circuit) may be appropriately used.
  • the calculation unit is realized by the saliency calculation unit.
  • the image processing unit is realized by the blur intensity control unit 31 and the blur filter unit 32.
  • a reception unit that receives a user's instruction is realized by a controller 19 that receives an instruction signal generated in response to a user's operation input to the operation unit 14 (including the touch panel 20).
  • the camera control unit 28 shown in FIG. 4 controls the camera 11 to acquire an image (image data).
  • the user inputs instructions regarding shooting conditions such as zooming and presence / absence of a flash via the touch panel 20 and the like shown in FIG.
  • the shutter button is pressed by the user.
  • the shutter button may be virtually displayed on the touch panel 20, or may be physically configured on the side surface of the mobile terminal 10.
  • the camera control unit 28 sets each parameter related to the shooting of the camera 11 based on the input shooting conditions.
  • the camera 11 is made to execute the shooting operation in response to the pressing of the shutter button.
  • the input image 5 as shown in FIG. 1A is captured.
  • the captured image is temporarily stored in, for example, a buffer.
  • the buffer may be configured as a block included in the camera control unit, or may be configured in the storage unit 18.
  • the partial region is set with reference to the pixels constituting the image. That is, the partial region is defined by a part of the pixel group in the image. The area of only one pixel is also included in the partial area. Therefore, the partial region is defined by one pixel or a predetermined pixel group in the image.
  • the position of the partial area in the image can be defined by the position information (coordinates) of the pixels included in the partial area.
  • the object detection unit 29 shown in FIG. 4 detects the object in the input image 5.
  • the area corresponding to each detected object is set as a partial area. That is, in the present embodiment, the area corresponding to the object (including the person) included in the image is set as the partial area.
  • the method of detecting the object in the input image 5 is not limited, and any technique (algorithm or the like) may be used.
  • an arbitrary machine learning algorithm using DNN (Deep Neural Network) or the like may be used.
  • AI artificial intelligence
  • the object detection unit 29 includes a learning unit and an identification unit (not shown).
  • the learning unit performs machine learning based on the input information (learning data) and outputs the learning result.
  • the identification unit identifies (determines, predicts, etc.) the input information based on the input information and the learning result.
  • a neural network or deep learning is used as a learning method in the learning unit.
  • a neural network is a model that imitates a human brain neural circuit, and is composed of three types of layers: an input layer, an intermediate layer (hidden layer), and an output layer.
  • Deep learning is a model that uses a multi-layered neural network, and it is possible to learn complex patterns hidden in a large amount of data by repeating characteristic learning in each layer. Deep learning is used, for example, to identify objects in images and words in sounds. Of course, it can also be applied to the detection of an object according to the present embodiment.
  • a neurochip / neuromorphic chip incorporating the concept of a neural network can be used.
  • Machine learning problem settings include supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, reverse reinforcement learning, active learning, and transfer learning.
  • supervised learning features are learned based on given labeled learning data (teacher data). This makes it possible to derive labels for unknown data.
  • unsupervised learning a large amount of unlabeled learning data is analyzed to extract features, and clustering is performed based on the extracted features. This makes it possible to analyze trends and predict the future based on a huge amount of unknown data.
  • semi-supervised learning is a mixture of supervised learning and unsupervised learning. After learning features in supervised learning, a huge amount of training data is given in unsupervised learning, and features are automatically created. This is a method of repeatedly learning while calculating the amount.
  • Reinforcement learning also deals with the problem of observing the current state of an agent in an environment and deciding what action to take. Agents learn rewards from the environment by choosing actions and learn how to get the most rewards through a series of actions. In this way, by learning the optimum solution in a certain environment, it is possible to reproduce human judgment and to make a computer acquire judgment that exceeds human judgment. Further, an arbitrary learning algorithm or the like different from machine learning may be used. By detecting an object according to a predetermined learning algorithm, it is possible to improve the detection accuracy of the object. The application of the learning algorithm may be executed for any process in the present disclosure.
  • FIG. 5 is a schematic diagram for explaining an example of detecting an object in the input image 5.
  • semantic segmentation is executed on the input image 5 captured by the camera 11. This makes it possible to associate each pixel (each pixel) in the image 2 with a label (person, vehicle, tree, grass, road, building, etc.).
  • the semantic segmentation makes it possible to detect the persons P1 to P2, the tree T, the grass G, the road R, the building B, and the like included in the image 2 with high accuracy.
  • the area corresponding to these detected objects (persons) is set as the partial area 33.
  • FIG. 6 is a schematic diagram for explaining a generation example of a trained model of semantic segmentation.
  • the image data group 35 for learning and the label 36 are input to the learning unit 37.
  • the label 36 is information associated with each image data for learning. For example, information such as that the pixel of this image data is a person is stored as a label 36.
  • the method of associating the label 36 with the image data for learning is not limited.
  • the user may manually set the label 36 on the image data and generate a data set for learning.
  • a learning data set in which the image data group 35 and the label 36 are associated with each other may be downloaded and input to the learning unit 37 via a network or the like.
  • the learning unit 37 uses a data set for learning, and learning is executed based on a machine learning algorithm.
  • the parameters (coefficients) for executing semantic segmentation are updated and generated as learned parameters.
  • a program incorporating the generated trained parameters is generated as the trained model 38.
  • the trained model 38 performs semantic segmentation on the input of the image and detects objects at the pixel level. It is also possible to use object segmentation as an algorithm for detecting an object.
  • any image recognition technique such as matching processing using a model image of an object, edge detection, and projective transformation may be used.
  • the method of detecting a person is not limited. Various detection algorithms as described above may be used.
  • a method for setting the partial area a method other than object detection (person detection) may be adopted.
  • a partial region may be appropriately set for the input image 5 so that a focus expression can be realized when a camera of a predetermined model model shoots at a predetermined subject depth.
  • the saliency calculation unit 30 shown in FIG. 4 calculates the saliency for the partial area 33 set for the input image 5.
  • Sarienshi is a parameter that indicates the visual conspicuity for humans, and can be said to be prominence (conspicuity) for humans. Sarienshi can be said to be a visual feature that is easy for humans to pay attention to. Humans are more likely to spontaneously (unknowingly) guide their gaze in the direction of higher salinity. Therefore, it can be said that the saliensi is a parameter indicating the ease of guiding the line of sight for a person. In the present embodiment, the sariency is calculated as a parameter indicating the conspicuity for a human who sees the input image 5.
  • the method of calculating saliency for a subregion is not limited.
  • the saliency may be calculated for each pixel included in the partial region 33, statistical processing such as averaging may be performed on the calculation result of the saliency in each pixel, and the saliency may be calculated for the partial region 33.
  • the statistical processing for example, the minimum value, maximum value, average value, mode (mode), median (median value), deviation, variance value, etc. of the calculation results (or calculation result series) of a plurality of saliencies were used.
  • Various processes can be mentioned. Alternatively, these values can be used properly.
  • the saliency may be calculated comprehensively for all the images included in the partial region 33.
  • the partial region 33 is further divided into a plurality of regions, and the sariency is calculated for each of the divided regions. Then, the saliency for the sub-region 33 may be calculated based on the saliency for each divided region.
  • the parameters used to calculate the sariency will be described.
  • One of the various parameters described below may be used, or a plurality of parameters may be combined.
  • the smaller the number of parameters the more advantageous it is to reduce the processing load and the processing time.
  • the larger the number of parameters the more advantageous it is to improve the calculation accuracy of saliency.
  • the region corresponding to the object (person) detected by the object detection unit 29 is set as the partial region 33.
  • the object corresponding to the partial region 33 may be simply referred to as an object.
  • the person corresponding to the partial area 33 may be simply described as a person.
  • Types of objects ... For example, people, roads, grass, trees State of objects ...
  • Object size Position in the input image 5 of the object For example, a relatively high saliency is calculated for an object of a type that stands out to humans, an object that stands out, an object of a large size, an object that appears in the center of the image, and the like. To. On the contrary, a relatively low saliency is calculated for an object of a type that is inconspicuous to humans, an object that is inconspicuous, an object of a small size, an object that appears at the edge of an image, and the like. For example, a building with a very conspicuous color has a relatively high saliency. Objects such as roads have relatively low salinity. The sariency is relatively low even in the sky reflected at the edge of the image.
  • the object is a person
  • the following parameters may be used.
  • State of person Person's size Position in the input image 5 of the person The state of the person is, for example, information about the posture of the person and the face of the person (face size, face orientation, facial expression, face in the input image 5). Position etc.) is included.
  • the position of the face in the input image 5 is a parameter related to the position of the person in the input image 5. For example, a relatively high saliency is calculated for a person who stands out to humans, a person of a large size, a person who appears in the center of an image, and the like.
  • a relatively low saliency is calculated for a person who is inconspicuous to humans, a person with a small size, a person who appears at the edge of an image, and the like. For example, a person who appears large in the center of an image has a relatively high saliency. People who are depressed have relatively low salinity. A person who is laughing loudly has a relatively high saliency, and an expressionless person has a relatively low saliency.
  • Face detection is executed by the object detection unit 29, and it is also possible to calculate the face and the saliency of a person including the face based on the information about the face. Since the human face is a part that is particularly noticeable, it is possible to detect a region that is more likely to be noticed by using face detection. Except for objects of a predetermined type, it is also possible to set the sariency to 0. For example, in the example shown in FIG. 5B, it is possible to set the saliency to 0 for the partial region 33 which is a region other than the persons P1 to P3. Any parameter related to the conspicuity to the human who sees the input image 5 may be used.
  • FIG. 7 to 9 are schematic views for explaining a calculation example of saliency for a partial region.
  • an example of calculating the saliency for the partial region 33 set by the person detection shown in FIG. 5B will be described.
  • a calculation method based on a combination of the saliency based on the position in the input image 5 and the saliency based on the face detection of the persons P1 and P2 will be described.
  • FIG. 7 is a schematic diagram showing an example of a saliency map showing saliency for each pixel.
  • the saliency map is information in which saliency is set for each pixel, and is used as a map for the input image 5.
  • the saliensi map can be said to be distribution information.
  • the value of saliensi is normalized so as to be a value between 0 and 255. That is, it is assumed that the minimum value of sariency is calculated as 0 and the maximum value of sariency is calculated as 255.
  • the saliency map is illustrated by applying the 0 to 255 saliency to an 8-bit luminance value of 0 to 255 and using a gray expression (shading expression). White with the maximum luminance value (luminance value 255) in the map is a portion (pixel) having the maximum saturation. Black with the minimum luminance value (luminance value 0) is a portion (pixel) having the minimum luminance value.
  • the method of setting a numerical value indicating the degree of salinity and the method of normalization are not limited.
  • the saliency map SM1 shown in FIG. 7A has a high saliency of the pixel located in the center of the image. And the saliency becomes lower toward the edge of the image.
  • This sariency map SM1 is created based on the view that the center of the image is easier for humans to pay attention to.
  • the saliency map SM2 shown in FIG. 7B has a high saliency of the pixels located at the lower end of the image. And the sariency becomes lower toward the upper edge of the image.
  • the upper part of the image is the sky or the like, and the subject on the ground is often reflected on the lower side. Therefore, it is created based on the view that humans are more likely to pay attention to the lower side.
  • the sariency map SM3 shown in FIG. 7C is a composite of the sariency map SM1 shown in FIG. 7A and the sariency map SM2 shown in FIG. 7B.
  • the saliency map SM3 is generated by averaging the saliency of pixels at the same position. Not limited to this, normalization of the value multiplied by saliens may be executed. It is also possible to calculate the saliency for the partial region 33 by using only any of the saliency maps SM1 to SM3.
  • FIG. 8A is a schematic diagram showing the results of face detection for the persons P1 to P3 shown in FIG. 5B.
  • the face area F1 of the person P1, the face area F2 of the person P2, and the face area F3 of the person P3 are represented by white areas.
  • the gray expression in FIG. 8A only indicates the face area.
  • the saliency is calculated based on, for example, the above-mentioned information about the face (face size, face orientation, facial expression, face position in the input image 5, etc.).
  • a sariency map (not shown) based on face detection is generated.
  • the saliency is set to 0.
  • a saliency map based on face detection and a saliency map based on the position of the saliency map SM3 shown in FIG. 7C are combined. That is, in each pixel included in the face regions F1 to F3, the sariency based on the information about the face and the sarienshi in the sarienshi map SM3 are combined.
  • the saliences for pixels at the same position are multiplied.
  • the value of saliensi is averaged in each of the face regions F1 to F2.
  • the sariency map SM4 in which the sariency is calculated for the face regions F1 to F2 as shown in FIG. 8B is generated.
  • the method of combining the saliensi based on the information about the face and the saliensi map SM3 is not limited, and may be set arbitrarily.
  • the sariency of each of the face areas F1 to F3 shown in FIG. 8B is applied as it is to the partial areas 33 of the persons P1 to P3 detected by the person detection as shown in FIG. 5B. That is, the sariency for the face areas F1 to F3 is directly used as the sariency for the entire partial area 33 of the persons P1 to P3.
  • the sariency map SM5 as shown in FIG. 9 is generated.
  • the saliency is set to 0 for pixels other than the persons P1 to P3. In this way, it is possible to calculate the saliency for the partial region 33 of the persons P1 to P3 by the saliency based on the position and the saliency based on the face detection. It is possible to shorten the processing time by executing the person detection and the processing from the face detection to the sariency map SM4 in parallel.
  • the setting of partial areas and the calculation of sariency may be executed collectively.
  • the sariency may be associated with the input of the input image 5 so that each pixel has the same sariency for the same partial region. .. It is also possible to create such a trained model.
  • the blur intensity control unit 31 and the blur filter unit 32 shown in FIG. 4 execute the blur processing on the input image 5 based on the saliency calculated for the partial region 33.
  • the blur intensity control unit 31 sets the blur intensity for each partial region 33 based on the saliency.
  • the blur intensity includes arbitrary parameters that can define the blur intensity, and is appropriately set according to, for example, the form of the blur filter described later.
  • the blur intensity is set for each pixel of the input image 5. Therefore, the blur intensity is set for each pixel included in the partial region 33.
  • the same sariency is set for the pixels included in the partial region 33 corresponding to the same person. Therefore, the same blur intensity is set for the pixels included in the partial region 33 corresponding to the same person.
  • the blur intensity is set relatively high for the partial region 33 where the saliency is relatively low.
  • the blur intensity is set relatively low for the partial region 33 having a relatively high saliency. This is based on the view that high-saliency pixels should be kept sharp and low-saliency pixels should be more strongly blurred.
  • the settings of saliency and blur intensity may be arbitrarily set so that the desired focus expression can be realized.
  • the sariency map SM5 illustrated in FIG. 9 can be regarded as a blur intensity map in which the maximum and minimum relationships are opposite to each other.
  • the blur intensity map is information in which the blur intensity is set for each pixel, and is used as a map for the input image 5.
  • the intensity map can also be said to be distribution information. For example, in the example shown in FIG. 9, white having the maximum luminance value (luminance value 255) in the map is a portion (pixel) having the minimum blur intensity. Black with the minimum luminance value (luminance value 0) is a portion (pixel) having the maximum blur intensity.
  • the blur intensity control unit 31 executes a process of converting the sariency into a blur intensity. Furthermore, it can be said that the blur intensity control unit 31 executes a process of converting the saliensi map into a blur intensity map.
  • the specific method of conversion from sariency to blur intensity and conversion from sariency map to blur intensity map is not limited, and any conversion method such as linear conversion or non-linear conversion may be used.
  • the blur filter unit 32 executes the blur filter process on the partial region 33 based on the blur strength set for the partial region 33.
  • each pixel of the input image 5 is filtered by a blur filter. Therefore, the filter processing by the blur filter is executed for each pixel included in the partial region 33.
  • the blur intensity set for each pixel is used as a parameter for controlling the blur algorithm. Therefore, it is possible to execute the blurring process based on the blurring intensity map.
  • FIG. 10 is a diagram for explaining an example of a blur filter.
  • An averaging filter can be used as the blur filter.
  • the circular kernel CK shown in FIG. 10 is set for the target pixel 40 to be blurred. Then, the pixel value of the target pixel 40 is converted into the average of the pixel values of each pixel included in the circular kernel CK. As a result, the blurring process can be executed.
  • the filter radius r is set as the blur intensity. That is, the blur intensity control unit 31 calculates the filter radius r based on the saliency. That is, the saliensi map is converted into a map having a filter radius r.
  • the filter radius r (blurring intensity) can be calculated by a linear transformation as shown in the following equation.
  • the filter radius r (blurring intensity) is the minimum at B, and the sharpness of the pixels is maintained.
  • the filter radius r (blurring intensity) is the maximum at 255A + B. Pixels are greatly blurred.
  • Eq. Equation 1
  • the larger the coefficient A the larger the difference in blur intensity according to the difference in saliency. That is, when the coefficient A is 1, the difference in saliency becomes the difference in blur intensity as it is.
  • the coefficient B is 0, the filter radius r becomes 0 when the saliency is maximum (255), and the pixel value of the target pixel 40 is maintained.
  • the coefficient B can also be said to be a reference parameter that defines the blurring intensity of the pixel having the maximum saliency.
  • the conversion method from the sariency to the filter radius is not limited and may be set arbitrarily.
  • the sariency map SM5 shown in FIG. 9 the sariency is lower in the order of the central person P1, the front side person P2, the back side person P3, and the area other than the person. Therefore, as shown in FIG. 1B, the central person P1 is most in focus, the front side person P2 is slightly blurred, and the back side person P3 is further blurred. In addition, areas other than people are displayed more blurry. As a result, a high-quality image in which a natural blur expression is realized is generated.
  • the radius in the X direction corresponding to the horizontal direction of the image and the radius in the Y direction corresponding to the vertical direction of the image may be separately controllable. That is, the radius in the X direction and the radius in the Y direction may be calculated separately based on the saliency. This makes it possible to improve the accuracy of the blurring process and realize a desired blurring expression.
  • blur filter examples include the following filters.
  • Averaging Filter (Square Kernel) Converted to the average of the pixel values of each pixel contained in the square kernel Blur intensity: Filter length (can be controlled separately in the x and y directions) Gaussian Filter Blur intensity: Filter radius (controllable separately in x and y directions) Sigma (can be controlled separately in the x and y directions) Median Filter (Circular Kernel) Converted to the median of the pixel value of each pixel contained in the circular kernel Blur intensity: Filter radius (can be controlled separately in the x and y directions) Median Filter (Square Kernel: Circular Kernel) Converted to the median of the pixel value of each pixel contained in the square kernel Blur intensity: Filter length (can be controlled separately in the x and y directions)
  • any blur filter may be used.
  • a filter designed in advance may be stored as table information and appropriately read out and used. The blur filtering process is not limited,
  • FIG. 11 is a flowchart showing an embodiment of the mobile terminal 10 according to the present technology.
  • the photographer presses the shutter to take a picture (image) (step 201).
  • the captured input image 5 is stored in a buffer for further processing. Persons P1 to P3 are detected with respect to the input image 5 (step 202).
  • a sariency map SM5 is generated for the input image 5 (step 203).
  • a blur intensity map is generated based on the sariency map SM5 (step 204).
  • the input image 5 is blurred based on the blur intensity map (step 205).
  • the blurred image 6 generated as a result of the blurring process is saved (step 206).
  • the saved blurred image 6 is displayed on the touch panel 20 of the mobile terminal 10 automatically by a user's instruction or the like. Alternatively, it is output to another display device or the like and displayed.
  • FIG. 12 is a flowchart showing another embodiment of the mobile terminal 10. Steps 301 to 305 are the same as steps 201 to 205 shown in FIG.
  • the blurred image 6 is presented to the user. For example, the blurred image 6 is displayed on the touch panel 20 of the mobile terminal 10. It is determined whether or not there is an instruction to change the blur from the user (step 307). For example, when an operation to change the blur (focus expression) is input via the touch panel 20 or the like, it is determined that the user has instructed to change the blur.
  • FIG. 13 is a schematic diagram showing an input example of a blur change instruction.
  • the slide bar 50 is displayed superimposed on the blurred image 6 as a GUI for changing the blur.
  • the user can increase the blurring of the entire image by operating the slide bar 50 in the H direction.
  • By operating the slide bar 50 in the L direction it is possible to reduce the blurring of the entire image.
  • the GUI for changing the blur is not limited and may be set arbitrarily.
  • the blur intensity map is updated based on the instruction (step 308). That is, the blur intensity of each pixel is changed based on the user's instruction. For example, when the averaging filter illustrated in FIG. 10 is used, it is possible to change the blur intensity by controlling the coefficients A and B (both or either) of the equation (Equation 1). Become. For example, when an instruction to strengthen the blur is input, the coefficients A and B (both or one of them) are increased. When an instruction to reduce the blur is input, the coefficients A and B (both or one of them) are reduced.
  • the input image 5 is blurred based on the updated blur intensity map. This makes it possible to realize a blurred expression according to a user's instruction.
  • the user may be able to specify the target for which the blur is changed. For example, the person B2 in the blurred image 6 is selected. Then, the display is controlled so that it can be determined that the person B2 has been selected. When the slide bar 50 is operated in that state, the blur intensity of the partial area 33 corresponding to the person B2 is updated, and the input image 5 is blurred again. This makes it possible to change the blurring of the selected person B2.
  • the user may be able to specify the person who wants to be displayed most clearly. Then, the blurring of the entire image may be controlled so that the person is displayed most clearly. That is, the blurring of only the selected person is not limited to the case where the blurring of only the selected person is changed, and the blurring of another person may be changed as appropriate in accordance with the change of the blurring of the designated person.
  • the averaging filter illustrated in FIG. 10 and the equation (Equation 1) are used.
  • the coefficient A 1 in the equation (Equation 1).
  • the sariency of the central person P1 is 255 at the maximum, and the sariency of the person P2 on the front side is 200.
  • the person P2 on the front side is selected by the user.
  • the coefficient B is set to ⁇ 55 so that the filter radius for the person P2 having a saliency of 200 becomes 0. This makes it possible to display the person P2 on the front side most clearly.
  • the filter radius is 55, and the display is slightly blurred. In this way, it is possible to control the degree of blurring of the entire image in a well-balanced manner while displaying a specific person clearly.
  • the blurring process based on the instruction of the user.
  • the saliency (for each pixel) for the subregion 33 may be calculated based on the user's instructions.
  • the sariency is changed according to the operation of the slide bar 50 in FIG.
  • the blur intensity and sariency of the other partial area 33 may be set based on the blur intensity and sariency of the selected partial area 33.
  • the input is not limited to the input via the GUI for changing the blur such as the slide bar 50, and the blur strength and the sariency may be directly input by the user.
  • the blur change is executed according to the user's instruction and the balance of the blur condition of the entire image is not properly maintained, an error display to that effect may be executed.
  • the boundary processing may be executed for the boundary line of the partial area 33. For example, a process may be executed in which the blur intensity gradually changes as the boundary line is approached.
  • the blurred image 6 is saved (step 309).
  • the saved blurred image 6 is displayed on the touch panel 20 of the mobile terminal 10 automatically by a user's instruction or the like. Alternatively, it is output to another display device or the like and displayed.
  • the blurring process is executed on the input image 5 based on the saliency calculated for the partial area 33. This makes it possible to output a high quality image.
  • Non-Patent Document 1 a method of executing image processing so that only the area of the person detected from the image is clearly displayed can be considered.
  • this method since the entire area of the person is clearly displayed, an unnatural blurring expression is obtained and the quality of the image is deteriorated.
  • the blurring process is executed based on the sariency. This makes it possible to exert the following effects. Even with a monocular camera with a small aperture and a deep depth of field, it is possible to add a natural blur expression that reflects the user's intention to the image by post processing. It is possible to realize a natural blur expression at low cost without adding hardware such as a depth sensor. It is also possible to determine the main person in the input image 5 based on the information of the sariency. Therefore, it is possible to sufficiently emphasize a person to be noted, and it is possible to realize a blurring expression as if it was taken by a single-lens reflex camera.
  • the saliency may be calculated based on the positional relationship between the objects corresponding to the partial regions 33 in the depth direction of the input image 5. Furthermore, the saliency may be calculated based on the positional relationship between the persons corresponding to the partial region 33 in the depth direction of the input image 5. Of course, the saliency may be calculated based on the positional relationship between the object corresponding to the partial region 33 and the person corresponding to the partial region 33 in the depth direction of the input image 5.
  • the context of the person in the input image 5 can be obtained, for example, by analyzing the composition of the input image 5. For example, it is possible to perform face detection and estimate the context based on the detected face size. In addition, it is possible to estimate the context of a person based on the size, posture, occlusion, etc. of the person area. It is also possible to estimate the anteroposterior relationship based on defocus information, motion parallax, chromatic aberration, aerial perspective, and the like. In addition, any estimation method may be used.
  • the sariency is calculated based on the context of an object or a person in the input image 5.
  • the context can be estimated based on the composition of the input image 5. Therefore, it is not necessary to add hardware such as a depth sensor, and the manufacturing cost can be sufficiently suppressed.
  • depth information may be acquired using a depth sensor or the like, and may be combined with blurring processing based on saliency and blurring processing based on depth information.
  • the present technology is not limited to the embodiments described above, and various other embodiments can be realized.
  • Information such as the weather at the time of shooting and the shooting time may be used as a parameter for calculating the sariency.
  • the case where the area corresponding to the person is set as the partial area 33 is taken as an example.
  • the present technology is not limited to this, and the present technology can be applied to objects other than humans such as animals, bronze statues, and buildings.
  • the partial region 33 each part of the person may be set as a different partial region 33.
  • the hands, feet, head, chest, buttocks, etc. may be set as different partial regions 33, and the blurring process may be executed respectively based on the sariency.
  • the mobile terminal 10, the PC (Personal Computer) 60, and the server device 70 are connected to each other so as to be able to communicate with each other via the network 1.
  • the network 1 is constructed by, for example, the Internet, a wide area communication network, or the like.
  • an arbitrary WAN (Wide Area Network), LAN (Local Area Network), or the like may be used, and the protocol for constructing the network 1 is not limited.
  • the server device 70 may function as an information processing device according to the present technology and execute an information processing method and a program according to the present technology. For example, the image taken by the mobile terminal 10 is transmitted to the server device 70.
  • the server device 70 uses the image received via the network 1 as the input image 5 and executes the blurring process based on the sariency. Then, the blurred image 6 is transmitted to the mobile terminal 10. Of course, it is also possible to transmit the blurred image 6 to the PC 60. Similarly, the information processing method according to the present technology may be executed by the PC 60 that has received the image from the mobile terminal 10. As described above, any computer having no photographing function may be configured as an information processing device according to the present technology.
  • the information processing method according to the present technology may be executed and the information processing device according to the present technology may be constructed by the cooperation of a plurality of computers connected so as to be able to communicate via a network or the like.
  • the image taken by the mobile terminal 10 shown in FIG. 14 is transmitted to the server device 70 as the input image 5.
  • the server device 70 calculates saliency for at least one of the plurality of subregions in the image.
  • the calculation result is transmitted to the PC 60, and the PC 60 executes a blurring process on the input image 5 based on the sariency.
  • the information processing method according to the present technology may be executed. Further, such a configuration can also be referred to as an "information processing system" according to the present technology.
  • the information processing method and program according to the present technology can be executed not only in a computer system composed of a single computer but also in a computer system in which a plurality of computers operate in conjunction with each other.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device in which a plurality of modules are housed in one housing are both systems.
  • the calculation of sariency, the blurring process for an image, the acceptance of a user's instruction, and the like may be executed by a single computer, or each process may be executed by a different computer. Further, the execution of each process by a predetermined computer includes causing another computer to execute a part or all of the process and acquire the result. That is, the information processing method and program according to the present technology can be applied to a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed.
  • this technology can also adopt the following configurations.
  • a calculation unit that calculates saliency for at least one of a plurality of subregions in an image An information processing device including an image processing unit that executes a blurring process on the image based on the sariency.
  • the information processing device according to (1) The calculation unit calculates the saliency for each of the plurality of partial regions.
  • the image processing unit is an information processing device that executes blurring processing on each of the plurality of partial regions based on the sariency.
  • the image processing unit is an information processing device that sets a blur intensity for the partial region based on the sariency and executes the blur process based on the blur intensity.
  • the information processing device sets the blur intensity relatively high with respect to the partial region having relatively low saliency, and sets the blur intensity relatively low with respect to the partial region having relatively high saliency.
  • Information processing device. The information processing device according to any one of (1) to (4).
  • the image processing unit is an information processing device that generates a blur intensity map for the image based on the sariency and executes the blur processing based on the blur intensity map.
  • the calculation unit generates a sariency map for the image
  • the image processing unit is an information processing device that generates the blur intensity map based on the salienci map.
  • the information processing apparatus according to any one of (1) to (6).
  • the plurality of partial regions are information processing devices including regions corresponding to objects included in the image.
  • the plurality of partial areas are an information processing apparatus including an area corresponding to a person included in the image.
  • the calculation unit is an information processing device that calculates the sariency as a parameter indicating the conspicuity for a person who sees the image.
  • the calculation unit is an information processing device that calculates the saliency based on at least one of the color, size, contrast, brightness, shape, and position in the image of the partial region. (11) The information processing device according to (9) or (10).
  • the plurality of partial regions include a region corresponding to an object included in the image.
  • the calculation unit is the type of the object corresponding to the partial region, the state of the object corresponding to the partial region, the size of the object corresponding to the partial region, or the image of the object corresponding to the partial region.
  • An information processing device that calculates the saliency based on at least one of the positional relationships in the depth direction of the image between the objects corresponding to the internal position or the partial region. (12) The information processing apparatus according to any one of (9) to (11).
  • the plurality of partial regions include a region corresponding to a person included in the image.
  • the calculation unit corresponds to the state of the person corresponding to the partial area, the size of the person corresponding to the partial area, the position of the person corresponding to the partial area in the image, or the said portion corresponding to the partial area.
  • An information processing device that calculates the saliency based on at least one of the positional relationships between people in the depth direction of the image.
  • the state of the person corresponding to the partial region is an information processing apparatus including at least one of the posture of the person and information about the face of the person.
  • Information about the person's face is an information processing device that includes at least one of face size, face orientation, facial expression, or face position in the image.
  • the information processing device is an information processing device capable of executing the blurring process based on the instruction of the user.
  • the image processing unit is an information processing device capable of setting the blur intensity based on the instruction of the user.
  • the information processing device is an information processing device capable of calculating the saliensity based on the instruction of the user.
  • the information processing apparatus according to any one of (15) to (17).
  • the reception unit receives an instruction to select the partial area
  • the image processing unit is an information processing device that executes the blurring process on the selected partial region.
  • Sariency is calculated for at least one of the plurality of subregions in the image.

Abstract

上記目的を達成するため、本技術の一形態に係る情報処理装置は、算出部と、画像処理部とを具備する。前記算出部は、画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出する。前記画像処理部は、前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する。これにより、高品質の画像を出力することが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、画像処理を実行可能な情報処理装置、情報処理方法、及びプログラムに関する。
 非特許文献1には、画像から人物を検出し、その検出結果に基づいて、画像に対してぼかし処理を実行する旨の技術が開示されている。
Neal Wadhw et.al., "Synthetic Depth-of-Field with a Single-Camera Mobile Phone", ACM Transactions on Graphics, Vol.37, No.4, Article 64, August 2018
 このように高品質の画像を出力することを可能とする技術が求められている。
 以上のような事情に鑑み、本技術の目的は、高品質の画像を出力することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、算出部と、画像処理部とを具備する。
 前記算出部は、画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出する。
 前記画像処理部は、前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する。
 この情報処理装置では、部分領域に対して算出されたサリエンシに基づいて、画像に対してぼかし処理が実行される。これにより、高品質の画像を出力することが可能となる。
 前記算出部は、前記複数の部分領域の各々に対して前記サリエンシを算出してもよい。この場合、前記画像処理部は、前記複数の部分領域の各々に対して、前記サリエンシに基づいてぼかし処理を実行してもよい。
 前記画像処理部は、前記サリエンシに基づいて、前記部分領域に対してぼかし強度を設定し、前記ぼかし強度に基づいて前記ぼかし処理を実行してもよい。
 前記画像処理部は、前記サリエンシが相対的に低い前記部分領域に対してぼかし強度を相対的に高く設定し、前記サリエンシが相対的に高い前記部分領域に対してぼかし強度を相対的に低く設定してもよい。
 前記画像処理部は、前記サリエンシに基づいて、前記画像に対するぼかし強度マップを生成し、前記ぼかし強度マップに基づいて前記ぼかし処理を実行してもよい。
 前記算出部は、前記画像に対するサリエンシマップを生成してもよい。この場合、前記画像処理部は、前記サリエンシマップに基づいて、前記ぼかし強度マップを生成してもよい。
 前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含んでもよい。
 前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含んでもよい。
 前記算出部は、前記画像を見る人間にとっての目立ちやすさを示すパラメータとして、前記サリエンシを算出してもよい。
 前記算出部は、前記部分領域の色、サイズ、コントラスト、輝度、形状、前記画像内の位置の少なくとも1つに基づいて、前記サリエンシを算出してもよい。
 前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含んでもよい。この場合、前記算出部は、前記部分領域に対応する前記物体の種類、前記部分領域に対応する前記物体の状態、前記部分領域に対応する前記物体のサイズ、又は前記部分領域に対応する前記物体の前記画像内の位置、又は前記部分領域に対応する前記物体同士の前記画像の奥行方向における位置関係の少なくとも1つに基づいて、前記サリエンシを算出してもよい。
 前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含んでもよい。この場合、前記算出部は、前記部分領域に対応する前記人物の状態、前記部分領域に対応する前記人物のサイズ、前記部分領域に対応する前記人物の前記画像内の位置、又は前記部分領域に対応する前記人物同士の前記画像の奥行方向における位置関係の少なくとも1つに基づいて、前記サリエンシを算出してもよい。
 前記部分領域に対応する前記人物の状態は、前記人物の姿勢、又は前記人物の顔に関する情報の少なくとも一方を含んでもよい。
 前記人物の顔に関する情報は、顔のサイズ、顔の向き、顔の表情、又は前記画像内の顔の位置の少なくとも1つを含んでもよい。
 前記情報処理装置は、さらに、ユーザの指示を受付ける受付部を具備してもよい。この場合、前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし処理を実行可能であってもよい。
 前記情報処理装置は、さらに、ユーザの指示を受付ける受付部を具備してもよい。この場合、前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし強度を設定可能であってもよい。
 前記情報処理装置は、さらに、ユーザの指示を受付ける受付部を具備してもよい。この場合、前記算出部は、前記ユーザの指示に基づいて、前記サリエンシを算出可能であってもよい。
 前記受付部は、前記部分領域を選択する指示を受付けてもよい。この場合、前記画像処理部は、選択された前記部分領域に対して、前記ぼかし処理を実行してもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出することを含む。前記サリエンシに基づいて、前記画像に対してぼかし処理が実行される。
 本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出するステップ。
 前記サリエンシに基づいて、前記画像に対してぼかし処理を実行するステップ。
本技術の概要を説明するための模式図である(入力画像、ぼかし画像)。 本技術に係る情報処理方法の一例を示すフローチャートである。 情報処理装置の一実施形態を示す模式図である(携帯端末の外観)。 情報処理装置の一実施形態を示す模式図である(携帯端末の機能ブロック)。 入力画像内の物体の検出例を説明するための模式図である。 セマンティックセグメンテーションの学習済モデルの生成例を説明するための模式図である。 サリエンシマップの一例を示す模式図である。 顔検出に基づいたサリエンシを説明するための模式図である。 サリエンシマップの一例を示す模式図である。 ぼかしフィルタの一例を説明するための図である。 携帯端末の実施例を示すフローチャートである。 携帯端末の他の実施例を示すフローチャートである。 ぼかし変更指示の入力例を示す模式図である。 本技術に係る情報処理装置の他の実施形態を示す模式図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 <第1の実施形態>
 [本技術の概要]
 図1は、本技術の概要を説明するための模式図である。
 本技術は、入力される入力画像に対して、ぼかし処理を実行し、ぼかし画像として出力することが可能である。
 例えば、図1Aに示す入力画像5には、画像の中央に人物P1が表示されており、画像の右側の下方側には、人物P2が表示されている。また画像の右側の上方側には、2人の人物(重なって並んでいるのでまとめて人物P3とする)が表示されている。すなわち入力画像5は、人物P1~P3を含む。
 中央の人物P1に対して、右側の下方側の人物P2は、人物P1よりも手前側にて撮影されている(以下、手前側の人物P2と記載する)。中央の人物P1に対して、右側の上方側の人物P3は、人物P1よりも奥側にて撮影されている(以下、奥側の人物P3と記載する)。
 また入力画像5は、人物P1~P3の他に、木、草、道路、建物等の物体を含む。また入力画像5は空も含む(空が映っている)。本開示では、画像内の空が映っている部分も、物体が映っているものとする。すなわち空も物体に含まれるものとする。もちろん、人物P1~P3も物体に含まれる。
 例えば、入力画像5は、撮影条件として被写界深度が比較的深い状態で撮影された画像であるとする。すなわち人物P1~P3、及びその他の物体を含む画像全体で、ピント(焦点)がほぼ合っている画像であるとする。
 図1A及びBでは、人物P1~P3やその他の物体において、境界となる線の太さ及び色(濃淡)により、ピントが表現されている。線が太く、色が黒いほど、その線により囲まれる人物や物体のピントが合っていることになる。
 図1Aの入力画像5では、人物P1~P3、及びその他の物体が、ほぼピントが合っている状態となっている。
 本技術に係る情報処理装置により、本技術に係る情報処理方法及びプログラム(例えばアプリケーションプログラム)が実行され、入力画像5に対してぼかし処理が実行される。これにより撮影条件として異なる被写界深度で撮影されたような画像を、ぼかし画像として出力することが可能となる。すなわち図1Aに示す入力画像5とはピントが合っている範囲が異なるような、ぼかし画像を出力することが可能となる。
 例えば、図1Bに示す例では、被写界深度が比較的浅い状態で撮影されたぼかし画像6が出力されている。具体的には、ぼかし画像6では、中央の人物P1に最もピントが合っている。そして手前側の人物P2は若干ぼやけており、ピントが合っていない状態である。また奥側の人物P3は、さらにぼやけて映っており、さらにピントが合っていない状態である。
 人物P1~P3以外の他の物体は、人物P3よりもさらにぼやけて表示されており、最もピントが合っていない状態で映っている。
 このように本技術に係る情報処理装置、情報処理方法、及びプログラムでは、入力画像5に対して所望のフォーカス表現を実現することが可能となり、高品質の画像を出力することが可能である。
 図2は、本技術に係る情報処理方法の一例を示すフローチャートである。ここでは、本技術に係る情報処理方法の基本的な流れのみを簡単に説明し、図2に示す各ステップについては後に詳しく説明する。
 画像が取得される(ステップ101)。
 画像内の複数の部分領域のサリエンシ(Saliency)が算出される(ステップ102)。
 例えば複数の部分領域の各々に対してサリエンシが算出されてもよい。あるいは、複数の部分領域のうち1つの部分領域のみに対してサリエンシが算出されてもよい。すなわち複数の部分領域の少なくとも1つに対してサリンエンシが算出される。
 ステップ102にて算出されたサリエンシに基づいて、ステップ101にて取得された画像に対して、ぼかし処理が実行される(ステップ103)。これにより図1Bで例示したような、ぼかし画像6を生成して出力することが可能となる。
 例えば複数の部分領域のうち一部の部分領域に対してほかし処理が実行されてもよいし、複数の部分領域の各々に対して、ぼかし処理が実行されてもよい。
 例えば、複数の部分領域のうちサリエンシが算出された部分領域に対して、ぼかし処理が実行されてもよい。あるいは、複数の部分領域の各々に対してサリエンシが算出されている場合、算出されたサリエンシに基づいて、複数の部分領域の各々に対してぼかし処理が実行されてもよい。
 本技術では、複数の部分領域に対して、互いに異なるぼかし処理を実行することが可能である。これにより、自然なぼかし表現等、種々のフォーカス表現を実現することが可能となる。
 なお、「ぼかし」を「ぼけ」と表現することも可能である。例えば、ぼかし処理やぼけ表現等を、ぼけ処理やぼけ表現と言うことも可能である。
 [情報処理装置の例]
 図3及び図4は、本技術の情報処理装置の一実施形態を示す模式図である。
 図3に例示するように、本技術の情報処理装置の一実施形態として、ユーザが携帯可能な携帯端末10を用いることが可能である。携帯端末10としては、例えばスマートフォン、タブレット端末、ウェアラブル装置、PDA(Personal Digital Assistant)等、種々のデバイスが挙げられる。
 図4に示すように、携帯端末10は、カメラ11、スピーカ12、表示部13、操作部14、I/F(インタフェース)部15、通信部16、センサ部17、記憶部18、及びコントローラ19を有する。
 カメラ11は、対象物を撮影し、その画像(画像データ)を生成することが可能である。
 本開示において、画像は、静止画像及び動画像を含む。もちろん動画像に含まれる複数のフレーム画像も、画像に含まれる。
 例えばカメラ11として、CMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラを用いることが可能である。その他、任意の構成が採用されてよい。
 スピーカ12は、種々の音を出力可能である。スピーカ12の具体的な構成は限定されない。
 表示部13は、例えば液晶、EL(Electro-Luminescence)等を用いた表示デバイスであり、種々の画像や種々のGUI(Graphical User Interface)等が表示される。
 操作部14は、例えばキーボード、ポインティングデバイス、その他の操作装置である。
 図3に示す例では、携帯端末10にタッチパネル20が設置される。タッチパネル20は、図4に示す表示部13及び操作部14の両方の機能を有するデバイスとなる。
 I/F部15は、例えばUSB(Universal Serial Bus)端子やHDMI(登録商標)(High-Definition Multimedia Interface)端子等の、他のデバイスや種々のケーブルが接続されるインタフェースである。
 通信部16は、他のデバイスと通信するための通信モジュールであり、例えばWiFi等の無線LAN(Local Area Network)モジュールや、Bluetooth(登録商標)等の近距離無線通信用の通信モジュールが用いられる。
 センサ部17は、マイク22、IMU(Inertial Measurement Unit:慣性計測センサユニット)23、及びGPS24を含む。
 マイク22は、周辺で発生する音声を取得することが可能である。例えば、マイク22により、ユーザが発話した音声や、周囲の環境音を検出して取得することが可能である。マイク22の具体的な構成は限定されない。
 IMU23は、モーションセンサの1つであり、3軸における加速度と角速度とを検出することが可能である。IMU23の具体的な構成は限定されず、ジャイロセンサ、加速度センサ、コンパスセンサ等を含む任意の構成が採用されてよい。IMU23として、6軸IMUが用いられてもよいし、9軸IMUが用いられてもよい。
 GPS24は、携帯端末10の位置情報を出力することが可能である。GPS24の具体的な構成は限定されず、任意の構成が採用されてよい。
 記憶部18は、不揮発性の記憶デバイスであり、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等が用いられる。
 記憶部18には、画像データ25が記憶される。画像データ25は、例えば、カメラ11により撮影された画像や、図1Bに例示するようなぼかし処理が実行されたぼかし画像6等の、任意の画像データを含む。
 また記憶部18には、携帯端末10の全体の動作を制御するための制御プログラム26が記憶される。制御プログラム26は、本技術に係るプログラムを含む。
 制御プログラム26を、携帯端末10にインストールする方法は限定されない。例えば、種々の記録媒体を介してインストールが実行されてもよいし、インターネット等を介してプログラムのインストールが実行されてもよい。
 なお、本技術に係るプログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。
 コントローラ19は、携帯端末10が有する各ブロックの動作を制御する。コントローラ19は、例えばCPUやGPU等のプロセッサ、ROMやRAM等のメモリ等の、コンピュータの構成に必要なハードウェアを有する。CPU等が記憶部18に記録されている制御プログラム(本技術に係るプログラム)26をRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
 コントローラ19の具体的な構成は限定されず、例えばFPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等の任意のハードウェアが用いられてもよい。
 本実施形態では、コントローラ19のCPU等が本実施形態に係るプログラムを実行することで、機能ブロックとして、カメラ制御部28、物体検出部29、サリエンシ算出部30、ぼかし強度制御部31、及びぼかしフィルタ部32が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。
 なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 図4に示す各機能ブロックについては、図2に示す各ステップとともに後に詳しく説明する。
 本実施形態では、サリエンシ算出部により、算出部が実現される。
 ぼかし強度制御部31及びぼかしフィルタ部32により画像処理部が実現される。
 操作部14(タッチパネル20を含む)に入力されたユーザの操作に応じて生成される指示信号を受信するコントローラ19により、ユーザの指示を受付ける受付部が実現される。
 [画像の取得]
 図2に示すステップ101の画像の取得について説明する。
 本実施形態では、図4に示すカメラ制御部28がカメラ11を制御することで、画像(画像データ)が取得される。
 例えばユーザにより、図3に示すタッチパネル20等を介して、ズームやフラッシュの有無等の撮影条件に関する指示が入力される。またユーザにより、シャッタボタンが押される。シャッタボタンは、タッチパネル20に仮想的に表示されてもよいし、携帯端末10の側面等に物理的に構成されてもよい。
 カメラ制御部28は、入力された撮影条件に基づいて、カメラ11の撮影に関する各パラメータを設定する。そして、シャッタボタンの押込みに応じて、カメラ11に撮影動作を実行させる。これにより、例えば図1Aに示すような入力画像5が撮影される。
 撮影された画像は、例えばバッファ等に一時的に保存される。バッファは、カメラ制御部に含まれるブロックとして構成されてもよいし、記憶部18内に構成されてもよい。
 [部分領域のサリエンシの算出]
 図2に示すステップ102の部分領域のサリエンシの算出について説明する。
 まず入力画像5に対して、複数の部分領域(セグメント)が設定される。
 本実施形態では、部分領域は、画像を構成する画素を基準として設定される。すなわち部分領域は、画像内の一部の画素群により規定される。なお1つの画素のみの領域も、部分領域に含まれる。従って、部分領域は、画像内の1つの画素又は所定の画素群により規定される。
 例えば、部分領域に含まれる画素の位置情報(座標)により、画像内における部分領域の位置等を規定することが可能である。
 本実施形態では、図4に示す物体検出部29により、入力画像5内の物体が検出される。検出された各物体に対応する領域が、部分領域として設定される。すなわち本実施形態では、画像に含まれる物体(人物を含む)に対応する領域が、部分領域として設定される。
 入力画像5内の物体を検出する方法は限定されず、任意の技術(アルゴリズム等)が用いられてよい。例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、物体の検出精度を向上させることが可能となる。
 例えば物体検出部29として、学習部及び識別部(図示は省略)が備えられる。学習部は、入力された情報(学習データ)に基づいて機械学習を行い、学習結果を出力する。また、識別部は、入力された情報と学習結果に基づいて、当該入力された情報の識別(判断や予測等)を行う。
 学習部における学習手法には、例えばニューラルネットワークやディープラーニングが用いられる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層(隠れ層)、出力層の3種類の層から成る。
 ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。
 ディープラーニングは、例えば画像内のオブジェクトや音声内の単語を識別する用途として用いられる。もちろん、本実施形態に係る物体の検出に適用することも可能である。
 また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
 機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。
 例えば教師あり学習は、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
 また、教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。
 また、半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。
 また、強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を習得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。
 また、機械学習とは異なる任意の学習アルゴリズム等が用いられてよい。所定の学習アルゴリズムに従って物体を検出することで、物体の検出精度を向上させることが可能となる。
 なお学習アルゴリズムの適用は、本開示内の任意の処理に対して実行されてよい。
 図5は、入力画像5内の物体の検出例を説明するための模式図である。
 例えば図5Aに示すように、カメラ11により撮影された入力画像5に対して、セマンティックセグメンテーション(Semantic Segmentation)が実行される。これにより、画像2内の各画素(各ピクセル)を、ラベル(人物、車両、木、草、道路、建物等)に関連付けることが可能となる。
 例えば図5Aに示す例では、セマンティックセグメーションにより、画像2内に含まれる人物P1~P2、木T、草G、道路R、建物B等を、高い精度で検出することが可能となる。これら検出された物体(人物)に対応する領域が、部分領域33として設定される。
 図6は、セマンティックセグメンテーションの学習済モデルの生成例を説明するための模式図である。
 学習用の画像データ群35と、ラベル36とが、学習部37に入力される。ラベル36は、学習用の各画像データと関連付けられた情報である。例えばこの画像データのこの画素は人物である等の情報が、ラベル36として保存される。
 学習用の画像データにラベル36を関連付ける方法は限定されない。例えばユーザにより手動で、画像データに対してラベル36が設定され、学習用のデータセットが生成されてもよい。または、ネットワーク等を介して、画像データ群35とラベル36とが関連付けられた学習用のデータセットがダウンロードされ、学習部37に入力されてもよい。
 学習部37により、学習用のデータセットが用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、セマンティックセグメンテーションを実行するためのパラメータ(係数)が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、学習済モデル38として生成される。
 学習済モデル38により、画像の入力に対してセマンティックセグメンテーションが実行され、画素レベルで物体の検出が実行される。
 なお、物体を検出するためのアルゴリズムとして、オブジェクトセグメンテーション(Object Segmentation)を用いることも可能である。その他、物体のモデル画像を用いたマッチング処理、エッジ検出、射影変換等の任意の画像認識技術が用いられてもよい。
 入力画像5から所定の種類の物体のみを検出することも可能である。例えば図5Bに示すように、人物のみを検出する人物検出が実行され、人物P1~P2が検出されてもよい。この場合、人物P1~P3に対応する領域が部分領域33に相当する。また人物P1~P3以外の領域も、部分領域33に相当する。
 人物を検出する方法は限定されない。上記で説明したような種々の検出アルゴリズムが用いられてよい。
 部分領域の設定方法として、物体検出(人物検出)以外の方法が採用されてもよい。
 例えば、所定の機種モデルのカメラにて所定の被写体深度にて撮影された場合のフォーカス表現が実現されるように、入力画像5に対して部分領域が適宜設定されてもよい。
 図4に示すサリエンシ算出部30により、入力画像5に対して設定された部分領域33に対してサリエンシが算出される。
 サリエンシは、人間にとっての視覚的な目立ちやすさを示すパラメータであり、人間にとっての顕著性(目立ち度)ともいえる。サリエンシは、人間にとって注目しやすさを示す視覚特徴量とも言える。
 人間は、サリエンシが高い方向へと自然発生的に(無意識のうちに)視線が誘導されやすくなる。従ってサリエンシを、人物にとって、視線の誘導のされやすさを示すパラメータと言うことも可能である。
 本実施形態では、入力画像5を見る人間にとっての目立ちやすさを示すパラメータとしてサリエンシが算出される。
 部分領域に対してサリエンシを算出する方法は限定されない。
 例えば、部分領域33に含まれる各画素に対してサリエンシが算出され、各画素におけるサリエンシの算出結果に対して平均等の統計処理が行われ、部分領域33に対するサリエンシとして算出されてもよい。
 統計処理としては、例えば、複数のサリエンシの算出結果(あるいは算出結果系列)の最小値、最大値、平均値、モード(最頻値)、メジアン(中央値)、偏差、分散値等を用いた種々の処理が挙げられる。あるいはこれらの値を、適宜使い分けることも可能である。
 あるいは、部分領域33に含まれる全ての画像に対して、包括的にサリエンシが算出されてもよい。
 あるいは、部分領域33がさらに複数の領域に分割され、その分割領域ごとにサリエンシが算出される。そして分割領域ごとのサリエンシに基づいて、部分領域33に対するサリエンシが算出されてもよい。
 サリエンシを算出するために用いられるパラメータについて説明する。以下に説明する種々のパラメータのうち1つのパラメータが用いられてもよいし、複数のパラメータが組み合わされてもよい。
 パラメータの数が少ないほど、処理負荷の軽減や処理時間の短縮に有利である。パラメータの数が多いほど、サリエンシの算出精度の向上に有利である。
 例えば、部分領域33の色、サイズ、コントラスト、輝度、形状、空間周波数、エッジの傾き、動き(動画像の場合)等に基づいて、サリエンシを算出することが可能である。
 また入力画像5内における部分領域33の位置等に基づいて、サリエンシを算出することも可能である。
 また、図5A及び図5Bに示すように、物体検出部29により検出された物体(人物)に対応する領域が、部分領域33として設定されているとする。
 この場合、例えば、以下のパラメータに基づいてサリエンシを算出することが可能である。なお以下では、部分領域33に対応する物体を、単に物体と記載する場合がある。また部分領域33に対応する人物を、単に人物と記載する場合がある。
 物体の種類…例えば、人物、道路、草、木
 物体の状態…例えば、姿勢、動作中/休止中(機械等の場合)
 物体のサイズ
 物体の入力画像5内における位置
 例えば、人間にとって目立つ種類の物体、目立つ状態の物体、大きいサイズの物体、画像の中央に映っている物体等には、相対的に高いサリエンシが算出される。逆に、人間にとって目立たない種類の物体、目立たない状態の物体、小さいサイズの物体、画像の端に映っている物体等には、相対的に低いサリエンシが算出される。
 例えば、非常に目立つ色の建物等はサリエンシが相対的に高くなる。道路等の物体はサリエンシが相対的に低くなる。画像の端に映る空等も、サリエンシは相対的に低くなる。
 物体が人物である場合には、以下のパラメータが用いられてもよい。
 人物の状態
 人物のサイズ
 人物の入力画像5内における位置
 人物の状態は、例えば、人物の姿勢や人物の顔に関する情報(顔のサイズ、顔の向き、顔の表情、入力画像5内の顔の位置等)を含む。なお入力画像5内の顔の位置は、人物の入力画像5内における位置に関連するパラメータとなる。
 例えば、人間にとって目立つ状態の人物、大きいサイズの人物、画像の中央に映っている人物等には、相対的に高いサリエンシが算出される。逆に、人間にとって目立たない状態の人物、小さいサイズの人物、画像の端に映っている人物等には、相対的に低いサリエンシが算出される。
 例えば画像の中央に大きく映る人物はサリエンシが相対的に高くなる。うつむいている人物はサリエンシが相対的に低くなる。大笑いしている人物はサリエンシが相対的に高くなり、無表情の人物はサリエンシが相対的に低くなる。
 物体検出部29により、顔検出が実行され、顔に関する情報に基づいて、顔やその顔を含む人物のサリエンシを算出することも可能である。人の顔は特に注目されやすい部分であるので、顔検出を使うことでより注目されやすい領域を検出することが可能である。
 所定の種類の物体以外は、全てサリエンシを0にするといった処理も可能である。例えば図5Bに示す例において、人物P1~P3以外の領域である部分領域33についてサリエンシを0にするといった処理も可能である。
 このような、入力画像5を見る人間にとっての目立ちやすさに関連する任意のパラメータが用いられよい。
 図7~9は、部分領域に対するサリエンシの算出例を説明するための模式図である。ここでは、図5Bに示す人物検出により設定された部分領域33に対するサリエンシの算出例を説明する。具体的には、入力画像5における位置に基づくサリエンシと、人物P1~P2の顔検出に基づくサリエンシとの組み合わせによる算出方法を説明する。
 図7は、各画素に対するサリエンシを示すサリエンシマップの一例を示す模式図である。サリエンシマップは、各画素に対してサリエンシが設定された情報であり、入力画像5に対するマップとして用いられる。サリエンシマップは、分布情報とも言える。
 ここで説明を分かりやすくするために、サリエンシの値を、0~255の間の値となるように正規化する。すなわちサリエンシの最小値は0として算出され、サリエンシ最大値は255として算出されるものとする。
 その0~255のサリエンシを、8ビットの0~255の輝度値にあてはめて、グレー表現(濃淡の表現)を用いて、サリエンシマップを図示する。マップ内の輝度値最大(輝度値255)の白は、サリエンシが最大となる部分(画素)である。輝度値最小(輝度値0)の黒は、サリエンシが最小となる部分(画素)である。
 もちろん、サリエンシの程度を表す数値の設定方法や、正規化の方法は限定されない。
 図7Aに示すサリエンシマップSM1は、画像の中央に位置する画素のサリエンシが高い。そして、画像の端に向かって進むほどサリエンシが低くなっている。このサリエンシマップSM1は、画像の中央の方が、人間は注目しやすいという見解に基づいて作成されている。
 図7Bに示すサリエンシマップSM2は、画像の下端に位置する画素のサリエンシが高い。そして、画像の上端に向かって進むほどサリエンシは低くなっている。このサリエンシマップSM2は、画像の上方は空等であり、地面の上の被写体は下方側に映っていることが多い。従って下方側の方が、人間は注目しやすいという見解に基づいて作成されている。
 図7Cに示すサリエンシマップSM3は、図7Aに示すサリエンシマップSM1と図7Bに示すサリエンシマップSM2とを合成したものである。例えば、同じ位置にある画素のサリエンシの平均により、サリエンシマップSM3が生成される。これに限定されず、サリエンシを掛けた値を正規化するといったことが実行されてもよい。
 なお、サリエンシマップSM1~SM3のいずれのみを用いて、部分領域33に対するサリエンシを算出することも可能である。
 図8Aは、図5Bに示す人物P1~P3に対する顔検出の結果を示す模式図である。図8Aに示す例では、顔検出の結果として、人物P1の顔領域F1と、人物P2の顔領域F2と、人物P3の顔領域F3が、白い領域で表現されている。図8Aでのグレー表現は、あくまで顔領域を示しているのみである。
 各顔領域F1~F3に対して、例えば上記した顔に関する情報(顔のサイズ、顔の向き、顔の表情、入力画像5内の顔の位置等)等に基づいて、サリエンシが算出される。これにより、顔検出に基づいたサリエンシマップ(図示は省略)が生成される。なお顔領域F1~F3以外の画素については、サリエンシは0に設定される。
 顔検出に基づいたサリエンシマップと、図7Cに示すサリエンシマップSM3の位置に基づいたサリエンシとが組み合わされる。すなわち顔領域F1~F3に含まれる各画素において、顔に関する情報に基づいたサリエンシと、サリエンシマップSM3におけるサリエンシとが組み合わされる。
 例えば、2つのサリエンシマップにおいて、同じ位置の画素に対するサリエンシ同士を掛け算する。そして、各顔領域F1~F2の各々にて、サリエンシの値を平均する。例えばこのような処理により、図8Bに示すような顔領域F1~F2に対してサリエンシが算出されたサリエンシマップSM4が生成される。
 なお、顔に関する情報に基づいたサリエンシと、サリエンシマップSM3とを組み合わせる方法は限定されず、任意に設定されてよい。
 図5Bに示すような人物検出により検出された人物P1~P3の部分領域33に対して、図8Bに示す各顔領域F1~F3のサリエンシがそのまま適用される。すなわち顔領域F1~F3に対するサリエンシを、そのまま人物P1~P3の全体の部分領域33のサリエンシとする。
 これにより、図9に示すようなサリエンシマップSM5が生成される。なお人物P1~P3以外の画素については、サリエンシは0に設定される。
 このように位置に基づいたサリエンシと、顔検出に基づいたサリエンシとにより、人物P1~P3の部分領域33に対するサリエンシを算出することが可能である。
 なお、人物検出と、顔検出からサリエンシマップSM4までの処理とを並列に実行することで、処理時間の短縮を実現することが可能である。
 部分領域の設定及びサリエンシの算出がまとめて実行されてもよい。例えば、機械学習等が用いられる場合等において、入力画像5の入力に対して、各画素に対して、同一の部分領域に対しては同一のサリエンシとなるように、サリエンシが関連付けられてもよい。このような学習済モデルを作成することも可能である。
 [入力画像に対するぼかし処理]
 図2に示すステップ103のぼかし処理について説明する。
 本実施形態では、図4に示すぼかし強度制御部31及びぼかしフィルタ部32により、部分領域33に対して算出されたサリエンシに基づいて、入力画像5に対してぼかし処理が実行される。
 まず、ぼかし強度制御部31により、サリエンシに基づいて、各部分領域33に対してぼかし強度が設定される。
 ぼかし強度は、ぼかしの強度を規定し得る任意のパラメータを含み、例えば後に説明するぼかしフィルタの形態に応じて適宜設定される。
 本実施形態では、入力画像5の各画素に対してぼかし強度が設定される。従って、部分領域33に含まれる各画素に対してぼかし強度が設定される。図9に示すサリエンシマップSM5では、同じ人物に対応する部分領域33に含まれる画素には同じサリエンシが設定される。従って、同じ人物に対応する部分領域33に含まれる画素には、同じぼかし強度が設定される。もちろん、そのような設定に限定される訳ではない。
 典型的には、サリエンシが相対的に低い部分領域33に対しては、ぼかし強度が相対的に高く設定される。サリエンシが相対的に高い部分領域33に対しては、ぼかし強度が相対的に低く設定される。
 これは、サリエンシの高いピクセルは鮮明(シャープ)に保たれるべきであり、サリエンシの低いピクセルはより強くぼやけているはずだという見解に基づいている。もちろん、サリエンシとぼかし強度の設定は、所望のフォーカス表現が実現可能なように任意に設定されてよい。
 本実施形態では、サリエンシが低い部分領域33に対してぼかし強度が高く設定され、サリエンシが高い部分領域33に対してぼかし強度が低く設定されるとする。
 そうすると、図9に例示するサリエンシマップSM5を、最大と最小の関係が反対の関係となったぼかし強度マップと見做すことも可能である。
 ぼかし強度マップは、各画素に対してぼかし強度が設定された情報であり、入力画像5に対するマップとして用いられる。強度マップも、分布情報と言える。
 例えば図9に示す例では、マップ内の輝度値最大(輝度値255)の白は、ぼかし強度が最小となる部分(画素)である。輝度値最小(輝度値0)の黒は、ぼかし強度が最大となる部分(画素)である。
 ぼかし強度制御部31は、サリエンシをぼかし強度に変換する処理を実行するとも言える。さらに言えば、ぼかし強度制御部31は、サリエンシマップを、ぼかし強度マップに変換する処理を実行するとも言える。
 サリエンシからぼかし強度への変換、及びサリエンシマップからぼかし強度マップへの変換の具体的な方法は限定されず、線形変換、非線形変換等、任意の変換方法が用いられてよい。
 ぼかしフィルタ部32は、部分領域33に対して設定されたぼかし強度に基づいて、部分領域33に対してぼかしフィルタ処理を実行する。
 本実施形態では、入力画像5の各画素に対して、ぼかしフィルタによるフィルタ処理が実行される。従って、部分領域33に含まれる各画素に対して、ぼかしフィルタによるフィルタ処理が実行される。その際に、ぼかしアルゴリズムを制御するパラメータとして、各画素に設定されたぼかし強度が用いられる。
 従って、ぼかし強度マップに基づいて、ぼかし処理を実行することが可能である。
 図10は、ぼかしフィルタの一例を説明するための図である。
 ぼかしフィルタとして、平均化フィルタ(Averaging Filter)を用いることが可能である。例えば、ぼかし処理の対象となるターゲット画素40に対して、図10に示す円形カーネル(Circular Kernel)CKを設定する。そしてターゲット画素40の画素値を、円形カーネルCK内に含まれる各画素の画素値の平均に変換する。これによりぼかし処理が実行可能である。
 図10に例示する平均化フィルタでは、ぼかし強度として、フィルタ半径rが設定される。すなわちぼかし強度制御部31は、サリエンシに基づいてフィルタ半径rを算出する。すなわちサリエンシマップを、フィルタ半径rのマップに変換する。
 例えば、以下の式に示すような線形変換により、フィルタ半径r(ぼかし強度)を算出することが可能である。
Figure JPOXMLDOC01-appb-M000001
 r:フィルタ半径
 s:サリエンシ(0~255の値に正規化)
 A(≠0)及びB:係数
 例えば、サリエンシが最大(255)の場合は、フィルタ半径r(ぼかし強度)はBで最小となり、画素の鮮明さが維持される。サリエンシが最小(0)の場合は、フィルタ半径r(ぼかし強度)は、255A+Bで最大となる。画素は大きくぼかされる。
 (数1)式において、係数Aが大きくなるほど、サリエンシの差に応じたぼかし強度の差が大きくなる。すなわち係数Aが1の場合は、サリエンシの差がそのままぼかし強度の差となる。
 係数Bが0の場合は、サリエンシが最大(255)の場合は、フィルタ半径rが0となり、ターゲット画素40の画素値は維持される。係数Bは、サリエンシが最大となる画素のぼかし強度を規定する基準パラメータとも言える。
 なお、サリエンシからフィルタ半径への変換方法は限定されず、任意に設定されてよい。
 図9に示すサリエンシマップSM5では、中央の人物P1、手前側の人物P2、奥側の人物P3、人物以外の領域の順で、サリエンシが低くなっている。従って、図1Bに示すように、中央の人物P1に最もピントが合い、手前側の人物P2は若干ぼやけ、奥側の人物P3はさらにぼやけて表示される。また人物以外の領域は、さらにぼやけて表示される。この結果、自然なぼかし表現が実現された高品質な画像が生成されている。
 なお図10に示す円形カーネルCKにおいて、画像の横方向に対応するX方向における半径と、画像の縦方向に対応するY方向における半径とが別々に制御可能であってもよい。すなわち、サリエンシに基づいて、X方向における半径と、Y方向における半径とが、別々に算出されてもよい。これにぼかし処理の精度を向上させることが可能となり、所望のぼかし表現を実現することが可能となる。
 ぼかしフィルタの他の例として、以下のフィルタが挙げられる。
 平均化フィルタ(Averaging Filter)(平方カーネル:Square Kernel)
  平方カーネル内に含まれる各画素の画素値の平均に変換
  ぼかし強度:フィルタ長(x方向及びy方向にて別々に制御可能)
 ガウシアンフィルタ(Gaussian Filter)
  ぼかし強度:フィルタ半径(x方向及びy方向にて別々に制御可能)
        シグマ(x方向及びy方向にて別々に制御可能)
 中央値フィルタ(Median Filter)(円形カーネル:Circular Kernel)
  円形カーネル内に含まれる各画素の画素値の中央値に変換
  ぼかし強度:フィルタ半径(x方向及びy方向にて別々に制御可能)
 中央値フィルタ(Median Filter)(平方カーネル:Circular Kernel)
  平方カーネル内に含まれる各画素の画素値の中央値に変換
  ぼかし強度:フィルタ長(x方向及びy方向にて別々に制御可能)
 その他、任意のぼかしフィルタが用いられてよい。例えば、事前に設計したフィルタがテーブル情報として記憶され、適宜読み出されて用いられてもよい。
 ぼかしフィルタ処理も限定されず、任意のアルゴリズムが採用されてよい。
 図11は、本技術に係る携帯端末10の実施例を示すフローチャートである。
 撮影者(ユーザ)がシャッターを押して写真(画像)を撮る(ステップ201)。撮影された入力画像5は、さらなる処理のためにバッファに保存される。
 入力画像5に対して、人物P1~P3が検出される(ステップ202)。
 入力画像5に対して、サリエンシマップSM5が生成される(ステップ203)。
 サリエンシマップSM5に基づいて、ぼかし強度マップが生成される(ステップ204)。
 ぼかし強度マップに基づいて、入力画像5がぼかされる(ステップ205)。
 ぼかし処理の結果生成されるぼかし画像6が、保存される(ステップ206)。保存されたぼかし画像6は、ユーザの指示等、あるいは自動的に、携帯端末10のタッチパネル20に表示される。あるいは、他の表示装置等に出力されて表示される。
 図12は、携帯端末10の他の実施例を示すフローチャートである。
 ステップ301~305は、図11に示すステップ201~205と同様である。
 ステップ306にて、ぼかし画像6がユーザに提示される。例えば携帯端末10のタッチパネル20にぼかし画像6が表示される。
 ユーザからぼかし変更の指示があるか否かが判定される(ステップ307)。
 例えば、タッチパネル20等を介して、ぼかし(フォーカス表現)を変更する旨の操作が入力された場合、ユーザからぼかし変更の指示がありと判定される。
 図13は、ぼかし変更指示の入力例を示す模式図である。
 例えば図13Aに示すように、ぼかし変更用のGUIとして、スライドバー50が、ぼかし画像6に重畳して表示される。
 例えばユーザは、スライドバー50をHの方向に操作することで、画像全体のぼかしを強めることが可能である。スライドバー50をLの方向に操作することで、画像全体のぼかしを弱めることが可能である。
 ぼかしを変更するためのGUI等は限定されず、任意に設定されてよい。
 ユーザからぼかし変更の指示があった場合は(ステップ307のYes)、その指示に基づいて、ぼかし強度マップがアップデートされる(ステップ308)。すなわちユーザの指示に基づいて、各画素のぼかし強度が変更される。
 例えば、図10に例示する平均化フィルタが用いられる場合には、(数1)式の係数A及びB(両方、あるいはいずれか一方)を制御することで、ぼかし強度を変更することが可能となる。
 例えばぼかしを強める指示が入力された場合には、係数A及びB(両方、あるいはいずれか一方)が増加される。ぼかしを弱める指示が入力された場合には、係数A及びB(両方、あるいはいずれか一方)が減少される。
 ステップ306に戻り、アップデートされたぼかし強度マップに基づいて、入力画像5がぼかされる。これにより、ユーザの指示に応じたぼかし表現を実現することが可能となる。
 図13Bに示すように、ユーザにより、ぼかしを変更する対象が指定可能であってもよい。例えばぼかし画像6内の人物B2が選択される。そうすると、人物B2が選択された旨が判別可能なように表示が制御される。
 その状態で、スライドバー50が操作されると、人物B2に対応する部分領域33のぼかし強度がアップデートされ、入力画像5が再度ぼかされる。これにより、選択された人物B2のぼかしを変更することが可能となる。
 ユーザにより、最も鮮明に表示させたい人物が指示可能であってもよい。そして、その人物が最も鮮明に表示されるように、画像全体のぼかしが制御されてもよい。すなわち選択された人物のみのぼかしが変更される場合に限定されず、指定された人物のぼかしの変更に合わせて、他の人物のぼかしが適宜変更されてもよい。
 例えば、図10に例示する平均化フィルタ、及び(数1)式が用いられるとする。また(数1)式の係数A=1であるとする。さらに、中央の人物P1のサリエンシが最大の255であり、手前側の人物P2のサリエンシが200であったとする。
 ユーザにより手前側の人物P2が選択される。これに応じて、サリエンシが200である人物P2に対するフィルタ半径が0となるように、係数Bが-55に設定される。これにより、手前側の人物P2を最も鮮明に表示することが可能となる。一方、サリエンシが255であった中央の人物P1に対してはフィルタ半径が55となり、若干ぼけて表示される。
 このように、特定の人物を鮮明に表示させつつ、画像全体のぼかし具合のバランスよく制御することも可能である。
 このように、ユーザの指示に基づいて、ぼかし処理を実行することも可能である。具体的には、ユーザに指示に基づいて、ぼかし強度を設定することが可能である。
 あるいは、ユーザの指示に基づいて、部分領域33に対する(各画素に対する)サリエンシが算出されてもよい。例えば図13のスライドバー50の操作に応じて、サリエンシが変更される。これにより、画像全体のぼかしや、所定の部分領域33のぼかしを変更することが可能である。
 部分領域33を選択する指示に基づいて、選択された部分領域33に対して、ぼかし処理を実行することも可能である。あるいは、選択された部分領域33のぼかし強度やサリエンシを基準として、他の部分領域33のぼかし強度やサリエンシが設定されてもよい。
 スライドバー50等のぼかし変更用のGUIを介した入力に限定されず、ぼかし強度やサリエンシがユーザにより直接的に入力可能であってもよい。
 その他、ユーザの指示に応じてぼかしの変更を実行すると、画像全体のぼかし具合のバランスが適切に保たれない場合等は、その旨のエラー表示が実行されてもよい。また部分領域33の境界線に対して、境界処理が実行されてもよい。例えば、境界線に近づくにつれてぼかし強度が徐々に変化するような処理が実行されてもよい。
 図12のステップ307にて、ユーザからぼかし変更の指示がない場合は(ステップ307のNo)、ぼかし画像6が保存される(ステップ309)。保存されたぼかし画像6は、ユーザの指示等、あるいは自動的に、携帯端末10のタッチパネル20に表示される。あるいは、他の表示装置等に出力されて表示される。
 以上、本実施形態に係る携帯端末10では、部分領域33に対して算出されたサリエンシに基づいて、入力画像5に対してぼかし処理が実行される。これにより、高品質の画像を出力することが可能となる。
 例えばスマートフォン等のデバイスは、搭載するデジタルカメラのアパーチャ(開口部)が小さく、被写界深度が浅い画像を撮影することが難しい場合が多い。すなわち一眼レフカメラやミラーレスカメラのような、注目したい対象物に最もピントが合い他の対象物がぼけているような自然なぼかし表現を実現することが難しい場合が多い。
 例えば、ToF(Time of Flight)カメラ等の撮影対象物までの距離(デプス)を取得可能なデバイスを搭載し、デプス情報にもとづいてぼかし処理を実行する方法が考えられる。しかしながらこの方法では、ハードウェアの追加が必要となり、コストが増大してしまう。
 また上記の非特許文献1に記載のように、画像から検出された人物の領域のみを鮮明に表示されるように、画像処理を実行する方法も考えられる。しかしながらこの方法では、人物の領域がすべて鮮明に表示されるので、不自然なぼかし表現となってしまい画像の品質が低下してしまう。
 本技術に係る情報処理装置、情報処理方法、及びプログラムでは、サリエンシに基づいてぼかし処理が実行される。これにより、以下の効果を発揮することが可能となる。
 アパーチャが小さく被写界深度が深い単眼のカメラ等でも、ユーザの意図を反映した自然なぼかし表現をポスト処理で、画像に付加することが可能となる。
 デプスセンサ等のハードウェアを追加することなく、低コストにて、自然なぼかし表現を実現することが可能となる。
 サリエンシの情報に基づいて、入力画像5内における主要な人物を判定することも可能となる。従って、注目すべき人物を十分に際立たせることが可能となり、一眼レフカメラで撮影されたようなぼかし表現を実現することが可能となる。
 カメラの光学系の特性に縛られることなく、自由にぼかし表現を実現することが可能となる。例えば、サリエンシが高い部分領域33に対して、敢えてぼかし強度を高くするといった自由な表現も可能である。
 例えばぼかし強度を適宜設定することで、入力画像5内の主要な人物を、撮影後に自由に変更することも可能となる。例えば、入力画像5においては、ぼかしが強い人物を鮮明に表示させ、鮮明に表示されている人物をぼかす、といったことも可能となる。
 <第2の実施形態>
 本技術に係る第2の実施形態の情報処理装置について説明する。これ以降の説明では、上記の実施形態で説明した情報処理装置における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
 サリエンシを算出するためのパラメータとして、入力画像5の奥行方向における部分領域33同士の位置関係を用いることが可能である。
 すなわち、部分領域33に対応する物体同士の、入力画像5の奥行方向における位置関係に基づいて、サリエンシが算出されてもよい。
 さらに言えば、部分領域33に対応する人物同士の、入力画像5の奥行方向における位置関係に基づいて、サリエンシが算出されてもよい。
 もちろん部分領域33に対応する物体と、部分領域33に対応する人物との、入力画像5の奥行方向における位置関係に基づいて、サリエンシが算出されてもよい。
 以下、部分領域33に対応する人物を例に挙げて、入力画像5の奥行方向における位置関係の推定方法の例を説明する。また入力画像5の奥行方向における位置関係を、単に前後関係という場合がある。もちろん、物体に対しても同様の推定方法が可能である。
 入力画像5内における人物の前後関係は、例えば、入力画像5の構図を解析することで取得することが可能である。例えば、顔検出を実行し、検出され顔の大きさで前後関係を推定することが可能である。
 その他、人物領域のサイズ、姿勢、オクルージョン(Occlusion)等に基づいて、人物の前後関係を推定することが可能である。
 またフォーカスぼけの情報、運動視差、色収差、空気遠近法等に基づいて、前後関係を推定することも可能である。その他、任意の推定方法が用いられてよい。
 本実施形態では、入力画像5内における物体や人物の前後関係に基づいて、サリエンシが算出される。これにより、さらに自然なほかし表現が実現可能となり、高品質の画像を出力することが可能となる。
 また、入力画像5の構図等に基づいて、前後関係を推定可能である。従ってデプスセンサ等のハードウェアを追加する必要がなく、製造コストを十分に抑えることが可能となる。なお、デプスセンサ等を用いてデプス情報を取得し、サリエンシに基づいたぼかし処理とデプス情報に基づいたぼかし処理と組み合わされてもよい。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 サリエンシを算出するためのパラメータとして、撮影時における天気や撮影時間等の情報が用いられてもよい。
 上記では、部分領域33として、人物に対応する領域が設定される場合を例に挙げた。もちろんこれに限定されず、動物、銅像、建物等、人物以外の物体に対しても本技術は適用可能である。
 また部分領域33として、人物の各部位が異なる部分領域33として設定されてもよい。例えば、手、足、頭、胸、お尻等が、異なる部分領域33として設定され、サリエンシに基づいて、それぞれぼかし処理が実行されてもよい。
 図14に示すように、ネットワーク1を介して、携帯端末10、PC(Personal Computer)60、及びサーバ装置70が、互いに通信可能に接続されている。
 ネットワーク1は、例えばインターネットや広域通信回線網等により構築される。その他、任意のWAN(Wide Area Network)やLAN(Local Area Network)等が用いられてよく、ネットワーク1を構築するためのプロトコルは限定されない。
 このような構成において、サーバ装置70が本技術に係る情報処理装置として機能し、本技術に係る情報処理方法、及びプログラムを実行してもよい。
 例えば、携帯端末10により撮影された画像がサーバ装置70に送信される。サーバ装置70はネットワーク1を介して受信した画像を入力画像5として、サリエンシに基づいてぼかし処理を実行する。そしてぼかし画像6を携帯端末10に送信する。もちろんPC60に、ぼかし画像6を送信することも可能である。
 同様に、携帯端末10から画像を受信したPC60により本技術に係る情報処理方法が実行されてもよい。
 このように、撮影機能を有さない任意のコンピュータが、本技術に係る情報処理装置として構成されてもよい。
 また、ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法が実行され、本技術に係る情報処理装置が構築されてもよい。
 例えば図14に示す携帯端末10により撮影された画像が入力画像5としてサーバ装置70に送信される。サーバ装置70により、画像内の複数の部分領域の少なくとも1つに対してサリエンシが算出される。その算出結果がPC60に送信され、PC60により、サリエンシに基づいて、入力画像5に対してぼかし処理が実行される。
 このような構成により、本技術に係る情報処理方法が実行されてもよい。またこのような構成を、本技術に係る「情報処理システム」ということも可能である。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
 なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 例えばサリエンシの算出、画像に対するぼかし処理、ユーザの指示の受付け等は、単体のコンピュータにより実行されてもよいし、各処理が異なるコンピュータにより実行されてもよい。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 各図面を参照して説明した携帯端末、サーバ装置、PC、入力画像、出力画像、サリエンシマップ、ぼかし強度マップ等の各構成、画像取得のフロー、部分領域の設定フロー、サリエンシの算出フロー、ぼかし処理のフロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
 例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)
 画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出する算出部と、
 前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する画像処理部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記算出部は、前記複数の部分領域の各々に対して前記サリエンシを算出し、
 前記画像処理部は、前記複数の部分領域の各々に対して、前記サリエンシに基づいてぼかし処理を実行する
 情報処理装置。
(3)(1)又は(2)に記載の情報処理装置であって、
 前記画像処理部は、前記サリエンシに基づいて、前記部分領域に対してぼかし強度を設定し、前記ぼかし強度に基づいて前記ぼかし処理を実行する
 情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
 前記画像処理部は、前記サリエンシが相対的に低い前記部分領域に対してぼかし強度を相対的に高く設定し、前記サリエンシが相対的に高い前記部分領域に対してぼかし強度を相対的に低く設定する
 情報処理装置。
(5)(1)から(4)のうちいずれか1つに記載の情報処理装置であって、
 前記画像処理部は、前記サリエンシに基づいて、前記画像に対するぼかし強度マップを生成し、前記ぼかし強度マップに基づいて前記ぼかし処理を実行する
 情報処理装置。
(6)(5)に記載の情報処理装置であって、
 前記算出部は、前記画像に対するサリエンシマップを生成し、
 前記画像処理部は、前記サリエンシマップに基づいて、前記ぼかし強度マップを生成する
 情報処理装置。
(7)(1)から(6)のうちいずれか1つに記載の情報処理装置であって、
 前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含む
 情報処理装置。
(8)(1)から(7)のうちいずれか1つに記載の情報処理装置であって、
 前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含む
 情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、
 前記算出部は、前記画像を見る人間にとっての目立ちやすさを示すパラメータとして、前記サリエンシを算出する
 情報処理装置。
(10)(9)に記載の情報処理装置であって、
 前記算出部は、前記部分領域の色、サイズ、コントラスト、輝度、形状、前記画像内の位置の少なくとも1つに基づいて、前記サリエンシを算出する
 情報処理装置。
(11)(9)又は(10)に記載の情報処理装置であって、
 前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含み、
 前記算出部は、前記部分領域に対応する前記物体の種類、前記部分領域に対応する前記物体の状態、前記部分領域に対応する前記物体のサイズ、又は前記部分領域に対応する前記物体の前記画像内の位置、又は前記部分領域に対応する前記物体同士の前記画像の奥行方向における位置関係の少なくとも1つに基づいて、前記サリエンシを算出する
 情報処理装置。
(12)(9)から(11)のうちいずれか1つに記載の情報処理装置であって、
 前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含み、
 前記算出部は、前記部分領域に対応する前記人物の状態、前記部分領域に対応する前記人物のサイズ、前記部分領域に対応する前記人物の前記画像内の位置、又は前記部分領域に対応する前記人物同士の前記画像の奥行方向における位置関係の少なくとも1つに基づいて、前記サリエンシを算出する
 情報処理装置。
(13)(12)に記載の情報処理装置であって、
 前記部分領域に対応する前記人物の状態は、前記人物の姿勢、又は前記人物の顔に関する情報の少なくとも一方を含む
 情報処理装置。
(14)(13)に記載の情報処理装置であって、
 前記人物の顔に関する情報は、顔のサイズ、顔の向き、顔の表情、又は前記画像内の顔の位置の少なくとも1つを含む
 情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、さらに、
 ユーザの指示を受付ける受付部を具備し、
 前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし処理を実行可能である
 情報処理装置。
(16)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、さらに、
 ユーザの指示を受付ける受付部を具備し、
 前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし強度を設定可能である
 情報処理装置。
(17)(1)から(16)のうちいずれか1つに記載の情報処理装置であって、さらに、
 ユーザの指示を受付ける受付部を具備し、
 前記算出部は、前記ユーザの指示に基づいて、前記サリエンシを算出可能である
 情報処理装置。
(18)(15)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記受付部は、前記部分領域を選択する指示を受付け、
 前記画像処理部は、選択された前記部分領域に対して、前記ぼかし処理を実行する
 情報処理装置。
(19)
 画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出し、
 前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する
 ことをコンピュータシステムが実行する情報処理方法。
(20)
 画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出するステップと、
 前記サリエンシに基づいて、前記画像に対してぼかし処理を実行するステップと
 をコンピュータシステムに実行させるプログラム。
 P1~P3…人物
 SM1~SM5…サリエンシマップ
 5…入力画像
 10…携帯端末
 19…コントローラ
 28…カメラ制御部
 29…物体検出部
 30…サリエンシ算出部
 31…強度制御部
 32…ぼかしフィルタ部
 33…部分領域
 60…PC
 70…サーバ装置

Claims (20)

  1.  画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出する算出部と、
     前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する画像処理部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記算出部は、前記複数の部分領域の各々に対して前記サリエンシを算出し、
     前記画像処理部は、前記複数の部分領域の各々に対して、前記サリエンシに基づいてぼかし処理を実行する
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記画像処理部は、前記サリエンシに基づいて、前記部分領域に対してぼかし強度を設定し、前記ぼかし強度に基づいて前記ぼかし処理を実行する
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記画像処理部は、前記サリエンシが相対的に低い前記部分領域に対してぼかし強度を相対的に高く設定し、前記サリエンシが相対的に高い前記部分領域に対してぼかし強度を相対的に低く設定する
     情報処理装置。
  5.  請求項1に記載の情報処理装置であって、
     前記画像処理部は、前記サリエンシに基づいて、前記画像に対するぼかし強度マップを生成し、前記ぼかし強度マップに基づいて前記ぼかし処理を実行する
     情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記算出部は、前記画像に対するサリエンシマップを生成し、
     前記画像処理部は、前記サリエンシマップに基づいて、前記ぼかし強度マップを生成する
     情報処理装置。
  7.  請求項1に記載の情報処理装置であって、
     前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含む
     情報処理装置。
  8.  請求項1に記載の情報処理装置であって、
     前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含む
     情報処理装置。
  9.  請求項1に記載の情報処理装置であって、
     前記算出部は、前記画像を見る人間にとっての目立ちやすさを示すパラメータとして、前記サリエンシを算出する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記算出部は、前記部分領域の色、サイズ、コントラスト、輝度、形状、前記画像内の位置の少なくとも1つに基づいて、前記サリエンシを算出する
     情報処理装置。
  11.  請求項9に記載の情報処理装置であって、
     前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含み、
     前記算出部は、前記部分領域に対応する前記物体の種類、前記部分領域に対応する前記物体の状態、前記部分領域に対応する前記物体のサイズ、又は前記部分領域に対応する前記物体の前記画像内の位置、又は前記部分領域に対応する前記物体同士の前記画像の奥行方向における位置関係の少なくとも1つに基づいて、前記サリエンシを算出する
     情報処理装置。
  12.  請求項9に記載の情報処理装置であって、
     前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含み、
     前記算出部は、前記部分領域に対応する前記人物の状態、前記部分領域に対応する前記人物のサイズ、前記部分領域に対応する前記人物の前記画像内の位置、又は前記部分領域に対応する前記人物同士の前記画像の奥行方向における位置関係の少なくとも1つに基づいて、前記サリエンシを算出する
     情報処理装置。
  13.  請求項12に記載の情報処理装置であって、
     前記部分領域に対応する前記人物の状態は、前記人物の姿勢、又は前記人物の顔に関する情報の少なくとも一方を含む
     情報処理装置。
  14.  請求項13に記載の情報処理装置であって、
     前記人物の顔に関する情報は、顔のサイズ、顔の向き、顔の表情、又は前記画像内の顔の位置の少なくとも1つを含む
     情報処理装置。
  15.  請求項1に記載の情報処理装置であって、さらに、
     ユーザの指示を受付ける受付部を具備し、
     前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし処理を実行可能である
     情報処理装置。
  16.  請求項1に記載の情報処理装置であって、さらに、
     ユーザの指示を受付ける受付部を具備し、
     前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし強度を設定可能である
     情報処理装置。
  17.  請求項1に記載の情報処理装置であって、さらに、
     ユーザの指示を受付ける受付部を具備し、
     前記算出部は、前記ユーザの指示に基づいて、前記サリエンシを算出可能である
     情報処理装置。
  18.  請求項15に記載の情報処理装置であって、
     前記受付部は、前記部分領域を選択する指示を受付け、
     前記画像処理部は、選択された前記部分領域に対して、前記ぼかし処理を実行する
     情報処理装置。
  19.  画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出し、
     前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  画像内の複数の部分領域の少なくとも1つに対してサリエンシを算出するステップと、
     前記サリエンシに基づいて、前記画像に対してぼかし処理を実行するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2020/028902 2019-08-05 2020-07-28 情報処理装置、情報処理方法、及びプログラム WO2021024860A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-143737 2019-08-05
JP2019143737 2019-08-05

Publications (1)

Publication Number Publication Date
WO2021024860A1 true WO2021024860A1 (ja) 2021-02-11

Family

ID=74503617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/028902 WO2021024860A1 (ja) 2019-08-05 2020-07-28 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2021024860A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170802A (zh) * 2023-04-26 2023-05-26 浙江鹏信信息科技股份有限公司 物联网通信方法、系统及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233470A (ja) * 2007-03-20 2008-10-02 Sanyo Electric Co Ltd 絞り制御装置及び画像処理装置
JP2014016688A (ja) * 2012-07-06 2014-01-30 Kddi Corp 顕著性マップを利用した非写実変換プログラム、装置及び方法
JP2015035658A (ja) * 2013-08-07 2015-02-19 キヤノン株式会社 画像処理装置、画像処理方法、および撮像装置
JP2017123015A (ja) * 2016-01-06 2017-07-13 株式会社リコー 情報処理装置、画像処理方法およびプログラム
WO2017216933A1 (ja) * 2016-06-16 2017-12-21 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008233470A (ja) * 2007-03-20 2008-10-02 Sanyo Electric Co Ltd 絞り制御装置及び画像処理装置
JP2014016688A (ja) * 2012-07-06 2014-01-30 Kddi Corp 顕著性マップを利用した非写実変換プログラム、装置及び方法
JP2015035658A (ja) * 2013-08-07 2015-02-19 キヤノン株式会社 画像処理装置、画像処理方法、および撮像装置
JP2017123015A (ja) * 2016-01-06 2017-07-13 株式会社リコー 情報処理装置、画像処理方法およびプログラム
WO2017216933A1 (ja) * 2016-06-16 2017-12-21 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170802A (zh) * 2023-04-26 2023-05-26 浙江鹏信信息科技股份有限公司 物联网通信方法、系统及计算机可读存储介质
CN116170802B (zh) * 2023-04-26 2023-07-07 浙江鹏信信息科技股份有限公司 物联网通信方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
CN110084775B (zh) 图像处理方法及装置、电子设备和存储介质
CN105323425B (zh) 融合图像系统中的场景运动校正
WO2020093837A1 (zh) 人体骨骼关键点的检测方法、装置、电子设备及存储介质
WO2021236296A9 (en) Maintaining fixed sizes for target objects in frames
US9672416B2 (en) Facial expression tracking
CN109788190B (zh) 一种图像处理方法、装置、移动终端及存储介质
US11644890B2 (en) Image capturing in extended reality environments
US9129397B2 (en) Human tracking method and apparatus using color histogram
CA3122315A1 (en) Eye tracking method and system
US20150103184A1 (en) Method and system for visual tracking of a subject for automatic metering using a mobile device
DE112016004437T5 (de) Head-Mounted-Display mit Gesichtsausdruck-Erkennungsfähigkeit
US11977981B2 (en) Device for automatically capturing photo or video about specific moment, and operation method thereof
WO2021078001A1 (zh) 一种图像增强方法及装置
CN108200337B (zh) 拍照处理的方法、装置、终端及存储介质
US11385526B2 (en) Method of processing image based on artificial intelligence and image processing device performing the same
US9384384B1 (en) Adjusting faces displayed in images
CN110858316A (zh) 对时间序列图像数据进行分类
CN111880711B (zh) 显示控制方法、装置、电子设备及存储介质
CN114445562A (zh) 三维重建方法及装置、电子设备和存储介质
WO2021024860A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20160140748A1 (en) Automated animation for presentation of images
US20230334907A1 (en) Emotion Detection
CN110766631A (zh) 人脸图像的修饰方法、装置、电子设备和计算机可读介质
Bonetto et al. Image processing issues in a social assistive system for the blind

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20849701

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20849701

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP