WO2021229926A1 - 情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置 - Google Patents

情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置 Download PDF

Info

Publication number
WO2021229926A1
WO2021229926A1 PCT/JP2021/012526 JP2021012526W WO2021229926A1 WO 2021229926 A1 WO2021229926 A1 WO 2021229926A1 JP 2021012526 W JP2021012526 W JP 2021012526W WO 2021229926 A1 WO2021229926 A1 WO 2021229926A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
neural network
parameter
image processing
image
Prior art date
Application number
PCT/JP2021/012526
Other languages
English (en)
French (fr)
Inventor
ミヒャエル ヘンチェル
加奈 西川
康治 浅野
晃 高橋
浩明 小川
典子 戸塚
匡伸 中村
知香 明賀
智恵 山田
眞大 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021229926A1 publication Critical patent/WO2021229926A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the technology disclosed in the present specification (hereinafter referred to as "the present disclosure") relates to an information processing device and an information processing method for performing image processing using a neural network, a computer program, and an image pickup device.
  • machine learning is expected to be applied to various fields, and research and development is rapidly progressing.
  • a technology that uses a machine learning model for image processing such as image quality adjustment and image compression of an image captured by a digital camera
  • a technology that automates camera work such as shooting timing, zooming, panning, and tilting with a machine learning model are known. ing.
  • Patent Document 1 a data synthesizer that extracts a concept from a natural language sentence and synthesizes an image of the concept with a neural network model has been proposed (see Patent Document 1).
  • Patent Document 2 an image editing device that converts a natural language sentence into a natural image and a natural language that describes the content of the image.
  • Patent Document 3 An image creation method (see Patent Document 3) that reduces the labor of image creation has been proposed.
  • Japanese Unexamined Patent Publication No. 2019-45984 Japanese Unexamined Patent Publication No. 5-120399 Japanese Unexamined Patent Publication No. 8-138575
  • An object of the present disclosure is to provide an information processing device and an information processing method, a computer program, and an imaging device that adjust neural network-based image processing based on a user's utterance.
  • the first aspect of this disclosure is Control unit and The utterance input section for inputting the user's utterance, An image processing neural network that processes the input image, A parameter holding unit that holds parameters related to the image processing neural network, A parameter adjustment neural network that adjusts the value of the parameter based on the utterance, Equipped with
  • the control unit is an information processing device that performs image processing based on a user's instruction by the utterance by adjusting the parameters based on the utterance.
  • the parameter adjustment neural network calculates the adjustment amount of the parameters used in the image processing neural network so as to generate the result as intended by the user included in the utterance.
  • the information processing device further includes an utterance encoder neural network in which the utterance input unit encodes the text expression of the utterance into an utterance vector numerically expressed. Then, the parameter adjustment neural network has an utterance parameter vector as an input.
  • the information processing device further includes an utterance cache that temporarily stores the utterance parameter vector. Then, the parameter adjustment neural network calculates the adjustment amount of the parameter used in the image processing neural network based on the plurality of continuous utterance parameter vectors and the adjustment amount of the parameter stored in the user parameter cache. do.
  • the second aspect of this disclosure is An utterance input step to enter the user's utterance, A parameter adjustment step in which the trained parameter adjustment neural network adjusts the value of the parameter related to the image processing neural network based on the utterance.
  • the third aspect of this disclosure is The utterance input section, which inputs the user's utterance, Image processing Image processing unit that processes images using neural networks, A parameter holding unit that holds parameters related to the image processing neural network, Parameter adjustment unit, which adjusts the value of the parameter based on the utterance using the parameter adjustment neural network. It is a computer program described in a computer-readable format so as to perform image processing based on a user's instruction by the utterance by operating the computer as a computer and adjusting the parameters based on the utterance.
  • the computer program according to the third aspect of the present disclosure defines a computer program described in a computer-readable format so as to realize a predetermined process on the computer.
  • a collaborative action is exhibited on the computer, and the same action as the information processing apparatus according to the first aspect of the present disclosure. The effect can be obtained.
  • the fourth aspect of the present disclosure is An image pickup unit that captures images and The utterance input section for inputting the user's utterance, A signal processing unit that processes the captured image signal, and Equipped with The signal processing unit includes an image processing neural network that processes an captured image, a parameter holding unit that holds parameters related to the image processing neural network, and a parameter adjusting neural network that adjusts the value of the parameter based on the speech.
  • an information processing device and an information processing method, a computer program, and an image pickup device that modify neural network-based image processing based on a user's utterance.
  • FIG. 1 is a diagram showing a configuration example of the digital camera 100.
  • FIG. 2 is a diagram showing a functional configuration of the image processing system 200.
  • FIG. 3 is a diagram showing a functional configuration of the image processing system 300.
  • FIG. 4 is a diagram showing a functional configuration of the image processing system 400.
  • FIG. 5 is a diagram showing a learning mechanism of a neural network in the image processing system 200.
  • FIG. 6 is a diagram for explaining the operation (display of the current image) of the image processing system 200.
  • FIG. 7 is a diagram for explaining the operation of the image processing system 200 (user feedback and update result for the image).
  • FIG. 8 is a diagram for explaining the operation of the image processing system 200 (incomplete user feedback on the updated processing result).
  • FIG. 9 is a diagram for explaining the operation of the image processing system 200 (update of the user parameter cache by error back propagation).
  • a filter that performs image processing (local image adjustment) that adjusts a part of the image in this way can be realized by using a trained machine learning model such as a neural network. Adjustment of image processing is realized by modifying the parameters of the neural network (coupling weight coefficient between neurons), but it is difficult to directly modify the parameters according to the voice instruction from the user, and it was possible to realize it. However, it is limited. This is because there is no way to convert natural language into neural network parameters.
  • Patent Documents 1 to 3 disclose a technique for performing image processing based on a natural language sentence, they do not mention any parameter adjustment of a neural network.
  • the present disclosure provides a method of directly modifying an image processing algorithm based on a voice command.
  • the parameter set applied to the neural network that realizes the image processing algorithm can be directly modified based on the natural language input.
  • the neural network that corrects the parameters is also referred to as "parameter adjustment neural network (Parameter Adjustment Neural Network)".
  • a cache mechanism for temporarily storing the user's utterance is used so that the user can make corrections to the same object in consecutive multiple turns of utterance.
  • the cache used for this purpose in the present disclosure is also referred to as "utterance cache” below.
  • the neural network for parameter adjustment is estimated based on the user's speech, and the default parameter set of the neural network for image processing is set. Calculate the appropriate adjustment amount.
  • the adjustment parameters when the neural network for parameter adjustment calculates the adjustment amount of the parameter set are stored in the user parameter cache. Then, the neural network for image processing realizes image processing in which the algorithm is improved according to the user's preference by using a parameter set adjusted from the default value by the adjustment amount calculated based on the user's utterance. be able to.
  • the user can change the result of image processing by using a voice command.
  • FIG. 1 shows a configuration example of the digital camera 100.
  • the illustrated digital camera 100 displays an optical system 101, an imaging unit 102, an AFE (Analog Front End) unit 103, a camera signal processing unit 104, a codec processing unit 105, and a recording unit 106. It includes a unit 107, a main processing unit 108, a microphone 109, and an A / D conversion unit 110.
  • the optical system 101 has a lens for condensing light from the subject on the image pickup surface of the image pickup unit 102, a drive mechanism for moving the lens to perform focusing and zooming, and light from the subject for a predetermined time by opening and closing operations. It includes a shutter mechanism that only incidents on the imaging surface, and an iris (aperture) mechanism that limits the direction and range of the light beam from the subject (neither is shown).
  • the driver (not shown) drives each mechanism in the optical system 101 (for example, subject focusing, iris, pan and tilt, shutter or self-timer setting) based on a control signal from the main processing unit 108 described later. Control camera work such as timing).
  • the image pickup unit 102 is composed of an image pickup element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxyde Semiconductor), and has an image pickup surface in which each pixel having a photoelectric conversion effect is arranged in two dimensions, and is incident from the subject. Converts light into an electrical signal.
  • a G checkered RB color coding veneer is arranged on the light receiving side. The signal charge corresponding to the amount of incident light passed through each color filter is accumulated in each pixel, and the color of the incident light at the pixel position can be reproduced from each signal charge amount of the three colors read from each pixel.
  • the analog image signal output from the image pickup unit 102 is a primary color signal of each RGB color, but may be a complementary color signal.
  • the AFE unit 103 performs sample hold after suppressing the low noise of the image pickup signal with high accuracy (Correlated Double Sample (correlated double sampling): CDS), and further by AGC (Automatic Gain Control: automatic gain control circuit). Appropriate gain control is applied, AD conversion is performed, and a digital image signal is output. Further, the AFE unit 103 outputs a timing pulse signal for driving the image pickup device and a drive signal for outputting the charge of each pixel of the image pickup device in the vertical direction in line units according to the timing pulse signal to the image pickup unit 102. do.
  • the camera signal processing unit 104 performs preprocessing such as defect pixel correction, digital clamping, and digital gain control on the image signal sent from the AFE unit 103, and then applies white balance gain by AWB and sharpness. -Reproduce the appropriate color state by performing image quality correction processing such as gain adjustment again, and further create an RGB image signal by demosaic processing.
  • preprocessing such as defect pixel correction, digital clamping, and digital gain control
  • AWB and sharpness -Reproduce the appropriate color state by performing image quality correction processing such as gain adjustment again, and further create an RGB image signal by demosaic processing.
  • image quality correction processing such as gain adjustment again
  • demosaic processing it is assumed that a trained machine learning model is used for at least a part of the processing performed by the camera signal processing unit 104.
  • the image signal processed by the camera signal processing unit 104 is recorded in the recording unit 106 as an image file after the codec processing unit 105 performs encoder processing such as JPEG (Joint Picture Experts Group). Further, the camera signal processing unit 104 further performs resolution conversion on the image subjected to the above signal processing, and displays it as a through image on the display unit 107. Further, the image recorded in the recording unit 106 is read out, decoded by the codec processing unit 105, and displayed as a reproduced image.
  • encoder processing such as JPEG (Joint Picture Experts Group)
  • the camera signal processing unit 104 further performs resolution conversion on the image subjected to the above signal processing, and displays it as a through image on the display unit 107. Further, the image recorded in the recording unit 106 is read out, decoded by the codec processing unit 105, and displayed as a reproduced image.
  • the recording unit 106 is a large-capacity recording device such as an HDD (hard disk drive) or SSD (Sold State Drive). An image is recorded in the recording unit 106 by the imaging unit 102. Further, in the present embodiment, a plurality of parameter sets of the machine learning model used in the camera signal processing unit 104 are recorded in the recording unit 106.
  • the display unit 107 is a liquid crystal display panel mounted on the digital camera 100, but may be a television or a projector externally connected to the digital camera 100.
  • the main processing unit 108 is composed of a processor, a RAM (Random Access Memory), and a ROM (Read Only Memory), and comprehensively controls the operation of the entire digital camera 100.
  • the processor is a CPU (Central Processing Unit) or a GPU (Graphic Processing Unit) having a multi-core.
  • the main processing unit 108 controls a process of recording the image data captured by the photographing unit 102 in the recording unit 106. Further, the main processing unit 108 controls a process of reading image data from the recording unit 106 and displaying it on the display unit 107 at the time of image reproduction.
  • the main processing unit 108 captures the voice signal picked up by the microphone 109 after converting it into a digital signal by the A / D conversion unit 110, recognizes the voice, and captures it as a voice command.
  • a voice command for instructing local image quality adjustment or the like for an image taken by the digital camera 100 is input. Details of local image quality adjustment according to voice commands will be described later.
  • FIG. 2 schematically shows a functional configuration of an image processing system 200 to which the present disclosure is applied.
  • the illustrated image processing system 200 includes an image input unit 201, an image processing neural network 202, a processing result display unit 203, an image cache 204, and first to Nth parameter sets 205-1, ..., 205-N. It also includes a user speech input unit 206, a speech encoder neural network 207, a speech parameter vector 208, a speech cache 209, a parameter adjustment neural network 210, and a user parameter cache 211.
  • the image input unit (Image Input) 201 inputs, for example, an image taken by the digital camera 100.
  • the image input unit 201 corresponds to the optical system 101, the image pickup unit 102, the AFE unit 103, and the camera signal processing unit 104 of the digital camera 100.
  • Image processing Neural network (Image Processing Neural Network) 202 uses a neural network to perform image processing on an input image according to the situation by an advanced image processing algorithm.
  • the advanced image processing algorithm referred to here includes, for example, the following.
  • the image processing neural network 202 is incorporated in, for example, the camera signal processing unit 104 of the digital camera 100.
  • Algorithm that applies processing only to human skin (2) Algorithm that automatically merges bright and dark image parts in so-called HDR (High Dynamic Range) images (3) Deletes unnecessary objects from images Algorithm (4) Algorithm that applies transformations such as color and contrast to objects in an image
  • the processing result display unit (Processing Restrict Display Unit) 203 is a device or software that presents an image to the user, and corresponds to, for example, the display unit 107 of the digital camera 100.
  • the image cache (Image Cache) 204 is a cache memory that temporarily stores the image data initially output by the image processing neural network.
  • the first to Nth parameter sets (Parameter Set) 205-1, ..., 205-N are parameter sets used by the image processing neural network 202, respectively.
  • the first to Nth parameter sets 205-1, ..., 205-N include, for example, layer transition weights of the image processing neural network 202, or subnet weights of a more complex network architecture.
  • the first to Nth parameter sets 205-1, ..., 205-N are recorded in, for example, the recording unit 106 of the digital camera 100.
  • User utterance input unit 206 inputs utterances from the user including corrections and corrections to the processed image displayed by the processing result display unit 203.
  • the user utterance input unit 206 corresponds to, for example, a microphone 109 for inputting a voice command from the user.
  • the user's utterance is converted into text format data by the automatic voice recognition system and then input to the user utterance input unit 206.
  • the utterance encoder neural network (Utterance Encoder Neural Network) 207 encodes the text expression of the user's utterance into a numerical expression such as a vector.
  • a variable-length text expression is input from the user utterance input unit 206, but the utterance encoder neural network 207 encodes it into a fixed-length expression.
  • the utterance parameter vector 208 is a numerical representation of the user's utterance output from the utterance encoder neural network 207.
  • the utterance cache (Utterance Cache) 209 is a cache memory that temporarily stores a plurality of utterance parameter vectors output by the utterance encoder neural network 207 from continuous user utterances.
  • the utterance encoder neural network 207 and the utterance cache 209 are incorporated in, for example, the main processing unit 108 of the digital camera 100.
  • the parameter adjustment neural network (Parameter Adjustment Neural Network) 210 is a parameter adjustment amount used in the image processing neural network 202 so that the image processing neural network 202 produces the result as the user intended included in the user's speech. To calculate. Parameter Adjustment The parameter adjustment performed by the neural network 210 is a temporary adjustment and does not permanently change the first to Nth parameter sets 205-1, ..., 205-N.
  • the present embodiment is also characterized in that the parameter adjustment neural network 210 uses the utterance cache 209. That is, the parameter adjustment neural network 210 has parameters based on a continuous plurality of turns of the utterance parameter vector including the utterance parameter vector output from the utterance encoder neural network 207 and the utterance parameter vector read from the utterance cache 209. Calculate the adjustment amount of.
  • the user parameter cache (User Parameter Cache) 211 is a memory for storing adjustment parameters when the parameter adjustment neural network 210 calculates the adjustment amount of the parameters.
  • the memory referred to here is assumed to be a non-volatile memory such as a flash memory.
  • the parameter adjustment neural network 210 and the user parameter cache 211 are incorporated in, for example, the main processing unit 108 of the digital camera 100.
  • the first to Nth parameter sets 205-1, ..., 205-N are initially a set of parameters consisting of predefined values.
  • the parameter adjustment neural network 210 is based on the user's speech so that the image processing neural network 202 can improve the algorithm to suit the user's specific preference and perform image processing during the system operation of the image processing system 200. At least a part of the first to Nth parameter sets 205-1, ..., 205-N is adjusted according to the calculated parameter adjustment amount. In this way, the image processing neural network 202 can generate the processing result intended by the user even if the user's operation is reduced (in other words, the number of instructions by the user's utterance is reduced).
  • the number of adjustment parameters in the user parameter cache 211 is smaller than the number of parameters of the first to Nth parameter sets 205-1, ..., 205-N. Therefore, the parameter adjustment neural network 210 adjusts the parameters using the adjustment parameters in the user parameter cache 211 without changing a large number of parameters of the first to Nth parameter sets 205-1, ..., 205-N.
  • the image is calculated so that the processing result as intended by the user can be generated by calculating the amount and adjusting at least a part of the first to Nth parameter sets 205-1, ..., 205-N by the adjustment amount.
  • the algorithm of the processing parameter network 202 can be permanently modified. In the first place, since the first to Nth parameter sets 205-1, ..., 205-N are usually implemented by the hardware inside the digital camera 100, the parameters cannot be easily changed.
  • FIG. 3 schematically shows the functional configuration of the image processing system 300 according to the first modification.
  • the image processing system 300 includes a configuration in which the utterance cache 209 and the parameter adjustment neural network 210 are integrated.
  • the same components included in the image processing system 200 shown in FIG. 2 have the same name and the same reference number.
  • the configuration of the image processing system 300 will be described with a focus on the differences from the image processing system 200 shown in FIG.
  • the utterance parameter vector 208 is not shown as an intermediate block, and the output of the utterance encoder neural network 207 is drawn as being directly input to the subsequent neural network.
  • the utterance cache 209 in FIG. 2 has been replaced with the sequence summary neural network 301.
  • the sequence summary neural network 301 calculates the average representation of the total output of the speech encoder neural network 207. Based on the output of the sequence summary neural network 301, the parameters used in the image processing neural network 202 are modified. That is, the sequence summary neural network 301 is a substitute for the parameter adjustment neural network 210.
  • the parameters used in the image processing neural network 202 are modified based on the output of the sequence summary neural network 301 and the parameter adjustment amount temporarily stored in the user parameter cache 211. This makes it possible to modify the parameters used in the image processing neural network 202 without the user's speech input. By doing so, it is possible to permanently modify the parameters according to the user's preference.
  • FIG. 4 schematically shows the functional configuration of the image processing system 400 according to the second modification.
  • the image processing system 400 includes a configuration in which the connection between the parameter adjustment neural network 210 and the speech encoder neural network 207 is changed.
  • the same components included in the image processing system 200 shown in FIG. 2 have the same name and the same reference number.
  • the configuration of the image processing system 400 will be described with a focus on the differences from the image processing system 200 shown in FIG.
  • the output of the utterance encoder neural network 207 is input to the utterance cache 209.
  • the utterance cache 209 can be realized by using the "sequence summary neural network" described in the above section D-1.
  • the "sequence summary neural network” itself is a technology for which research has already been reported in automatic speech recognition.
  • FIG. 5 illustrates the learning mechanism of the neural network in the image processing system 200.
  • the learning mechanism shown in FIG. 5 is premised on the existence of a pre-learned image processing algorithm using a neural network, that is, a trained image processing network 202.
  • the trained image processing network 202 uses the first to Nth parameter sets 205-1, ..., 205-N.
  • the first to Nth parameter sets 205-1, ..., 205-N include layer transition weights of the image processing neural network 202, or subnet weights of a more complex network architecture (described above).
  • the learning mechanism shown in FIG. 5 targets two neural networks, the speech encoder neural network 207 and the parameter adjustment neural network 210, as learning targets.
  • Learning a neural network requires a huge amount of training data.
  • the training data is, for example, a combination of input data to the neural network to be trained and teacher data for evaluating the calculation result of the neural network.
  • the learning data consists of ⁇ adjusted utterance, original image, and adjusted image ⁇ .
  • the adjusted utterance is a conversion of the utterance of the user utterance that can be input to the user utterance input unit 206 and instructing adjustment to the original image into a text expression format.
  • the adjusted image is an image or teacher data that the image processing neural network 202 should generate so that the image processing neural network 202 is as the user intended, using the parameters adjusted by the parameter adjustment neural network 210 based on the user's utterances to the original image. Is.
  • the parameter adjustment network 210 adjusts the parameters of the first to Nth parameter sets 205-1, ..., 205-N for the image processing neural network 202 to generate the adjusted image (teacher data). Do learning.
  • the utterance encoder neural network 207 learns so as to output an utterance parameter vector representing the user's utterance.
  • the user's utterance is input to the utterance encoder neural network 207 as a sequence of words.
  • the utterance parameter vector encoded by the utterance encoder neural network 207 is used as an input to the parameter adjustment network 210.
  • the parameter adjustment neural network 210 calculates from the utterance parameter vector how to adjust the parameters of the first to Nth parameter sets 205-1, ..., 205-N.
  • the learning of the utterance encoder neural network 207 and the parameter adjustment neural network 210 is performed using a conventional neural network learning method such as error backpropagation.
  • the user parameter cache 211 is not updated during neural network learning.
  • the utterance cache 209 is used when the learning sample consists of two or more utterances.
  • the learning of the utterance encoder neural network 207 and the learning of the parameter adjustment neural network 210 can be performed at the same time.
  • the utterance encoder neural network 207 outputs the utterance parameter vector of the encoded result to the parameter adjustment neural network 210 when the user's utterance consisting of a sequence of words is input.
  • the parameter adjustment neural network 210 calculates the parameter adjustment amount of the first to Nth parameter sets 205-1, ..., 205-N from the utterance parameter vector.
  • the image processing neural network 202 adjusts the original image using the parameters of the adjusted first to Nth parameter sets 205-1, ..., 205-N. Then, the error between the image output from the image processing neural network 202 and the adjusted image as the teacher data is back-propagated to the utterance encoder neural network 207, and the utterance is made so that the loss function based on the error is minimized. Training of the encoder neural network 207 is performed.
  • the utterance encoder neural network 207 outputs the utterance parameter vector of the encoded result to the parameter adjustment neural network 210.
  • the parameter adjustment neural network 210 calculates the parameter adjustment amount of the first to Nth parameter sets 205-1, ..., 205-N from the utterance parameter vector.
  • the image processing neural network 202 adjusts the original image using the parameters of the adjusted first to Nth parameter sets 205-1, ..., 205-N. Then, the error between the image output from the image processing neural network 202 and the adjusted image as the teacher data is back-propagated to the parameter adjustment neural network 210 so that the loss function based on the error is minimized.
  • the training of the adjustment neural network 210 is performed.
  • the image of the result of image processing by the image processing neural network 202 with respect to the input image is displayed on the processing result display unit 203.
  • the user instructs the processed image displayed by the processing result display unit 203 to be corrected or corrected by utterance, and the utterance command is input to the user utterance input unit 206.
  • Typical user utterance commands include:
  • the following describes a processing procedure in a use case in which the image processing system 200 partially changes an image of a beach and the sea according to an instruction given by a user.
  • the user wants to make the blue of the sea stronger in the image of the beach and the sea.
  • the utterance encoder neural network 207 calculates an utterance parameter vector that expresses the user's utterance "make the sea more blue" passed from the user utterance input unit 206. This utterance parameter vector is input to the parameter adjustment neural network 210.
  • the utterance cache 209 is empty at the first use.
  • the user parameter cache 211 is set to a predefined value when it is first used. In FIG. 7, for the sake of brevity, it is assumed that the image processing neural network 202 uses only one parameter set 205.
  • the parameter adjustment neural network 210 includes an utterance parameter vector (that is, the current utterance) output from the utterance encoder neural network 207, an utterance parameter vector (that is, a past utterance) read from the utterance cache 209, and a user parameter.
  • the parameter adjustment amount of the parameter set 205 is calculated based on the adjustment parameter stored in the cache 211.
  • the image processing neural network 202 improves the algorithm to enhance the blue of the sea by using the parameter set 205 adjusted based on the parameter adjustment amount calculated by the parameter adjustment neural network 210, and the input image. Perform image processing.
  • the image generated by the image processing neural network 202 is displayed on the processing result display unit 203. Further, the utterance parameter vector input this time is temporarily stored in the utterance cache 209.
  • Process 3 Incomplete user feedback on the updated process result It is assumed that the user is not yet satisfied with the result of processing the input image in process 2 (the image in which the blue of the sea is strengthened). Then, it is assumed that an incomplete user's utterance "make it a little bluer" is input. An incomplete utterance is a grammatically incomplete utterance that lacks the object "sea” and the like (ie, does not specify that the color of the sea should be adjusted). This often happens when the user speaks about the same requirement in succession.
  • the parameter adjustment neural network 210 calculates an utterance parameter vector that expresses this incomplete utterance.
  • the parameter adjustment neural network 210 uses the past utterance parameter vector stored in the utterance cache 209 and the new utterance parameter vector output from the utterance encoder neural network 207 as inputs, and uses the parameters as in the above process 2. Calculate the parameter adjustment amount of set 205.
  • the incomplete user's utterance of "make it a little bluer" does not specify that the color of the sea should be adjusted.
  • the parameter adjustment neural network 210 inputs the utterance parameter vector corresponding to the past utterance "Make the sea more blue” stored in the utterance cache 209, and says “Make it a little bluer". It is possible to identify that the object to be blue in the current imperfect utterance is the "sea color”.
  • the parameter adjustment neural network 210 reads the adjustment parameter used when calculating the adjustment amount of the parameter based on the previous speech "make the sea more blue" from the user parameter cache 211, and further makes the sea blue.
  • the parameter adjustment amount for improving the image processing algorithm is calculated as described above.
  • the adjustment parameter used for calculating the adjustment amount of the parameter is stored in the user parameter cache 211 again. Without the utterance cache 209, the parameter adjustment neural network 210 would not be able to calculate the appropriate parameter adjustment amount solely from the current incomplete utterance "make it a little bluer".
  • the image processing neural network 202 performs image processing of the input image by improving the algorithm so as to make the blue of the sea a little stronger by using the parameter set 205 adjusted based on the parameter adjustment amount.
  • the image generated by the image processing neural network 202 is displayed on the processing result display unit 203. Further, the utterance parameter vector input this time is temporarily stored in the utterance cache 209.
  • Process 4 Update of user parameter cache by error back propagation
  • the output of the above process 3 and the image cache 204 are used to update the user parameter cache 211 by error back propagation.
  • the loss function based on the error between the image output from the image processing neural network 202 and the image of the teacher data stored in the image cache 204 is calculated, the error is back-propagated to the parameter adjustment neural network 210, and the parameter adjustment neural network is used.
  • the 210 updates the adjustment parameter for calculating the parameter adjustment amount corresponding to the user's speech "make the sea bluer" so that the error is minimized, and stores it in the user parameter cache 211.
  • the parameter adjustment neural network 210 reads the adjustment parameter learned this time from the user parameter cache 211, calculates the parameter adjustment amount, and calculates this adjustment amount. Only the adjusted parameter set 205 is used by the image processing neural network 202. As a result, the image processing system 200 can generate an image in which the sea is blue, which reflects the user's preference, with only one utterance of the user.
  • the image processing system 200 modifies the parameters of the neural network-based image processing algorithm based on the natural language spoken by the user. Therefore, it is possible to directly influence the parameter adjustment according to the user's voice command.
  • the image processing system 200 includes an utterance cache 209 that temporarily stores the user's utterances. Therefore, it is possible to adjust the parameters of the neural network-based image processing algorithm based on the utterances of a plurality of consecutive turns.
  • the image processing system 200 includes a user parameter cache 211 that stores the adjustment parameters used by the parameter adjustment neural network 210. Therefore, the algorithm of the image processing neural network 202 is improved so that the parameter adjustment neural network 210 modifies the parameter set 205 by the amount of parameter adjustment calculated based on the adjustment parameters to generate an image that reflects the user's preference. be able to. By simply adjusting the parameter set 205 used by the image processing neural network 202 from the default parameter values, it is possible to realize image generation that reflects the user's preference. By incorporating it into the hardware in the digital camera 100, the image processing system 200 according to the present disclosure can be easily realized.
  • the image processing system 200 is configured to correct the parameters used by the pre-learned image processing neural network 202 by using the parameter adjustment amount calculated by the parameter adjustment neural network 210. ..
  • the pre-learned parameters of the image processing neural network 202 mounted on the embedded hardware in the digital camera 100 can be adjusted indefinitely using the parameter adjustment neural network 210.
  • the image processing according to the present disclosure is used, for example, by mounting it on a digital camera, but it can also be applied to an image viewer that reproduces an image. Further, the present disclosure can be applied not only to image processing but also to various processing using machine learning models such as recognition processing such as voice recognition and character recognition, and control of autonomously operating devices such as voice agents, robots and drones. can.
  • Control unit and The utterance input section for inputting the user's utterance An image processing neural network that processes the input image, A parameter holding unit that holds parameters related to the image processing neural network, A parameter adjustment neural network that adjusts the value of the parameter based on the utterance, Equipped with
  • the control unit is an information processing device that performs image processing based on a user's instruction by the utterance by adjusting the parameters based on the utterance.
  • the parameter adjustment neural network calculates the adjustment amount of the parameters used in the image processing neural network so as to generate the result as intended by the user included in the utterance.
  • the utterance input unit further includes an utterance encoder neural network that encodes the text expression of the utterance into an utterance vector numerically expressed.
  • the parameter adjustment neural network has an utterance parameter vector as an input.
  • the parameter adjustment neural network inputs a plurality of consecutive utterance parameter vectors including the utterance parameter vector read from the utterance cache, and calculates the parameter adjustment amount.
  • the parameter adjustment neural network further includes a user parameter cache for storing adjustment parameters for calculating the adjustment amount of the parameter.
  • the information processing apparatus according to any one of (1) to (4) above.
  • the parameter adjustment neural network calculates the adjustment amount of the parameters used in the image processing neural network based on a plurality of continuous speech parameter vectors and adjustment parameters stored in the user parameter cache. , The information processing device according to (5) above.
  • the parameter adjustment neural network is learned based on the learning data consisting of the user's utterance, the original image, and the adjusted image (teacher data) based on the utterance.
  • the information processing apparatus according to any one of (1) to (6) above.
  • the utterance encoder neural network is learned based on the learning data consisting of the user's utterance, the original image, and the adjusted image (teacher data) based on the utterance.
  • the information processing device according to (3) above.
  • An utterance input step for inputting a user's utterance A parameter adjustment step in which the trained parameter adjustment neural network adjusts the value of the parameter related to the image processing neural network based on the utterance.
  • An utterance input unit for inputting a user's utterance Image processing Image processing unit that processes images using neural networks
  • a parameter holding unit that holds parameters related to the image processing neural network
  • Parameter adjustment unit which adjusts the value of the parameter based on the utterance using the parameter adjustment neural network.
  • a computer program written in a computer-readable format so as to perform image processing based on a user's instruction by the utterance by operating the computer as a computer and adjusting the parameters based on the utterance.
  • An image pickup unit that captures an image and The utterance input section for inputting the user's utterance
  • a signal processing unit that processes the captured image signal and Equipped with The signal processing unit includes an image processing neural network that processes an captured image, a parameter holding unit that holds parameters related to the image processing neural network, and a parameter adjusting neural network that adjusts the value of the parameter based on the speech.
  • An image pickup apparatus that performs image processing based on a user's instruction based on the utterance by adjusting the parameters based on the utterance.

Abstract

ユーザの発話に基づいてニューラルネットワークベースの画像処理を調整する情報処理装置を提供する。 情報処理装置は、制御部と、ユーザの発話を入力する発話入力部と、入力された画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを具備し、前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う。

Description

情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置
 本明細書で開示する技術(以下、「本開示」とする)は、ニューラルネットワークを用いて画像処理を行う情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置に関する。
 昨今、機械学習(Machne Learning:ML)は、さまざまな分野への応用が期待されており、研究開発が急速に進められている。例えば、デジタルカメラで撮像した画像の画質調整や画像圧縮などの画像処理に機械学習モデルを利用する技術や、撮影タイミングやズーミング、パン及びチルトといったカメラワークを機械学習モデルにより自動化する技術が知られている。
 また、ユーザの発話などの自然言語に指示に基づいて画像処理を行う技術が知られている。例えば、自然言語文からコンセプトを抽出してニューラルネットワークモデルでそのコンセプトの画像合成を行うデータ合成装置について提案がなされている(特許文献1を参照のこと)。また、自然言語文を自然画像に変換する画像編集装置(特許文献2を参照のこと)や、画像の内容を記述した自然言語から、画像の作成に必要となる情報を自動で獲得することにより、画像作成の手間を軽減させる画像作成方法(特許文献3を参照のこと)が提案されている。
特開2019-45984号公報 特開平5-120399号公報 特開平8-138075号公報
 本開示の目的は、ユーザの発話に基づいてニューラルネットワークベースの画像処理を調整する情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置を提供することにある。
 本開示の第1の側面は、
 制御部と、
 ユーザの発話を入力する発話入力部と、
 入力された画像を処理する画像処理ニューラルネットワークと、
 前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、
 前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークと、
を具備し、
 前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理装置である。
 前記パラメータ調整ニューラルネットワークは、前記発話に含まれるユーザの意図通りの結果を生成するように、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する。
 第1の側面に係る情報処理装置は、前記発話入力部は、前記発話のテキスト表現を数値表現した発話ベクタにエンコードする発話エンコーダニューラルネットワークをさらに備えている。そして、前記パラメータ調整ニューラルネットワークは、発話パラメータベクタを入力に持つ。
 また、第1の側面に係る情報処理装置は、発話パラメータベクタを一時的に記憶する発話キャッシュをさらに備えている。そして、前記パラメータ調整ニューラルネットワークは、複数の連続する発話パラメータベクタと、前記ユーザパラメータキャッシュに記憶されているパラメータの調整量に基づいて、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する。
 また、本開示の第2の側面は、
 ユーザの発話を入力する発話入力ステップと、
 学習済みのパラメータ調整ニューラルネットワークが、前記発話に基づいて画像処理ニューラルネットワークに関するパラメータの値を調整するパラメータ調整ステップと、
 前記画像処理ニューラルネットワークが、前記パラメータ調整ステップで調整した値のパラメータを用いて、入力された画像を処理する画像処理ステップと、
を有し、
 前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理方法である。
 また、本開示の第3の側面は、
 ユーザの発話を入力する発話入力部、
 画像処理ニューラルネットワークを用いて画像を処理する画像処理部、
 前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部、
 パラメータ調整ニューラルネットワークを用いて、前記発話に基づいて前記パラメータの値を調整するパラメータ調整部、
としてコンピュータを機能させて、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行うようにコンピュータ可読形式で記述されたコンピュータプログラムである。
 本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る情報処理装置と同様の作用効果を得ることができる。
 また、本開示の第4の側面は、
 画像を撮像する撮像部と、
 ユーザの発話を入力する発話入力部と、
 前記撮像した画像信号を処理する信号処理部と、
を具備し、
 前記信号処理部は、撮像画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを備え、
 前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、撮像装置である。
 本開示によれば、ユーザの発話に基づいてニューラルネットワークベースの画像処理を修正する情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置を提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、デジタルカメラ100の構成例を示した図である。 図2は、画像処理システム200の機能的構成を示した図である。 図3は、画像処理システム300の機能的構成を示した図である。 図4は、画像処理システム400の機能的構成を示した図である。 図5は、画像処理システム200におけるニューラルネットワークの学習メカニズムを示した図である。 図6は、画像処理システム200の動作(現在の画像の表示)を説明するための図である。 図7は、画像処理システム200の動作(画像に対するユーザフィードバックと更新結果)を説明するための図である。 図8は、画像処理システム200の動作(更新された処理結果に対する不完全なユーザフィードバック)を説明するための図である。 図9は、画像処理システム200の動作(誤差逆伝播によるユーザパラメータキャッシュの更新)を説明するための図である。
 以下、図面を参照しながら本開示について、以下の順に従って説明する。
A.概要
B.デジタルカメラの構成
C.画像処理システムの機能的構成
D.変形例
E.ニューラルネットワークの学習
F.実施例
G.効果
A.概要
 例えばデジタルカメラで撮影した画像の一部分の色味などを調整したい場合がある。このように画像の一部分を調整する画像処理(local image adjustment)を行うフィルターを、ニューラルネットワークなどの学習済みの機械学習モデルを用いて実現することができる。画像処理の調整は、ニューラルネットワークのパラメータ(ニューロン間の結合重み係数)を修正することによって実現されるが、ユーザからの音声指示に応じてパラメータを直接修正することは困難であり、実現できたとしても限定的である。何故ならば、自然言語をニューラルネットワークのパラメータに変換する方法が存在しないからである。上述した特許文献1乃至3はいずれも、自然言語文に基づいて画像処理を行う技術を開示するとしても、ニューラルネットワークのパラメータ調整に関しては一切言及していない。
 本開示は、音声コマンドに基づいて、画像処理アルゴリズムを直接修正する方法を提供するものである。本開示によれば、画像処理アルゴリズムを実現するニューラルネットワークに適用されるパラメータセットを、自然言語入力に基づいて直接修正することができる。
 本開示では、画像処理用のニューラルネットワークのパラメータを修正するために、さらにもう1つのニューラルネットワークを用いる。パラメータ修正を行うニューラルネットワークのことを、以下では「パラメータ調整ニューラルネットワーク(Parameter Adjustment Neural Network)」とも呼ぶ。
 さらに本開示では、ユーザが同じ対象物に対して連続する複数ターンの発話で修正を行えるように、ユーザの発話を一時的に記憶するキャッシュメカニズムを使用する。本開示でこの目的に使用するキャッシュを、以下では「発話キャッシュ(utterance cache)」とも呼ぶ。
 また、本開示では、ユーザの好みに合わせた画像処理を実現するために、パラメータ調整用のニューラルネットワークが、ユーザの発話に基づいて推定して、画像処理用のニューラルネットワークのデフォルトのパラメータセットの適当な調整量を計算する。また、パラメータ調整用のニューラルネットワークがパラメータセットの調整量を計算する際の調整パラメータを、ユーザパラメータキャッシュに保存しておく。そして、画像処理用のニューラルネットワークは、ユーザの発話に基づいて計算された調整量だけデフォルト値から調整したパラメータセットを用いることによって、ユーザの好みに合わせてアルゴリズムが改善された画像処理を実現することができる。
 したがって、本開示によれば、ユーザは音声コマンドを使って画像処理の結果を変更することができる。
B.デジタルカメラの構成
 本開示は、例えばデジタルカメラ内の画像処理に適用することができる。図1には、デジタルカメラ100の構成例を示している。図示のデジタルカメラ100は、光学系101と、撮像部102と、AFE(Analog Front End:アナログ前処理)部103と、カメラ信号処理部104と、コーデック処理部105と、記録部106と、表示部107と、メイン処理部108と、マイク109と、A/D変換部110を備えている。
 光学系101は、被写体からの光を撮像部102の撮像面に集光するためのレンズ、レンズを移動させてフォーカス合わせやズーミングを行なうための駆動機構、開閉操作により被写体からの光を所定時間だけ撮像面に入射させるシャッター機構、被写体からの光線束の方向並びに範囲を限定するアイリス(絞り)機構(いずれも図示しない)を含んでいる。ドライバ(図示しない)は、後述するメイン処理部108からの制御信号に基づいて、光学系101内の各機構の駆動(例えば、被写体のフォーカス合わせやアイリス、パン及びチルト、シャッター又はセルフ・タイマー設定のタイミング)などのカメラワークを制御する。
 撮像部102は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxyde Semiconductor)などの撮像素子からなり、光電変換効果を持つ各画素が2次元に配列された撮像面を有し、被写体からの入射光を電気信号に変換する。受光側には、例えばG市松RB色コーディング単板が配設されている。各色フィルターを通した入射光量に対応する信号電荷が各画素に蓄積され、各画素から読み出される3色の各信号電荷量からその画素位置における入射光の色を再現することができる。なお、撮像部102から出力されるアナログ画像信号は、RGB各色の原色信号であるが、補色系の色信号であってもよい。
 AFE部103は、撮像信号の低雑音を高精度に抑圧した後(Correlated Double Sampling(相関二重サンプリング):CDS)、サンプル・ホールドを行ない、さらにAGC(Automatic Gain Control:自動利得制御回路)により適正なゲインコントロールをかけて、AD変換を施してデジタル画像信号を出力する。また、AFE部103は、撮像素子を駆動するためのタイミングパルス信号と、このタイミングパルス信号に従って撮像素子の各画素の電荷を垂直方向にライン単位で出力するための駆動信号を撮像部102に出力する。
 カメラ信号処理部104は、AFE部103から送られてくる画像信号に対して、欠陥画素補正やデジタルクランプ、デジタルゲイン制御などの前処理を施した後、AWBによりホワイトバランスゲインを掛けるとともに、シャープネス・再度コントラスト調整などの画質補正処理を施して適正な色状態を再現し、さらにデモザイク処理によりRGB画像信号を作成する。本実施形態では、カメラ信号処理部104で実施される処理の少なくとも一部は、学習済みの機械学習モデルを用いることを想定している。
 カメラ信号処理部104で処理が行われた画像信号は、コーデック処理部105でJPEG(Joint Picture Experts Group)などのエンコーダ処理が行われた後に、画像ファイルとして記録部106に記録される。また、カメラ信号処理部104は、上記の信号処理を行った画像に対してさらに解像度変換を施して、表示部107でスルー画像として表示する。また、記録部106に記録された画像を読み出して、コーデック処理部105で復号して再生画像として表示する。
 記録部106は、HDD(hard Disc Drive)やSSD(Solid State Drive)などの大容量の記録装置である。記録部106には、撮像部102で画像が記録される。また、本実施形態では、カメラ信号処理部104で用いられる機械学習モデルの複数のパラメータセットが記録部106に記録されている。
 表示部107は、デジタルカメラ100に搭載された液晶表示パネルであるが、デジタルカメラ100に外部接続されるテレビやプロジェクタであってもよい。
 メイン処理部108は、プロセッサとRAM(Random Access Memory)及びROM(Read Only Memory)で構成され、デジタルカメラ100全体の動作を統括的に制御する。プロセッサは、CPU(Central Processing Unit)やマルチコアを持つGPU(Graphic Processing Unit)などである。メイン処理部108は、画像記録時には、撮影部102で撮像した画像データを記録部106に記録する処理を制御する。また、メイン処理部108は、画像再生時には、記録部106から画像データを読み出して、表示部107に表示する処理を制御する。
 また、メイン処理部108は、マイク109で収音した音声信号をA/D変換部110でデジタル信号に変換した後に取り込んで、音声認識して音声コマンドとして取り込む。本実施形態では、デジタルカメラ100で撮影した画像に対する局所画質調整などを指示する音声コマンドが入力されることを想定している。音声コマンドに応じた局所画質調整の詳細については、後述に譲る。
C.画像処理システムの機能的構成
 図2には、本開示を適用した画像処理システム200の機能的構成を模式的に示している。図示の画像処理システム200は、画像入力部201と、画像処理ニューラルネットワーク202と、処理結果表示部203と、画像キャッシュ204と、第1乃至第Nのパラメータセット205-1、…、205-Nと、ユーザ発話入力部206と、発話エンコーダニューラルネットワーク207と、発話パラメータベクタ208と、発話キャッシュ209と、パラメータ調整ニューラルネットワーク210と、ユーザパラメータキャッシュ211を備えている。
 画像入力部(Image Input)201は、例えばデジタルカメラ100で撮影した画像を入力する。あるいは、画像入力部201は、デジタルカメラ100の光学系101、撮像部102、AFE部103及びカメラ信号処理部104に相当する。
 画像処理ニューラルネットワーク(Image Processing Neural Network)202は、ニューラルネットワークを用いて、入力画像に対して、高度な画像処理アルゴリズムによる状況に応じた画像処理を行う。ここで言う高度な画像処理アルゴリズムは、例えば以下を含む。画像処理ニューラルネットワーク202は、例えばデジタルカメラ100のカメラ信号処理部104に組み込まれる。
(1)人間の肌にのみ処理を適用するアルゴリズム
(2)いわゆるHDR(High Dynamic Range)画像内の明るい画像部分と暗い画像部分の自動マージを実行するアルゴリズム
(3)画像から不要なオブジェクトを削除するアルゴリズム
(4)画像内のオブジェクトに色、コントラストなどの変換を適用するアルゴリズム
 処理結果表示部(Processing Result Display Unit)203は、画像をユーザに提示する装置又はソフトウェアであり、例えばデジタルカメラ100の表示部107に相当する。
 画像キャッシュ(Image Cache)204は、画像処理ニューラルネットワークが最初に出力した画像データを一時的に記憶するキャッシュメモリである。
 第1乃至第Nのパラメータセット(Parameter Set)205-1、…、205-Nは、それぞれ画像処理ニューラルネットワーク202が使用するパラメータセットである。第1乃至第Nのパラメータセット205-1、…、205-Nには、例えば、画像処理ニューラルネットワーク202のレイヤーの遷移の重み、又はより複雑なネットワークアーキテクチャのサブネットワークの重みが含まれる。第1乃至第Nのパラメータセット205-1、…、205-Nは、例えばデジタルカメラ100の記録部106に記録される。
 ユーザ発話入力部(User Utterance Input)206は、処理結果表示部203が表示する処理画像に対する訂正や修正を含むユーザからの発話を入力する。ユーザ発話入力部206は、例えばユーザからの音声コマンドを入力するマイク109に相当する。但し、以下では説明の簡素化のため、ユーザの発話を自動音声認識システムによりテキスト形式のデータに変換された後に、ユーザ発話入力部206に入力されるものとする。
 発話エンコーダニューラルネットワーク(Utterance Encoder Neural Network)207は、ユーザの発話のテキスト表現をベクタなどの数値表現にエンコードする。 ユーザ発話入力部206からは可変長のテキスト表現が入力されるが、発話エンコーダニューラルネットワーク207は固定長表現にエンコードする。
 発話パラメータベクタ(Utterance Parameter Vector)208は、発話エンコーダニューラルネットワーク207から出力される、ユーザ発話の数値表現である。
 発話キャッシュ(Utterance Cache)209は、連続したユーザの発話から発話エンコーダニューラルネットワーク207が出力する複数の発話パラメータベクタを一時的に記憶するキャッシュメモリである。
 発話エンコーダニューラルネットワーク207及び発話キャッシュ209は、例えばデジタルカメラ100のメイン処理部108に組み込まれる。
 パラメータ調整ニューラルネットワーク(Parameter Adjustment Neural Network)210は、画像処理ニューラルネットワーク202がユーザの発話に含まれるユーザの意図通りの結果を生成するように、画像処理ニューラルネットワーク202で使用されるパラメータの調整量を計算する。パラメータ調整ニューラルネットワーク210によって行われるパラメータの調整は一時的な調整であり、第1乃至第Nのパラメータセット205-1、…、205-Nを恒久的に変更するものではない。
 本実施形態では、パラメータ調整ニューラルネットワーク210が発話キャッシュ209を使用する点にも特徴がある。すなわち、パラメータ調整ニューラルネットワーク210は、発話エンコーダニューラルネットワーク207から出力される発話パラメータベクタと、発話キャッシュ209から読み出された発話パラメータベクタを含む、連続する複数ターンの発話パラメータベクタに基づいて、パラメータの調整量を計算する。
 ユーザパラメータキャッシュ(User Parameter Cache)211は、パラメータ調整ニューラルネットワーク210がパラメータの調整量を計算する際に調整パラメータを保存するメモリである。ここで言うメモリは、フラッシュメモリのような不揮発的なメモリを想定している。
 パラメータ調整ニューラルネットワーク210及びユーザパラメータキャッシュ211は、例えばデジタルカメラ100のメイン処理部108に組み込まれる。
 第1乃至第Nのパラメータセット205-1、…、205-Nは、最初は事前定義された値からなるパラメータのセットである。画像処理システム200のシステム動作中に、画像処理ニューラルネットワーク202がユーザ固有の好みに適合するアルゴリズムに改善して画像処理を行うことができるように、パラメータ調整ニューラルネットワーク210がユーザの発話に基づいて計算したパラメータの調整量に応じて、第1乃至第Nのパラメータセット205-1、…、205-Nの少なくとも一部を調整していく。このようにして、ユーザの操作を少なくしても(言い換えれば、ユーザの発話による指示の回数を減らしても)、画像処理ニューラルネットワーク202がユーザの意図した処理結果を生成することができる。
 ユーザパラメータキャッシュ211内の調整パラメータの数は、第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータの数よりも少ない。したがって、第1乃至第Nのパラメータセット205-1、…、205-Nの大量のパラメータを変更しなくても、パラメータ調整ニューラルネットワーク210がユーザパラメータキャッシュ211内の調整パラメータを用いてパラメータの調整量を計算し、その調整量だけ第1乃至第Nのパラメータセット205-1、…、205-Nの少なくとも一部を調整することによって、ユーザの意図通りの処理結果を生成できるように、画像処理ニューラルネットワーク202のアルゴリズムを永続的に変更することができる。そもそも、第1乃至第Nのパラメータセット205-1、…、205-Nは、通常、デジタルカメラ100内部のハードウェアで実装されるので、パラメータを簡単に変更することはできない。
D.変形例
 この項では、上記C項で説明した画像処理システム200についての2つの変形例について、図3及び図4をそれぞれ参照しながら説明する。但し、いずれの変形例でも、便宜上、画像キャッシュ204を省略して説明する。また、どちらの変形例も、第1乃至第Nのパラメータセット205-1、…、205-Nの図示を省略して説明する。図3及び図4の各々で示している画像処理ニューラルネットワーク202には、第1乃至第Nのパラメータセット205-1、…、205-Nが含まれているものと理解されたい。また、 発話パラメータベクタ208は中間ブロックとして図示を省略しており、発話エンコーダニューラルネットワーク207の出力は後続の処理ブロックに直接入力されるものとして描いている。特に明記しないが、発話エンコーダニューラルネットワーク207の出力はユーザの発話を数値表現した発話パラメータベクタであることを理解されたい。
D-1.変形例(1)
 図3には、第1の変形例に係る画像処理システム300の機能的構成を模式的に示している。画像処理システム300は、発話キャッシュ209とパラメータ調整ニューラルネットワーク210を統合した構成を備えている。但し、図2に示した画像処理システム200内にも含まれる同一の構成要素については同一の名称及び同一の参照番号としている。以下では、図2に示した画像処理システム200との相違点を中心に、画像処理システム300の構成について説明する。
 図3では、発話パラメータベクタ208は中間ブロックとして図示を省略しており、発話エンコーダニューラルネットワーク207の出力は後続のニューラルネットワークに直接入力されるものとして描いている。
 図2中の発話キャッシュ209がシーケンスサマリーニューラルネットワーク301に置き換えられている。シーケンスサマリーニューラルネットワーク301は、発話エンコーダニューラルネットワーク207の全出力の平均表現を計算する。シーケンスサマリーニューラルネットワーク301の出力に基づいて、画像処理ニューラルネットワーク202で使用されるパラメータが修正される。すなわち、シーケンスサマリーニューラルネットワーク301は、パラメータ調整ニューラルネットワーク210の代用である。
 画像処理ニューラルネットワーク202で使用されるパラメータは、シーケンスサマリーニューラルネットワーク301の出力とユーザパラメータキャッシュ211が一時的に記憶しているパラメータ調整量に基づいて修正される。これによって、ユーザの発話入力がなくても、画像処理ニューラルネットワーク202で使用されるパラメータを修正することができる。このようにすれば、ユーザの好みに応じたパラメータの修正を永続して遂行することができる。
D-2.変形例(2)
 図4には、第2の変形例に係る画像処理システム400の機能的構成を模式的に示している。画像処理システム400は、パラメータ調整ニューラルネットワーク210と発話エンコーダニューラルネットワーク207間の接続を変更した構成を備えている。但し、図2に示した画像処理システム200内にも含まれる同一の構成要素については同一の名称及び同一の参照番号としている。以下では、図2に示した画像処理システム200との相違点を中心に、画像処理システム400の構成について説明する。
 発話エンコーダニューラルネットワーク207の出力は発話キャッシュ209に入力される。発話キャッシュ209は、上記D-1項で説明した「シーケンスサマリーニューラルネットワーク」を用いて実現することができる。
 なお、「シーケンスサマリーニューラルネットワーク」自体は、自動音声認識において既に研究報告がなされた技術である。
E.ニューラルネットワークの学習
 この項では、パラメータ調整ニューラルネットワーク210及び発話エンコーダニューラルネットワーク207の学習について説明する。
 図5には、画像処理システム200におけるニューラルネットワークの学習メカニズムを図解している。
 図5に示す学習メカニズムでは、ニューラルネットワークを使用した事前学習済みの画像処理アルゴリズム、すなわち学習済みの画像処理ネットワーク202が存在することを前提とする。この学習済みの画像処理ネットワーク202は、第1乃至第Nのパラメータセット205-1、…、205-Nを使用する。第1乃至第Nのパラメータセット205-1、…、205-Nには、画像処理ニューラルネットワーク202のレイヤーの遷移の重み、又はより複雑なネットワークアーキテクチャのサブネットワークの重みが含まれる(前述)。
 図5に示す学習メカニズムは、発話エンコーダニューラルネットワーク207とパラメータ調整ニューラルネットワーク210の2つのニューラルネットワークを学習の対象とする。ニューラルネットワークの学習には、膨大量の学習用データが必要である。学習用データは、例えば、学習対象のニューラルネットワークへの入力データと、ニューラルネットワークの計算結果を評価する教師データの組み合わせからなる。図5に示す学習メカニズムでは、学習用データは{調整済み発話,元の画像,調整後の画像}からなる。調整済み発話は、ユーザ発話入力部206に入力可能な、元の画像に対して調整を指示するユーザ発話の発話をテキスト表現形式に変換したものである。調整後の画像は、元の画像に対するユーザの発話に基づいてパラメータ調整ニューラルネットワーク210が調整したパラメータを使って、画像処理ニューラルネットワーク202がユーザの意図通りとなるように生成すべき画像すなわち教師データである。
 パラメータ調整ネットワーク210は、画像処理ニューラルネットワーク202が調整後の画像(教師データ)を生成するための第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータを調整するように、学習を行う。
 発話エンコーダニューラルネットワーク207は、ユーザの発話を表す発話パラメータベクタを出力するように、学習を行う。 ユーザの発話は単語のシーケンスとして発話エンコーダニューラルネットワーク207に入力される。そして、発話エンコーダニューラルネットワーク207がエンコードした結果の発話パラメータベクタは、パラメータ調整ネットワーク210への入力として使用される。パラメータ調整ニューラルネットワーク210は、発話パラメータベクタから、第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータをどのように調整すべきかを計算する。
 発話エンコーダニューラルネットワーク207とパラメータ調整ニューラルネットワーク210の学習は、誤差逆伝播(error backpropagation)などの従来通りのニューラルネットワークの学習手法を用いて行われる。
 ユーザパラメータキャッシュ211は、ニューラルネットワークの学習の間は更新されない。発話キャッシュ209は、学習サンプルが2以上の発話からなる場合に使用される。
 発話エンコーダニューラルネットワーク207の学習と、パラメータ調整ニューラルネットワーク210の学習を同時に行うことができる。
 発話エンコーダニューラルネットワーク207は、単語のシーケンスからなるユーザの発話が入力されると、エンコードした結果の発話パラメータベクタをパラメータ調整ニューラルネットワーク210に出力する。パラメータ調整ニューラルネットワーク210は、発話パラメータベクタから、第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータ調整量を計算する。画像処理ニューラルネットワーク202は、調整された第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータを使用して、元の画像の調整を行う。そして、画像処理ニューラルネットワーク202から出力された画像と教師データとなる調整後の画像との誤差を発話エンコーダニューラルネットワーク207に逆伝播して、その誤差に基づく損失関数が最小となるように、発話エンコーダニューラルネットワーク207の学習が行われる。
 また発話エンコーダニューラルネットワーク207は、単語のシーケンスからなるユーザの発話が入力されると、エンコードした結果の発話パラメータベクタをパラメータ調整ニューラルネットワーク210に出力する。パラメータ調整ニューラルネットワーク210は、発話パラメータベクタから、第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータ調整量を計算する。画像処理ニューラルネットワーク202は、調整された第1乃至第Nのパラメータセット205-1、…、205-Nのパラメータを使用して、元の画像の調整を行う。そして、画像処理ニューラルネットワーク202から出力された画像と教師データとなる調整後の画像との誤差をパラメータ調整ニューラルネットワーク210に逆伝播して、その誤差に基づく損失関数が最小となるように、パラメータ調整ニューラルネットワーク210の学習が行われる。
F.実施例
 この項では、学習済みの画像処理システム200を利用して画像処理を行う実施例について説明する。
 画像処理システム200では、入力画像に対して画像処理ニューラルネットワーク202が画像処理した結果の画像が、処理結果表示部203に表示される。ユーザは、処理結果表示部203が表示する処理画像に対して、発話によって訂正や修正を指示し、その発話コマンドがユーザ発話入力部206に入力される。典型的なユーザの発話コマンドとして、以下を挙げることができる。
(1)画像中の一部のみの色の変更(例えば、被写体の顔の色、背景の海の色)
(2)画像中の一部のみの明るさの変更(例えば、空、地面に積もった雪、人々)
 以下では、ビーチと海が写った画像を、画像処理システム200がユーザの発話による指示に従って一部を変更するユースケースにおける処理手順について説明する。ユーザはビーチと海が写った画像のうち、海の青をより強くしたいと考えているとする。
処理1)現在の画像の表示
 現在表示されている画像が画像キャッシュ204に一時記憶される(図6を参照のこと)。
処理2)画像に対するユーザフィードバックと更新結果
 発話エンコーダニューラルネットワーク207は、ユーザ発話入力部206から渡されたユーザの発話「海もっと青くして」を表現する発話パラメータベクタを計算する。この発話パラメータベクタは、パラメータ調整ニューラルネットワーク210に入力される。
 発話キャッシュ209は、最初の使用時には空である。ユーザパラメータキャッシュ211は、最初の使用時には、あらかじめ定義された値が設定されている。図7では説明の簡素化のため、画像処理ニューラルネットワーク202は1つのパラメータセット205しか使用しないものとする。
 パラメータ調整ニューラルネットワーク210は、発話エンコーダニューラルネットワーク207から出力された発話パラメータベクタ(すなわち、現在の発話)と、発話キャッシュ209から読み出された発話パラメータベクタ(すなわち、過去の発話)と、ユーザパラメータキャッシュ211に格納されている調整パラメータに基づいて、パラメータセット205のパラメータ調整量を計算する。
 画像処理ニューラルネットワーク202は、パラメータ調整ニューラルネットワーク210が計算したパラメータ調整量に基づいて調整されたパラメータセット205を使用することによって、海の青を強くするようにアルゴリズムを改善して、入力画像の画像処理を行う。画像処理ニューラルネットワーク202が生成した画像は、処理結果表示部203に表示される。また、今回入力された発話パラメータベクタは発話キャッシュ209に一時記憶される。
処理3)更新された処理結果に対する不完全なユーザフィードバック
 ユーザは、処理2において入力画像を処理した結果(海の青を強くした画像)にまだ満足していないとする。そして、「もう少し青くして」という不完全なユーザの発話が入力されたとする。不完全な発話は、目的語「海を」などが欠けた(すなわち海の色を調整すべきことを特定していない)、文法的に完全でない文章からなる発話である。ユーザが同じ要件について連続して発話する場合に生じることが多い。パラメータ調整ニューラルネットワーク210は、この不完全な発話を表現する発話パラメータベクタを計算する。
 パラメータ調整ニューラルネットワーク210は、発話キャッシュ209に記憶されている過去の発話パラメータベクタと、発話エンコーダニューラルネットワーク207から出力された新しい発話パラメータベクタを入力に用いて、上記の処理2と同様に、パラメータセット205のパラメータ調整量を計算する。「もう少し青くして」という不完全なユーザの発話は、海の色を調整すべきことを特定していない。本開示によれば、パラメータ調整ニューラルネットワーク210は、発話キャッシュ209に記憶されている「海もっと青くして」という過去の発話に対応する発話パラメータベクタを入力して、「もう少し青くして」という現在の不完全な発話において青くすべき対象が「海の色」であることを特定することができる。そして、パラメータ調整ニューラルネットワーク210は、前回の「海もっと青くして」という発話に基づいてパラメータの調整量を計算した際に使用した調整パラメータをユーザパラメータキャッシュ211から読み出して、さらに海を青くするように画像処理のアルゴリズムを改善するためのパラメータ調整量を計算する。また、パラメータの調整量の計算に使用した調整パラメータは、再びユーザパラメータキャッシュ211に保存される。発話キャッシュ209を用いなければ、パラメータ調整ニューラルネットワーク210は「もう少し青くして」という現在の不完全な発話のみから適切なパラメータ調整量を計算できないであろう。
 画像処理ニューラルネットワーク202は、パラメータ調整量に基づいて調整されたパラメータセット205を使用することによって、海の青をもう少し強くするようにアルゴリズムを改善して、入力画像の画像処理を行う。画像処理ニューラルネットワーク202が生成した画像は、処理結果表示部203に表示される。また、今回入力された発話パラメータベクタは発話キャッシュ209に一時記憶される。
処理4)誤差逆伝播によるユーザパラメータキャッシュの更新
 図9に示すように、上記の処理3の出力と画像キャッシュ204を使用して、誤差逆伝播によるユーザパラメータキャッシュ211の更新を行う。画像処理ニューラルネットワーク202から出力された画像と画像キャッシュ204に記憶されている教師データの画像との誤差に基づく損失関数を計算し、誤差をパラメータ調整ニューラルネットワーク210に逆伝播し、パラメータ調整ニューラルネットワーク210は誤差が最小となるように「海もっと青くして」というユーザの発話に対応するパラメータ調整量を計算するための調整パラメータを更新して、ユーザパラメータキャッシュ211に保存する。次回、「海もっと青くして」というユーザの発話が入力されたときには、パラメータ調整ニューラルネットワーク210は、今回学習した調整パラメータをユーザパラメータキャッシュ211から読み出してパラメータの調整量を計算し、この調整量だけ調整したパラメータセット205を画像処理ニューラルネットワーク202に使用させる。これによって、画像処理システム200は、ユーザの1回の発話だけで、ユーザの好みを反映する海を青くした画像を生成できるようになる。
G.効果
 最後に、本開示を適用した画像処理システム200による効果をまとめておく。
(1)本開示に係る画像処理システム200は、ユーザが発話する自然言語に基づいて、ニューラルネットワークベースの画像処理アルゴリズムのパラメータの修正を行う。したがって、パラメータ調整にユーザの音声コマンドに応じた直接的な影響を与えることができる。
(2)本開示に係る画像処理システム200は、ユーザの発話を一時的に記憶する発話キャッシュ209を備えている。したがって、連続する複数ターンの発話に基づいて、ニューラルネットワークベースの画像処理アルゴリズムのパラメータの調整を行うことができる。
(3)本開示に係る画像処理システム200は、パラメータ調整ニューラルネットワーク210が使用する調整パラメータを保存するユーザパラメータキャッシュ211を備えている。したがって、パラメータ調整ニューラルネットワーク210が調整パラメータに基づいて計算したパラメータの調整量だけパラメータセット205を変更して、ユーザの好みを反映する画像を生成するように画像処理ニューラルネットワーク202のアルゴリズムを改善することができる。画像処理ニューラルネットワーク202が使用するパラメータセット205をデフォルトのパラメータ値から調整するだけで、ユーザの好みを反映する画像生成を実現することができる。デジタルカメラ100内のハードウェアに組み込むことで、本開示に係る画像処理システム200を容易に実現することができる。
(4)本開示に係る画像処理システム200は、事前学習された画像処理ニューラルネットワーク202が使用するパラメータを、パラメータ調整ニューラルネットワーク210が計算したパラメータ調整量を用いて修正するように構成されている。例えばデジタルカメラ100内の組み込みハードウェアに搭載された画像処理ニューラルネットワーク202の事前学習されたパラメータを、パラメータ調整ニューラルネットワーク210を使って無制限に調整することができる。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本開示に係る画像処理は、例えばデジタルカメラに搭載して用いられるが、画像を再生する画像ビューアにも適用することができる。また、本開示は、画像処理だけでなく、音声認識、文字認識といった認識処理や、音声エージェント、ロボットやドローンといった自律動作する装置の制御など、機械学習モデルを用いるさまざまな処理に適用することができる。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)制御部と、
 ユーザの発話を入力する発話入力部と、
 入力された画像を処理する画像処理ニューラルネットワークと、
 前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、
 前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークと、
を具備し、
 前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理装置。
(2)前記パラメータ調整ニューラルネットワークは、前記発話に含まれるユーザの意図通りの結果を生成するように、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
上記(1)に記載の情報処理装置。
(3)前記発話入力部は、前記発話のテキスト表現を数値表現した発話ベクタにエンコードする発話エンコーダニューラルネットワークをさらに備え、
 前記パラメータ調整ニューラルネットワークは、発話パラメータベクタを入力に持つ、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)発話パラメータベクタを一時的に記憶する発話キャッシュをさらに備え、
 前記パラメータ調整ニューラルネットワークは、前記発話キャッシュから読み出した発話パラメータベクタを含む連続する複数の発話パラメータベクタを入力して、パラメータの調整量を計算する、
上記(3)に記載の情報処理装置。
(5)前記パラメータ調整ニューラルネットワークがパラメータの調整量を計算するための調整パラメータを保存するユーザパラメータキャッシュをさらに備える、
上記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)前記パラメータ調整ニューラルネットワークは、複数の連続する発話パラメータベクタと、前記ユーザパラメータキャッシュに保存されている調整パラメータに基づいて、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
上記(5)に記載の情報処理装置。
(7)ユーザの発話と、元の画像と、前記発話に基づく調整後の画像(教師データ)からなる学習用データに基づいて、前記パラメータ調整ニューラルネットワークの学習を行う、
上記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)ユーザの発話と、元の画像と、前記発話に基づく調整後の画像(教師データ)からなる学習用データに基づいて、前記発話エンコーダニューラルネットワークの学習を行う、
上記(3)に記載の情報処理装置。
(9)ユーザの発話を入力する発話入力ステップと、
 学習済みのパラメータ調整ニューラルネットワークが、前記発話に基づいて画像処理ニューラルネットワークに関するパラメータの値を調整するパラメータ調整ステップと、
 前記画像処理ニューラルネットワークが、前記パラメータ調整ステップで調整した値のパラメータを用いて、入力された画像を処理する画像処理ステップと、
を有し、
 前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理方法。
(10)ユーザの発話を入力する発話入力部、
 画像処理ニューラルネットワークを用いて画像を処理する画像処理部、
 前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部、
 パラメータ調整ニューラルネットワークを用いて、前記発話に基づいて前記パラメータの値を調整するパラメータ調整部、
としてコンピュータを機能させて、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行うようにコンピュータ可読形式で記述されたコンピュータプログラム。
(11)画像を撮像する撮像部と、
 ユーザの発話を入力する発話入力部と、
 前記撮像した画像信号を処理する信号処理部と、
を具備し、
 前記信号処理部は、撮像画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを備え、
 前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、撮像装置。
 100…デジタルカメラ、101…光学系、102…撮像部
 103…AFE部、104…カメラ信号処理部
 105…コーデック処理部、106…記録部、107…表示部
 108…メイン処理部、109…マイク、110…A/D変換部
 200…画像処理システム、201…画像入力部
 202…画像処理ニューラルネットワーク、203…処理結果表示部
 204…画像キャッシュ、205…パラメータセット
 206…ユーザ発話入力部
 207…発話エンコーダニューラルネットワーク
 208…発話パラメータベクタ、209…発話キャッシュ
 210…パラメータ調整ニューラルネットワーク
 211…ユーザパラメータキャッシュ
 300…画像処理システム
 301…シーケンスサマリーニューラルネットワーク
 400…画像処理システム

Claims (11)

  1.  制御部と、
     ユーザの発話を入力する発話入力部と、
     入力された画像を処理する画像処理ニューラルネットワークと、
     前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、
     前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークと、
    を具備し、
     前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、
    情報処理装置。
  2.  前記パラメータ調整ニューラルネットワークは、前記発話に含まれるユーザの意図通りの結果を生成するように、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
    請求項1に記載の情報処理装置。
  3.  前記発話入力部は、前記発話のテキスト表現を数値表現した発話ベクタにエンコードする発話エンコーダニューラルネットワークをさらに備え、
     前記パラメータ調整ニューラルネットワークは、発話パラメータベクタを入力に持つ、
    請求項1に記載の情報処理装置。
  4.  発話パラメータベクタを一時的に記憶する発話キャッシュをさらに備え、
     前記パラメータ調整ニューラルネットワークは、前記発話キャッシュから読み出した発話パラメータベクタを含む連続する複数の発話パラメータベクタを入力して、パラメータの調整量を計算する、
    請求項3に記載の情報処理装置。
  5.  前記パラメータ調整ニューラルネットワークがパラメータの調整量を計算するための調整パラメータを保存するユーザパラメータキャッシュをさらに備える、
    請求項1に記載の情報処理装置。
  6.  前記パラメータ調整ニューラルネットワークは、複数の連続する発話パラメータベクタと、前記ユーザパラメータキャッシュに保存されている調整パラメータに基づいて、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
    請求項5に記載の情報処理装置。
  7.  ユーザの発話と、元の画像と、前記発話に基づく調整後の画像(教師データ)からなる学習用データに基づいて、前記パラメータ調整ニューラルネットワークの学習を行う、
    請求項1に記載の情報処理装置。
  8.  ユーザの発話と、元の画像と、前記発話に基づく調整後の画像(教師データ)からなる学習用データに基づいて、前記発話エンコーダニューラルネットワークの学習を行う、
    請求項3に記載の情報処理装置。
  9.  ユーザの発話を入力する発話入力ステップと、
     学習済みのパラメータ調整ニューラルネットワークが、前記発話に基づいて画像処理ニューラルネットワークに関するパラメータの値を調整するパラメータ調整ステップと、
     前記画像処理ニューラルネットワークが、前記パラメータ調整ステップで調整した値のパラメータを用いて、入力された画像を処理する画像処理ステップと、
    を有し、
     前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、
    情報処理方法。
  10.  ユーザの発話を入力する発話入力部、
     画像処理ニューラルネットワークを用いて画像を処理する画像処理部、
     前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部、
     パラメータ調整ニューラルネットワークを用いて、前記発話に基づいて前記パラメータの値を調整するパラメータ調整部、
    としてコンピュータを機能させて、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行うようにコンピュータ可読形式で記述されたコンピュータプログラム。
  11.  画像を撮像する撮像部と、
     ユーザの発話を入力する発話入力部と、
     前記撮像した画像信号を処理する信号処理部と、
    を具備し、
     前記信号処理部は、撮像画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを備え、
     前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、
    撮像装置。
PCT/JP2021/012526 2020-05-15 2021-03-25 情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置 WO2021229926A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020086361 2020-05-15
JP2020-086361 2020-05-15

Publications (1)

Publication Number Publication Date
WO2021229926A1 true WO2021229926A1 (ja) 2021-11-18

Family

ID=78525713

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/012526 WO2021229926A1 (ja) 2020-05-15 2021-03-25 情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置

Country Status (1)

Country Link
WO (1) WO2021229926A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018101783A (ja) * 2016-12-16 2018-06-28 株式会社半導体エネルギー研究所 半導体装置、表示システム及び電子機器
JP2019118098A (ja) * 2017-12-26 2019-07-18 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
JP2020064638A (ja) * 2017-09-29 2020-04-23 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. 画像処理装置及び方法
JP2020071755A (ja) * 2018-11-01 2020-05-07 Fairy Devices株式会社 情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018101783A (ja) * 2016-12-16 2018-06-28 株式会社半導体エネルギー研究所 半導体装置、表示システム及び電子機器
JP2020064638A (ja) * 2017-09-29 2020-04-23 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. 画像処理装置及び方法
JP2019118098A (ja) * 2017-12-26 2019-07-18 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
JP2020071755A (ja) * 2018-11-01 2020-05-07 Fairy Devices株式会社 情報処理装置

Similar Documents

Publication Publication Date Title
US7873221B2 (en) Image processing apparatus, image processing method, program for image processing method, and recording medium which records program for image processing method
JP5656579B2 (ja) 光学部材に起因する画質の低下を補正可能な撮像装置、撮像装置の制御方法およびプログラム
KR101595254B1 (ko) 화이트 밸런스 조정 방법, 상기 방법을 기록한 기록 매체, 화이트 밸런스 조정 장치
JP4804398B2 (ja) 撮像装置及び撮影方法
US8325268B2 (en) Image processing apparatus and photographing apparatus
TWI293846B (en) Image pickup device with brightness correcting function and method of correcting brightness of image
US8937677B2 (en) Digital photographing apparatus, method of controlling the same, and computer-readable medium
JP4522270B2 (ja) 撮像装置及びその制御方法
KR101256326B1 (ko) 촬상 장치, 촬상 방법 및 촬상 프로그램을 기록한 기록 매체
JP2001251551A (ja) 電子カメラ
KR102146854B1 (ko) 촬영 장치 및 이의 제어 방법
CN104247398B (zh) 摄像设备及其控制方法
CN103229496A (zh) 摄像装置以及摄像方法
JP2002290831A (ja) 画像処理装置、表示装置、プログラムおよび記憶媒体
JP6108680B2 (ja) 撮像装置及びその制御方法、プログラム、並びに記憶媒体
JP2009124644A (ja) 画像処理装置、撮像装置及び画像再生装置
WO2021229926A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置
JP2014107837A (ja) 撮像装置、画像処理装置、及び制御方法
JP4806470B2 (ja) 撮像装置
CN105191284A (zh) 摄像装置及其控制方法
JP4887840B2 (ja) 撮影装置及びプログラム
JP6795961B2 (ja) 画像処理装置、画像処理装置の制御方法、及び、プログラム
JP6257319B2 (ja) 撮像装置および画像処理装置
JP2010232961A (ja) 画像処理装置、画像処理方法、及びプログラム
KR20110103216A (ko) 영상 처리 장치, 방법, 및 컴퓨터 판독가능 저장매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21804911

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21804911

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP