WO2021229926A1

WO2021229926A1 - 情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置

Info

Publication number: WO2021229926A1
Application number: PCT/JP2021/012526
Authority: WO
Inventors: ミヒャエルヘンチェル; 加奈西川; 康治浅野; 晃高橋; 浩明小川; 典子戸塚; 匡伸中村; 知香明賀; 智恵山田; 眞大山本
Original assignee: ソニーグループ株式会社
Priority date: 2020-05-15
Filing date: 2021-03-25
Publication date: 2021-11-18

Abstract

ユーザの発話に基づいてニューラルネットワークベースの画像処理を調整する情報処理装置を提供する。　情報処理装置は、制御部と、ユーザの発話を入力する発話入力部と、入力された画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを具備し、前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う。

Description

情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置

　本明細書で開示する技術（以下、「本開示」とする）は、ニューラルネットワークを用いて画像処理を行う情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置に関する。

　昨今、機械学習（Ｍａｃｈｎｅ　Ｌｅａｒｎｉｎｇ：ＭＬ）は、さまざまな分野への応用が期待されており、研究開発が急速に進められている。例えば、デジタルカメラで撮像した画像の画質調整や画像圧縮などの画像処理に機械学習モデルを利用する技術や、撮影タイミングやズーミング、パン及びチルトといったカメラワークを機械学習モデルにより自動化する技術が知られている。

　また、ユーザの発話などの自然言語に指示に基づいて画像処理を行う技術が知られている。例えば、自然言語文からコンセプトを抽出してニューラルネットワークモデルでそのコンセプトの画像合成を行うデータ合成装置について提案がなされている（特許文献１を参照のこと）。また、自然言語文を自然画像に変換する画像編集装置（特許文献２を参照のこと）や、画像の内容を記述した自然言語から、画像の作成に必要となる情報を自動で獲得することにより、画像作成の手間を軽減させる画像作成方法（特許文献３を参照のこと）が提案されている。

特開２０１９－４５９８４号公報特開平５－１２０３９９号公報特開平８－１３８０７５号公報

　本開示の目的は、ユーザの発話に基づいてニューラルネットワークベースの画像処理を調整する情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置を提供することにある。

　本開示の第１の側面は、
　制御部と、
　ユーザの発話を入力する発話入力部と、
　入力された画像を処理する画像処理ニューラルネットワークと、
　前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、
　前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークと、
を具備し、
　前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理装置である。

　前記パラメータ調整ニューラルネットワークは、前記発話に含まれるユーザの意図通りの結果を生成するように、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する。

　第１の側面に係る情報処理装置は、前記発話入力部は、前記発話のテキスト表現を数値表現した発話ベクタにエンコードする発話エンコーダニューラルネットワークをさらに備えている。そして、前記パラメータ調整ニューラルネットワークは、発話パラメータベクタを入力に持つ。

　また、第１の側面に係る情報処理装置は、発話パラメータベクタを一時的に記憶する発話キャッシュをさらに備えている。そして、前記パラメータ調整ニューラルネットワークは、複数の連続する発話パラメータベクタと、前記ユーザパラメータキャッシュに記憶されているパラメータの調整量に基づいて、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する。

　また、本開示の第２の側面は、
　ユーザの発話を入力する発話入力ステップと、
　学習済みのパラメータ調整ニューラルネットワークが、前記発話に基づいて画像処理ニューラルネットワークに関するパラメータの値を調整するパラメータ調整ステップと、
　前記画像処理ニューラルネットワークが、前記パラメータ調整ステップで調整した値のパラメータを用いて、入力された画像を処理する画像処理ステップと、
を有し、
　前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理方法である。

　また、本開示の第３の側面は、
　ユーザの発話を入力する発話入力部、
　画像処理ニューラルネットワークを用いて画像を処理する画像処理部、
　前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部、
　パラメータ調整ニューラルネットワークを用いて、前記発話に基づいて前記パラメータの値を調整するパラメータ調整部、
としてコンピュータを機能させて、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行うようにコンピュータ可読形式で記述されたコンピュータプログラムである。

　本開示の第３の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第３の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第１の側面に係る情報処理装置と同様の作用効果を得ることができる。

　また、本開示の第４の側面は、
　画像を撮像する撮像部と、
　ユーザの発話を入力する発話入力部と、
　前記撮像した画像信号を処理する信号処理部と、
を具備し、
　前記信号処理部は、撮像画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを備え、
　前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、撮像装置である。

　本開示によれば、ユーザの発話に基づいてニューラルネットワークベースの画像処理を修正する情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置を提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、デジタルカメラ１００の構成例を示した図である。図２は、画像処理システム２００の機能的構成を示した図である。図３は、画像処理システム３００の機能的構成を示した図である。図４は、画像処理システム４００の機能的構成を示した図である。図５は、画像処理システム２００におけるニューラルネットワークの学習メカニズムを示した図である。図６は、画像処理システム２００の動作（現在の画像の表示）を説明するための図である。図７は、画像処理システム２００の動作（画像に対するユーザフィードバックと更新結果）を説明するための図である。図８は、画像処理システム２００の動作（更新された処理結果に対する不完全なユーザフィードバック）を説明するための図である。図９は、画像処理システム２００の動作（誤差逆伝播によるユーザパラメータキャッシュの更新）を説明するための図である。

　以下、図面を参照しながら本開示について、以下の順に従って説明する。
Ａ．概要
Ｂ．デジタルカメラの構成
Ｃ．画像処理システムの機能的構成
Ｄ．変形例
Ｅ．ニューラルネットワークの学習
Ｆ．実施例
Ｇ．効果

Ａ．概要
　例えばデジタルカメラで撮影した画像の一部分の色味などを調整したい場合がある。このように画像の一部分を調整する画像処理（ｌｏｃａｌ　ｉｍａｇｅ　ａｄｊｕｓｔｍｅｎｔ）を行うフィルターを、ニューラルネットワークなどの学習済みの機械学習モデルを用いて実現することができる。画像処理の調整は、ニューラルネットワークのパラメータ（ニューロン間の結合重み係数）を修正することによって実現されるが、ユーザからの音声指示に応じてパラメータを直接修正することは困難であり、実現できたとしても限定的である。何故ならば、自然言語をニューラルネットワークのパラメータに変換する方法が存在しないからである。上述した特許文献１乃至３はいずれも、自然言語文に基づいて画像処理を行う技術を開示するとしても、ニューラルネットワークのパラメータ調整に関しては一切言及していない。

　本開示は、音声コマンドに基づいて、画像処理アルゴリズムを直接修正する方法を提供するものである。本開示によれば、画像処理アルゴリズムを実現するニューラルネットワークに適用されるパラメータセットを、自然言語入力に基づいて直接修正することができる。

　本開示では、画像処理用のニューラルネットワークのパラメータを修正するために、さらにもう１つのニューラルネットワークを用いる。パラメータ修正を行うニューラルネットワークのことを、以下では「パラメータ調整ニューラルネットワーク（Ｐａｒａｍｅｔｅｒ　Ａｄｊｕｓｔｍｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）」とも呼ぶ。

　さらに本開示では、ユーザが同じ対象物に対して連続する複数ターンの発話で修正を行えるように、ユーザの発話を一時的に記憶するキャッシュメカニズムを使用する。本開示でこの目的に使用するキャッシュを、以下では「発話キャッシュ（ｕｔｔｅｒａｎｃｅ　ｃａｃｈｅ）」とも呼ぶ。

　また、本開示では、ユーザの好みに合わせた画像処理を実現するために、パラメータ調整用のニューラルネットワークが、ユーザの発話に基づいて推定して、画像処理用のニューラルネットワークのデフォルトのパラメータセットの適当な調整量を計算する。また、パラメータ調整用のニューラルネットワークがパラメータセットの調整量を計算する際の調整パラメータを、ユーザパラメータキャッシュに保存しておく。そして、画像処理用のニューラルネットワークは、ユーザの発話に基づいて計算された調整量だけデフォルト値から調整したパラメータセットを用いることによって、ユーザの好みに合わせてアルゴリズムが改善された画像処理を実現することができる。

　したがって、本開示によれば、ユーザは音声コマンドを使って画像処理の結果を変更することができる。

Ｂ．デジタルカメラの構成
　本開示は、例えばデジタルカメラ内の画像処理に適用することができる。図１には、デジタルカメラ１００の構成例を示している。図示のデジタルカメラ１００は、光学系１０１と、撮像部１０２と、ＡＦＥ（Ａｎａｌｏｇ　Ｆｒｏｎｔ　Ｅｎｄ：アナログ前処理）部１０３と、カメラ信号処理部１０４と、コーデック処理部１０５と、記録部１０６と、表示部１０７と、メイン処理部１０８と、マイク１０９と、Ａ／Ｄ変換部１１０を備えている。

　光学系１０１は、被写体からの光を撮像部１０２の撮像面に集光するためのレンズ、レンズを移動させてフォーカス合わせやズーミングを行なうための駆動機構、開閉操作により被写体からの光を所定時間だけ撮像面に入射させるシャッター機構、被写体からの光線束の方向並びに範囲を限定するアイリス（絞り）機構（いずれも図示しない）を含んでいる。ドライバ（図示しない）は、後述するメイン処理部１０８からの制御信号に基づいて、光学系１０１内の各機構の駆動（例えば、被写体のフォーカス合わせやアイリス、パン及びチルト、シャッター又はセルフ・タイマー設定のタイミング）などのカメラワークを制御する。

　撮像部１０２は、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）やＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｙｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子からなり、光電変換効果を持つ各画素が２次元に配列された撮像面を有し、被写体からの入射光を電気信号に変換する。受光側には、例えばＧ市松ＲＢ色コーディング単板が配設されている。各色フィルターを通した入射光量に対応する信号電荷が各画素に蓄積され、各画素から読み出される３色の各信号電荷量からその画素位置における入射光の色を再現することができる。なお、撮像部１０２から出力されるアナログ画像信号は、ＲＧＢ各色の原色信号であるが、補色系の色信号であってもよい。

　ＡＦＥ部１０３は、撮像信号の低雑音を高精度に抑圧した後（Ｃｏｒｒｅｌａｔｅｄ　Ｄｏｕｂｌｅ　Ｓａｍｐｌｉｎｇ（相関二重サンプリング）：ＣＤＳ）、サンプル・ホールドを行ない、さらにＡＧＣ（Ａｕｔｏｍａｔｉｃ　Ｇａｉｎ　Ｃｏｎｔｒｏｌ：自動利得制御回路）により適正なゲインコントロールをかけて、ＡＤ変換を施してデジタル画像信号を出力する。また、ＡＦＥ部１０３は、撮像素子を駆動するためのタイミングパルス信号と、このタイミングパルス信号に従って撮像素子の各画素の電荷を垂直方向にライン単位で出力するための駆動信号を撮像部１０２に出力する。

　カメラ信号処理部１０４は、ＡＦＥ部１０３から送られてくる画像信号に対して、欠陥画素補正やデジタルクランプ、デジタルゲイン制御などの前処理を施した後、ＡＷＢによりホワイトバランスゲインを掛けるとともに、シャープネス・再度コントラスト調整などの画質補正処理を施して適正な色状態を再現し、さらにデモザイク処理によりＲＧＢ画像信号を作成する。本実施形態では、カメラ信号処理部１０４で実施される処理の少なくとも一部は、学習済みの機械学習モデルを用いることを想定している。

　カメラ信号処理部１０４で処理が行われた画像信号は、コーデック処理部１０５でＪＰＥＧ（Ｊｏｉｎｔ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）などのエンコーダ処理が行われた後に、画像ファイルとして記録部１０６に記録される。また、カメラ信号処理部１０４は、上記の信号処理を行った画像に対してさらに解像度変換を施して、表示部１０７でスルー画像として表示する。また、記録部１０６に記録された画像を読み出して、コーデック処理部１０５で復号して再生画像として表示する。

　記録部１０６は、ＨＤＤ（ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）などの大容量の記録装置である。記録部１０６には、撮像部１０２で画像が記録される。また、本実施形態では、カメラ信号処理部１０４で用いられる機械学習モデルの複数のパラメータセットが記録部１０６に記録されている。

　表示部１０７は、デジタルカメラ１００に搭載された液晶表示パネルであるが、デジタルカメラ１００に外部接続されるテレビやプロジェクタであってもよい。

　メイン処理部１０８は、プロセッサとＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）及びＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）で構成され、デジタルカメラ１００全体の動作を統括的に制御する。プロセッサは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やマルチコアを持つＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などである。メイン処理部１０８は、画像記録時には、撮影部１０２で撮像した画像データを記録部１０６に記録する処理を制御する。また、メイン処理部１０８は、画像再生時には、記録部１０６から画像データを読み出して、表示部１０７に表示する処理を制御する。

　また、メイン処理部１０８は、マイク１０９で収音した音声信号をＡ／Ｄ変換部１１０でデジタル信号に変換した後に取り込んで、音声認識して音声コマンドとして取り込む。本実施形態では、デジタルカメラ１００で撮影した画像に対する局所画質調整などを指示する音声コマンドが入力されることを想定している。音声コマンドに応じた局所画質調整の詳細については、後述に譲る。

Ｃ．画像処理システムの機能的構成
　図２には、本開示を適用した画像処理システム２００の機能的構成を模式的に示している。図示の画像処理システム２００は、画像入力部２０１と、画像処理ニューラルネットワーク２０２と、処理結果表示部２０３と、画像キャッシュ２０４と、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎと、ユーザ発話入力部２０６と、発話エンコーダニューラルネットワーク２０７と、発話パラメータベクタ２０８と、発話キャッシュ２０９と、パラメータ調整ニューラルネットワーク２１０と、ユーザパラメータキャッシュ２１１を備えている。

　画像入力部（Ｉｍａｇｅ　Ｉｎｐｕｔ）２０１は、例えばデジタルカメラ１００で撮影した画像を入力する。あるいは、画像入力部２０１は、デジタルカメラ１００の光学系１０１、撮像部１０２、ＡＦＥ部１０３及びカメラ信号処理部１０４に相当する。

　画像処理ニューラルネットワーク（Ｉｍａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）２０２は、ニューラルネットワークを用いて、入力画像に対して、高度な画像処理アルゴリズムによる状況に応じた画像処理を行う。ここで言う高度な画像処理アルゴリズムは、例えば以下を含む。画像処理ニューラルネットワーク２０２は、例えばデジタルカメラ１００のカメラ信号処理部１０４に組み込まれる。

（１）人間の肌にのみ処理を適用するアルゴリズム
（２）いわゆるＨＤＲ（Ｈｉｇｈ　Ｄｙｎａｍｉｃ　Ｒａｎｇｅ）画像内の明るい画像部分と暗い画像部分の自動マージを実行するアルゴリズム
（３）画像から不要なオブジェクトを削除するアルゴリズム
（４）画像内のオブジェクトに色、コントラストなどの変換を適用するアルゴリズム

　処理結果表示部（Ｐｒｏｃｅｓｓｉｎｇ　Ｒｅｓｕｌｔ　Ｄｉｓｐｌａｙ　Ｕｎｉｔ）２０３は、画像をユーザに提示する装置又はソフトウェアであり、例えばデジタルカメラ１００の表示部１０７に相当する。

　画像キャッシュ（Ｉｍａｇｅ　Ｃａｃｈｅ）２０４は、画像処理ニューラルネットワークが最初に出力した画像データを一時的に記憶するキャッシュメモリである。

　第１乃至第Ｎのパラメータセット（Ｐａｒａｍｅｔｅｒ　Ｓｅｔ）２０５－１、…、２０５－Ｎは、それぞれ画像処理ニューラルネットワーク２０２が使用するパラメータセットである。第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎには、例えば、画像処理ニューラルネットワーク２０２のレイヤーの遷移の重み、又はより複雑なネットワークアーキテクチャのサブネットワークの重みが含まれる。第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎは、例えばデジタルカメラ１００の記録部１０６に記録される。

　ユーザ発話入力部（Ｕｓｅｒ　Ｕｔｔｅｒａｎｃｅ　Ｉｎｐｕｔ）２０６は、処理結果表示部２０３が表示する処理画像に対する訂正や修正を含むユーザからの発話を入力する。ユーザ発話入力部２０６は、例えばユーザからの音声コマンドを入力するマイク１０９に相当する。但し、以下では説明の簡素化のため、ユーザの発話を自動音声認識システムによりテキスト形式のデータに変換された後に、ユーザ発話入力部２０６に入力されるものとする。

　発話エンコーダニューラルネットワーク（Ｕｔｔｅｒａｎｃｅ　Ｅｎｃｏｄｅｒ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）２０７は、ユーザの発話のテキスト表現をベクタなどの数値表現にエンコードする。ユーザ発話入力部２０６からは可変長のテキスト表現が入力されるが、発話エンコーダニューラルネットワーク２０７は固定長表現にエンコードする。

　発話パラメータベクタ（Ｕｔｔｅｒａｎｃｅ　Ｐａｒａｍｅｔｅｒ　Ｖｅｃｔｏｒ）２０８は、発話エンコーダニューラルネットワーク２０７から出力される、ユーザ発話の数値表現である。

　発話キャッシュ（Ｕｔｔｅｒａｎｃｅ　Ｃａｃｈｅ）２０９は、連続したユーザの発話から発話エンコーダニューラルネットワーク２０７が出力する複数の発話パラメータベクタを一時的に記憶するキャッシュメモリである。

　発話エンコーダニューラルネットワーク２０７及び発話キャッシュ２０９は、例えばデジタルカメラ１００のメイン処理部１０８に組み込まれる。

　パラメータ調整ニューラルネットワーク（Ｐａｒａｍｅｔｅｒ　Ａｄｊｕｓｔｍｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）２１０は、画像処理ニューラルネットワーク２０２がユーザの発話に含まれるユーザの意図通りの結果を生成するように、画像処理ニューラルネットワーク２０２で使用されるパラメータの調整量を計算する。パラメータ調整ニューラルネットワーク２１０によって行われるパラメータの調整は一時的な調整であり、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎを恒久的に変更するものではない。

　本実施形態では、パラメータ調整ニューラルネットワーク２１０が発話キャッシュ２０９を使用する点にも特徴がある。すなわち、パラメータ調整ニューラルネットワーク２１０は、発話エンコーダニューラルネットワーク２０７から出力される発話パラメータベクタと、発話キャッシュ２０９から読み出された発話パラメータベクタを含む、連続する複数ターンの発話パラメータベクタに基づいて、パラメータの調整量を計算する。

　ユーザパラメータキャッシュ（Ｕｓｅｒ　Ｐａｒａｍｅｔｅｒ　Ｃａｃｈｅ）２１１は、パラメータ調整ニューラルネットワーク２１０がパラメータの調整量を計算する際に調整パラメータを保存するメモリである。ここで言うメモリは、フラッシュメモリのような不揮発的なメモリを想定している。

　パラメータ調整ニューラルネットワーク２１０及びユーザパラメータキャッシュ２１１は、例えばデジタルカメラ１００のメイン処理部１０８に組み込まれる。

　第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎは、最初は事前定義された値からなるパラメータのセットである。画像処理システム２００のシステム動作中に、画像処理ニューラルネットワーク２０２がユーザ固有の好みに適合するアルゴリズムに改善して画像処理を行うことができるように、パラメータ調整ニューラルネットワーク２１０がユーザの発話に基づいて計算したパラメータの調整量に応じて、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎの少なくとも一部を調整していく。このようにして、ユーザの操作を少なくしても（言い換えれば、ユーザの発話による指示の回数を減らしても）、画像処理ニューラルネットワーク２０２がユーザの意図した処理結果を生成することができる。

　ユーザパラメータキャッシュ２１１内の調整パラメータの数は、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータの数よりも少ない。したがって、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎの大量のパラメータを変更しなくても、パラメータ調整ニューラルネットワーク２１０がユーザパラメータキャッシュ２１１内の調整パラメータを用いてパラメータの調整量を計算し、その調整量だけ第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎの少なくとも一部を調整することによって、ユーザの意図通りの処理結果を生成できるように、画像処理ニューラルネットワーク２０２のアルゴリズムを永続的に変更することができる。そもそも、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎは、通常、デジタルカメラ１００内部のハードウェアで実装されるので、パラメータを簡単に変更することはできない。

Ｄ．変形例
　この項では、上記Ｃ項で説明した画像処理システム２００についての２つの変形例について、図３及び図４をそれぞれ参照しながら説明する。但し、いずれの変形例でも、便宜上、画像キャッシュ２０４を省略して説明する。また、どちらの変形例も、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎの図示を省略して説明する。図３及び図４の各々で示している画像処理ニューラルネットワーク２０２には、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎが含まれているものと理解されたい。また、発話パラメータベクタ２０８は中間ブロックとして図示を省略しており、発話エンコーダニューラルネットワーク２０７の出力は後続の処理ブロックに直接入力されるものとして描いている。特に明記しないが、発話エンコーダニューラルネットワーク２０７の出力はユーザの発話を数値表現した発話パラメータベクタであることを理解されたい。

Ｄ－１．変形例（１）
　図３には、第１の変形例に係る画像処理システム３００の機能的構成を模式的に示している。画像処理システム３００は、発話キャッシュ２０９とパラメータ調整ニューラルネットワーク２１０を統合した構成を備えている。但し、図２に示した画像処理システム２００内にも含まれる同一の構成要素については同一の名称及び同一の参照番号としている。以下では、図２に示した画像処理システム２００との相違点を中心に、画像処理システム３００の構成について説明する。

　図３では、発話パラメータベクタ２０８は中間ブロックとして図示を省略しており、発話エンコーダニューラルネットワーク２０７の出力は後続のニューラルネットワークに直接入力されるものとして描いている。

　図２中の発話キャッシュ２０９がシーケンスサマリーニューラルネットワーク３０１に置き換えられている。シーケンスサマリーニューラルネットワーク３０１は、発話エンコーダニューラルネットワーク２０７の全出力の平均表現を計算する。シーケンスサマリーニューラルネットワーク３０１の出力に基づいて、画像処理ニューラルネットワーク２０２で使用されるパラメータが修正される。すなわち、シーケンスサマリーニューラルネットワーク３０１は、パラメータ調整ニューラルネットワーク２１０の代用である。

　画像処理ニューラルネットワーク２０２で使用されるパラメータは、シーケンスサマリーニューラルネットワーク３０１の出力とユーザパラメータキャッシュ２１１が一時的に記憶しているパラメータ調整量に基づいて修正される。これによって、ユーザの発話入力がなくても、画像処理ニューラルネットワーク２０２で使用されるパラメータを修正することができる。このようにすれば、ユーザの好みに応じたパラメータの修正を永続して遂行することができる。

Ｄ－２．変形例（２）
　図４には、第２の変形例に係る画像処理システム４００の機能的構成を模式的に示している。画像処理システム４００は、パラメータ調整ニューラルネットワーク２１０と発話エンコーダニューラルネットワーク２０７間の接続を変更した構成を備えている。但し、図２に示した画像処理システム２００内にも含まれる同一の構成要素については同一の名称及び同一の参照番号としている。以下では、図２に示した画像処理システム２００との相違点を中心に、画像処理システム４００の構成について説明する。

　発話エンコーダニューラルネットワーク２０７の出力は発話キャッシュ２０９に入力される。発話キャッシュ２０９は、上記Ｄ－１項で説明した「シーケンスサマリーニューラルネットワーク」を用いて実現することができる。

　なお、「シーケンスサマリーニューラルネットワーク」自体は、自動音声認識において既に研究報告がなされた技術である。

Ｅ．ニューラルネットワークの学習
　この項では、パラメータ調整ニューラルネットワーク２１０及び発話エンコーダニューラルネットワーク２０７の学習について説明する。

　図５には、画像処理システム２００におけるニューラルネットワークの学習メカニズムを図解している。

　図５に示す学習メカニズムでは、ニューラルネットワークを使用した事前学習済みの画像処理アルゴリズム、すなわち学習済みの画像処理ネットワーク２０２が存在することを前提とする。この学習済みの画像処理ネットワーク２０２は、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎを使用する。第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎには、画像処理ニューラルネットワーク２０２のレイヤーの遷移の重み、又はより複雑なネットワークアーキテクチャのサブネットワークの重みが含まれる（前述）。

　図５に示す学習メカニズムは、発話エンコーダニューラルネットワーク２０７とパラメータ調整ニューラルネットワーク２１０の２つのニューラルネットワークを学習の対象とする。ニューラルネットワークの学習には、膨大量の学習用データが必要である。学習用データは、例えば、学習対象のニューラルネットワークへの入力データと、ニューラルネットワークの計算結果を評価する教師データの組み合わせからなる。図５に示す学習メカニズムでは、学習用データは｛調整済み発話，元の画像，調整後の画像｝からなる。調整済み発話は、ユーザ発話入力部２０６に入力可能な、元の画像に対して調整を指示するユーザ発話の発話をテキスト表現形式に変換したものである。調整後の画像は、元の画像に対するユーザの発話に基づいてパラメータ調整ニューラルネットワーク２１０が調整したパラメータを使って、画像処理ニューラルネットワーク２０２がユーザの意図通りとなるように生成すべき画像すなわち教師データである。

　パラメータ調整ネットワーク２１０は、画像処理ニューラルネットワーク２０２が調整後の画像（教師データ）を生成するための第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータを調整するように、学習を行う。

　発話エンコーダニューラルネットワーク２０７は、ユーザの発話を表す発話パラメータベクタを出力するように、学習を行う。ユーザの発話は単語のシーケンスとして発話エンコーダニューラルネットワーク２０７に入力される。そして、発話エンコーダニューラルネットワーク２０７がエンコードした結果の発話パラメータベクタは、パラメータ調整ネットワーク２１０への入力として使用される。パラメータ調整ニューラルネットワーク２１０は、発話パラメータベクタから、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータをどのように調整すべきかを計算する。

　発話エンコーダニューラルネットワーク２０７とパラメータ調整ニューラルネットワーク２１０の学習は、誤差逆伝播（ｅｒｒｏｒ　ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などの従来通りのニューラルネットワークの学習手法を用いて行われる。

　ユーザパラメータキャッシュ２１１は、ニューラルネットワークの学習の間は更新されない。発話キャッシュ２０９は、学習サンプルが２以上の発話からなる場合に使用される。

　発話エンコーダニューラルネットワーク２０７の学習と、パラメータ調整ニューラルネットワーク２１０の学習を同時に行うことができる。

　発話エンコーダニューラルネットワーク２０７は、単語のシーケンスからなるユーザの発話が入力されると、エンコードした結果の発話パラメータベクタをパラメータ調整ニューラルネットワーク２１０に出力する。パラメータ調整ニューラルネットワーク２１０は、発話パラメータベクタから、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータ調整量を計算する。画像処理ニューラルネットワーク２０２は、調整された第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータを使用して、元の画像の調整を行う。そして、画像処理ニューラルネットワーク２０２から出力された画像と教師データとなる調整後の画像との誤差を発話エンコーダニューラルネットワーク２０７に逆伝播して、その誤差に基づく損失関数が最小となるように、発話エンコーダニューラルネットワーク２０７の学習が行われる。

　また発話エンコーダニューラルネットワーク２０７は、単語のシーケンスからなるユーザの発話が入力されると、エンコードした結果の発話パラメータベクタをパラメータ調整ニューラルネットワーク２１０に出力する。パラメータ調整ニューラルネットワーク２１０は、発話パラメータベクタから、第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータ調整量を計算する。画像処理ニューラルネットワーク２０２は、調整された第１乃至第Ｎのパラメータセット２０５－１、…、２０５－Ｎのパラメータを使用して、元の画像の調整を行う。そして、画像処理ニューラルネットワーク２０２から出力された画像と教師データとなる調整後の画像との誤差をパラメータ調整ニューラルネットワーク２１０に逆伝播して、その誤差に基づく損失関数が最小となるように、パラメータ調整ニューラルネットワーク２１０の学習が行われる。

Ｆ．実施例
　この項では、学習済みの画像処理システム２００を利用して画像処理を行う実施例について説明する。

　画像処理システム２００では、入力画像に対して画像処理ニューラルネットワーク２０２が画像処理した結果の画像が、処理結果表示部２０３に表示される。ユーザは、処理結果表示部２０３が表示する処理画像に対して、発話によって訂正や修正を指示し、その発話コマンドがユーザ発話入力部２０６に入力される。典型的なユーザの発話コマンドとして、以下を挙げることができる。

（１）画像中の一部のみの色の変更（例えば、被写体の顔の色、背景の海の色）
（２）画像中の一部のみの明るさの変更（例えば、空、地面に積もった雪、人々）

　以下では、ビーチと海が写った画像を、画像処理システム２００がユーザの発話による指示に従って一部を変更するユースケースにおける処理手順について説明する。ユーザはビーチと海が写った画像のうち、海の青をより強くしたいと考えているとする。

処理１）現在の画像の表示
　現在表示されている画像が画像キャッシュ２０４に一時記憶される（図６を参照のこと）。

処理２）画像に対するユーザフィードバックと更新結果
　発話エンコーダニューラルネットワーク２０７は、ユーザ発話入力部２０６から渡されたユーザの発話「海もっと青くして」を表現する発話パラメータベクタを計算する。この発話パラメータベクタは、パラメータ調整ニューラルネットワーク２１０に入力される。

　発話キャッシュ２０９は、最初の使用時には空である。ユーザパラメータキャッシュ２１１は、最初の使用時には、あらかじめ定義された値が設定されている。図７では説明の簡素化のため、画像処理ニューラルネットワーク２０２は１つのパラメータセット２０５しか使用しないものとする。

　パラメータ調整ニューラルネットワーク２１０は、発話エンコーダニューラルネットワーク２０７から出力された発話パラメータベクタ（すなわち、現在の発話）と、発話キャッシュ２０９から読み出された発話パラメータベクタ（すなわち、過去の発話）と、ユーザパラメータキャッシュ２１１に格納されている調整パラメータに基づいて、パラメータセット２０５のパラメータ調整量を計算する。

　画像処理ニューラルネットワーク２０２は、パラメータ調整ニューラルネットワーク２１０が計算したパラメータ調整量に基づいて調整されたパラメータセット２０５を使用することによって、海の青を強くするようにアルゴリズムを改善して、入力画像の画像処理を行う。画像処理ニューラルネットワーク２０２が生成した画像は、処理結果表示部２０３に表示される。また、今回入力された発話パラメータベクタは発話キャッシュ２０９に一時記憶される。

処理３）更新された処理結果に対する不完全なユーザフィードバック
　ユーザは、処理２において入力画像を処理した結果（海の青を強くした画像）にまだ満足していないとする。そして、「もう少し青くして」という不完全なユーザの発話が入力されたとする。不完全な発話は、目的語「海を」などが欠けた（すなわち海の色を調整すべきことを特定していない）、文法的に完全でない文章からなる発話である。ユーザが同じ要件について連続して発話する場合に生じることが多い。パラメータ調整ニューラルネットワーク２１０は、この不完全な発話を表現する発話パラメータベクタを計算する。

　パラメータ調整ニューラルネットワーク２１０は、発話キャッシュ２０９に記憶されている過去の発話パラメータベクタと、発話エンコーダニューラルネットワーク２０７から出力された新しい発話パラメータベクタを入力に用いて、上記の処理２と同様に、パラメータセット２０５のパラメータ調整量を計算する。「もう少し青くして」という不完全なユーザの発話は、海の色を調整すべきことを特定していない。本開示によれば、パラメータ調整ニューラルネットワーク２１０は、発話キャッシュ２０９に記憶されている「海もっと青くして」という過去の発話に対応する発話パラメータベクタを入力して、「もう少し青くして」という現在の不完全な発話において青くすべき対象が「海の色」であることを特定することができる。そして、パラメータ調整ニューラルネットワーク２１０は、前回の「海もっと青くして」という発話に基づいてパラメータの調整量を計算した際に使用した調整パラメータをユーザパラメータキャッシュ２１１から読み出して、さらに海を青くするように画像処理のアルゴリズムを改善するためのパラメータ調整量を計算する。また、パラメータの調整量の計算に使用した調整パラメータは、再びユーザパラメータキャッシュ２１１に保存される。発話キャッシュ２０９を用いなければ、パラメータ調整ニューラルネットワーク２１０は「もう少し青くして」という現在の不完全な発話のみから適切なパラメータ調整量を計算できないであろう。

　画像処理ニューラルネットワーク２０２は、パラメータ調整量に基づいて調整されたパラメータセット２０５を使用することによって、海の青をもう少し強くするようにアルゴリズムを改善して、入力画像の画像処理を行う。画像処理ニューラルネットワーク２０２が生成した画像は、処理結果表示部２０３に表示される。また、今回入力された発話パラメータベクタは発話キャッシュ２０９に一時記憶される。

処理４）誤差逆伝播によるユーザパラメータキャッシュの更新
　図９に示すように、上記の処理３の出力と画像キャッシュ２０４を使用して、誤差逆伝播によるユーザパラメータキャッシュ２１１の更新を行う。画像処理ニューラルネットワーク２０２から出力された画像と画像キャッシュ２０４に記憶されている教師データの画像との誤差に基づく損失関数を計算し、誤差をパラメータ調整ニューラルネットワーク２１０に逆伝播し、パラメータ調整ニューラルネットワーク２１０は誤差が最小となるように「海もっと青くして」というユーザの発話に対応するパラメータ調整量を計算するための調整パラメータを更新して、ユーザパラメータキャッシュ２１１に保存する。次回、「海もっと青くして」というユーザの発話が入力されたときには、パラメータ調整ニューラルネットワーク２１０は、今回学習した調整パラメータをユーザパラメータキャッシュ２１１から読み出してパラメータの調整量を計算し、この調整量だけ調整したパラメータセット２０５を画像処理ニューラルネットワーク２０２に使用させる。これによって、画像処理システム２００は、ユーザの１回の発話だけで、ユーザの好みを反映する海を青くした画像を生成できるようになる。

Ｇ．効果
　最後に、本開示を適用した画像処理システム２００による効果をまとめておく。

（１）本開示に係る画像処理システム２００は、ユーザが発話する自然言語に基づいて、ニューラルネットワークベースの画像処理アルゴリズムのパラメータの修正を行う。したがって、パラメータ調整にユーザの音声コマンドに応じた直接的な影響を与えることができる。

（２）本開示に係る画像処理システム２００は、ユーザの発話を一時的に記憶する発話キャッシュ２０９を備えている。したがって、連続する複数ターンの発話に基づいて、ニューラルネットワークベースの画像処理アルゴリズムのパラメータの調整を行うことができる。

（３）本開示に係る画像処理システム２００は、パラメータ調整ニューラルネットワーク２１０が使用する調整パラメータを保存するユーザパラメータキャッシュ２１１を備えている。したがって、パラメータ調整ニューラルネットワーク２１０が調整パラメータに基づいて計算したパラメータの調整量だけパラメータセット２０５を変更して、ユーザの好みを反映する画像を生成するように画像処理ニューラルネットワーク２０２のアルゴリズムを改善することができる。画像処理ニューラルネットワーク２０２が使用するパラメータセット２０５をデフォルトのパラメータ値から調整するだけで、ユーザの好みを反映する画像生成を実現することができる。デジタルカメラ１００内のハードウェアに組み込むことで、本開示に係る画像処理システム２００を容易に実現することができる。

（４）本開示に係る画像処理システム２００は、事前学習された画像処理ニューラルネットワーク２０２が使用するパラメータを、パラメータ調整ニューラルネットワーク２１０が計算したパラメータ調整量を用いて修正するように構成されている。例えばデジタルカメラ１００内の組み込みハードウェアに搭載された画像処理ニューラルネットワーク２０２の事前学習されたパラメータを、パラメータ調整ニューラルネットワーク２１０を使って無制限に調整することができる。

　以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本開示に係る画像処理は、例えばデジタルカメラに搭載して用いられるが、画像を再生する画像ビューアにも適用することができる。また、本開示は、画像処理だけでなく、音声認識、文字認識といった認識処理や、音声エージェント、ロボットやドローンといった自律動作する装置の制御など、機械学習モデルを用いるさまざまな処理に適用することができる。

　要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本開示は、以下のような構成をとることも可能である。

（１）制御部と、
　ユーザの発話を入力する発話入力部と、
　入力された画像を処理する画像処理ニューラルネットワークと、
　前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、
　前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークと、
を具備し、
　前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理装置。

（２）前記パラメータ調整ニューラルネットワークは、前記発話に含まれるユーザの意図通りの結果を生成するように、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
上記（１）に記載の情報処理装置。

（３）前記発話入力部は、前記発話のテキスト表現を数値表現した発話ベクタにエンコードする発話エンコーダニューラルネットワークをさらに備え、
　前記パラメータ調整ニューラルネットワークは、発話パラメータベクタを入力に持つ、
上記（１）又は（２）のいずれかに記載の情報処理装置。

（４）発話パラメータベクタを一時的に記憶する発話キャッシュをさらに備え、
　前記パラメータ調整ニューラルネットワークは、前記発話キャッシュから読み出した発話パラメータベクタを含む連続する複数の発話パラメータベクタを入力して、パラメータの調整量を計算する、
上記（３）に記載の情報処理装置。

（５）前記パラメータ調整ニューラルネットワークがパラメータの調整量を計算するための調整パラメータを保存するユーザパラメータキャッシュをさらに備える、
上記（１）乃至（４）のいずれかに記載の情報処理装置。

（６）前記パラメータ調整ニューラルネットワークは、複数の連続する発話パラメータベクタと、前記ユーザパラメータキャッシュに保存されている調整パラメータに基づいて、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
上記（５）に記載の情報処理装置。

（７）ユーザの発話と、元の画像と、前記発話に基づく調整後の画像（教師データ）からなる学習用データに基づいて、前記パラメータ調整ニューラルネットワークの学習を行う、
上記（１）乃至（６）のいずれかに記載の情報処理装置。

（８）ユーザの発話と、元の画像と、前記発話に基づく調整後の画像（教師データ）からなる学習用データに基づいて、前記発話エンコーダニューラルネットワークの学習を行う、
上記（３）に記載の情報処理装置。

（９）ユーザの発話を入力する発話入力ステップと、
　学習済みのパラメータ調整ニューラルネットワークが、前記発話に基づいて画像処理ニューラルネットワークに関するパラメータの値を調整するパラメータ調整ステップと、
　前記画像処理ニューラルネットワークが、前記パラメータ調整ステップで調整した値のパラメータを用いて、入力された画像を処理する画像処理ステップと、
を有し、
　前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、情報処理方法。

（１０）ユーザの発話を入力する発話入力部、
　画像処理ニューラルネットワークを用いて画像を処理する画像処理部、
　前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部、
　パラメータ調整ニューラルネットワークを用いて、前記発話に基づいて前記パラメータの値を調整するパラメータ調整部、
としてコンピュータを機能させて、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行うようにコンピュータ可読形式で記述されたコンピュータプログラム。

（１１）画像を撮像する撮像部と、
　ユーザの発話を入力する発話入力部と、
　前記撮像した画像信号を処理する信号処理部と、
を具備し、
　前記信号処理部は、撮像画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを備え、
　前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、撮像装置。

　１００…デジタルカメラ、１０１…光学系、１０２…撮像部
　１０３…ＡＦＥ部、１０４…カメラ信号処理部
　１０５…コーデック処理部、１０６…記録部、１０７…表示部
　１０８…メイン処理部、１０９…マイク、１１０…Ａ／Ｄ変換部
　２００…画像処理システム、２０１…画像入力部
　２０２…画像処理ニューラルネットワーク、２０３…処理結果表示部
　２０４…画像キャッシュ、２０５…パラメータセット
　２０６…ユーザ発話入力部
　２０７…発話エンコーダニューラルネットワーク
　２０８…発話パラメータベクタ、２０９…発話キャッシュ
　２１０…パラメータ調整ニューラルネットワーク
　２１１…ユーザパラメータキャッシュ
　３００…画像処理システム
　３０１…シーケンスサマリーニューラルネットワーク
　４００…画像処理システム

Claims

　制御部と、
　ユーザの発話を入力する発話入力部と、
　入力された画像を処理する画像処理ニューラルネットワークと、
　前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、
　前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークと、
を具備し、
　前記制御部は、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、
情報処理装置。
　前記パラメータ調整ニューラルネットワークは、前記発話に含まれるユーザの意図通りの結果を生成するように、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
請求項１に記載の情報処理装置。
　前記発話入力部は、前記発話のテキスト表現を数値表現した発話ベクタにエンコードする発話エンコーダニューラルネットワークをさらに備え、
　前記パラメータ調整ニューラルネットワークは、発話パラメータベクタを入力に持つ、
請求項１に記載の情報処理装置。
　発話パラメータベクタを一時的に記憶する発話キャッシュをさらに備え、
　前記パラメータ調整ニューラルネットワークは、前記発話キャッシュから読み出した発話パラメータベクタを含む連続する複数の発話パラメータベクタを入力して、パラメータの調整量を計算する、
請求項３に記載の情報処理装置。
　前記パラメータ調整ニューラルネットワークがパラメータの調整量を計算するための調整パラメータを保存するユーザパラメータキャッシュをさらに備える、
請求項１に記載の情報処理装置。
　前記パラメータ調整ニューラルネットワークは、複数の連続する発話パラメータベクタと、前記ユーザパラメータキャッシュに保存されている調整パラメータに基づいて、前記画像処理ニューラルネットワークで使用されるパラメータの調整量を計算する、
請求項５に記載の情報処理装置。
　ユーザの発話と、元の画像と、前記発話に基づく調整後の画像（教師データ）からなる学習用データに基づいて、前記パラメータ調整ニューラルネットワークの学習を行う、
請求項１に記載の情報処理装置。
　ユーザの発話と、元の画像と、前記発話に基づく調整後の画像（教師データ）からなる学習用データに基づいて、前記発話エンコーダニューラルネットワークの学習を行う、
請求項３に記載の情報処理装置。
　ユーザの発話を入力する発話入力ステップと、
　学習済みのパラメータ調整ニューラルネットワークが、前記発話に基づいて画像処理ニューラルネットワークに関するパラメータの値を調整するパラメータ調整ステップと、
　前記画像処理ニューラルネットワークが、前記パラメータ調整ステップで調整した値のパラメータを用いて、入力された画像を処理する画像処理ステップと、
を有し、
　前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、
情報処理方法。
　ユーザの発話を入力する発話入力部、
　画像処理ニューラルネットワークを用いて画像を処理する画像処理部、
　前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部、
　パラメータ調整ニューラルネットワークを用いて、前記発話に基づいて前記パラメータの値を調整するパラメータ調整部、
としてコンピュータを機能させて、前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行うようにコンピュータ可読形式で記述されたコンピュータプログラム。
　画像を撮像する撮像部と、
　ユーザの発話を入力する発話入力部と、
　前記撮像した画像信号を処理する信号処理部と、
を具備し、
　前記信号処理部は、撮像画像を処理する画像処理ニューラルネットワークと、前記画像処理ニューラルネットワークに関するパラメータを保持するパラメータ保持部と、前記発話に基づいて前記パラメータの値を調整するパラメータ調整ニューラルネットワークを備え、
　前記発話に基づいて前記パラメータを調整することで、前記発話によるユーザの指示に基づく画像処理を行う、
撮像装置。