WO2024048741A1

WO2024048741A1 - 調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム

Info

Publication number: WO2024048741A1
Application number: PCT/JP2023/031880
Authority: WO
Inventors: 卓森; 恭子数藤; 寛也川▲崎▼; 信和小野; 裕子三宅
Original assignee: 味の素株式会社
Priority date: 2022-09-01
Filing date: 2023-08-31
Publication date: 2024-03-07

Abstract

姿勢認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定し、物体認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定し、手領域と調理器具領域とが重なる場合、調理器具の種類から動画フレーム毎の調理動作を推定する。

Description

調理動作推定装置、調理動作推定方法、および、調理動作推定プログラム

　本発明は、調理動作推定装置、調理動作推定方法、および、調理動作推定プログラムに関する。

　特許文献１には、レンジフードに固定されたカメラでの撮像により、調理動作を含む調理工程全体をとらえたレシピを作成する技術が開示されている。

　また、特許文献２には、調理風景を撮影した映像をから、スーパーマーケット等の顧客が食材売り場で閲覧するのに適した短時間の動画を生成する技術が開示されている。

　また、特許文献３には、ユーザがカメラによって上方から撮影した調理中の映像のみを用いて、その食材または調味料の使用量を推定することができる技術が開示されている。

　また、特許文献４には、キッチンに固定された２台のカメラを用いて正面から撮影した調理中の映像から、ユーザの眼球の位置をもとに視線方向を認識し、ユーザの現在位置、身体の向き、視線方向から作業内容を推定する技術が開示されている。

特開２０２１－１４０７１１号公報特許第６３９１０７８号公報特開２０２０－１３５４１７号公報特開２００５－２８４４０８号公報

　しかしながら、従来の発明においては、姿勢認識技術によるヒトの動きの認識、および、物体認識技術による調理器具の認識を組み合わせて調理動作を捉えることができないという課題があった。

　本発明は、上記問題点に鑑みてなされたものであって、動画フレーム毎の姿勢認識により認識した関節点の座標から推定した手の領域と、物体認識により認識した調理器具の領域とが重なる場合、当該調理器具を使用しているときと判定し、使用調理器具の種類から調理動作を推定することができる調理動作推定装置、調理動作推定方法、および、調理動作推定プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、記憶部と制御部とを備えた調理動作推定装置であって、前記記憶部は、各ユーザの調理行動動画を記憶する動画データベース、を備え、前記制御部は、姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定部と、物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定部と、前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定部と、を備えたことを特徴とする。

　また、本発明に係る調理動作推定装置は、前記制御部は、前記動画フレームに経過時間を紐付けて設定する時間設定部と、前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出する区分算出部と、を更に備えたことを特徴とする。

　また、本発明に係る調理動作推定装置において、前記制御部は、全ての前記ユーザの前記調理動作区分毎の前記調理時間および前記作業量に基づいて、前記調理動作区分毎の調理時間代表値および作業量代表値を取得する代表値取得部、を更に備えたことを特徴とする。

　また、本発明に係る調理動作推定装置において、前記制御部は、前記調理時間代表値および／または前記作業量代表値に基づいて、外れ値となる前記調理時間および／または前記作業量の前記調理動作が記録されている前記調理行動動画を特定する外れ値特定部、を更に備えたことを特徴とする。

　また、本発明に係る調理動作推定装置において、前記調理行動動画は、前記ユーザの属性を示す属性データが紐付けて設定され、前記区分算出部は、前記属性データ、および、前記動画フレーム毎の前記調理動作に基づいて、前記属性毎、且つ、前記調理動作区分毎の前記調理時間および前記作業量を算出することを特徴とする。

　また、本発明に係る調理動作推定装置において、前記時間設定部は、更に、前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の順序データを取得し、前記制御部は、前記調理動作区分毎の前記調理時間および前記作業量、ならびに、前記順序データに基づいて、前記ユーザの調理行動データを取得する調理行動取得部、を更に備えたことを特徴とする。

　また、本発明に係る調理動作推定装置において、前記記憶部は、複数の調理中の手の動きが記録された手動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記手領域とする姿勢認識モデルを記憶するモデルデータベース、を更に備え、前記手推定部は、前記姿勢認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記関節点の座標を特定し、前記手の座標領域である前記手領域を推定することを特徴とする。

　また、本発明に係る調理動作推定装置において、前記記憶部は、複数の前記調理器具が記録された調理器具動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記調理器具領域とする物体認識モデルを記憶するモデルデータベース、を更に備え、前記調理器具特定部は、前記物体認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記調理器具の座標領域である前記調理器具領域を特定することを特徴とする。

　また、本発明に係る調理動作推定装置において、前記属性は、料理得意、または、料理不得意を識別するための料理得意度合であることを特徴とする。

　また、本発明に係る調理動作推定装置において、前記調理行動動画は、前記各ユーザの家庭のキッチンを含む任意のキッチンでの当該ユーザの調理を側面から記録した動画であることを特徴とする。

　また、本発明に係る調理動作推定装置において、前記記憶部は、前記手領域をラベリングした調理動画を教師データとし、前記手領域および前記調理器具領域を説明変数とし、前記調理動作を目的変数とする機械学習モデルである調理動作推定モデルを記憶するモデル記憶手段、を更に備え、前記調理動作推定手段は、前記手領域と前記調理器具領域とが重なる場合、前記調理動作推定モデルを用いて、前記調理器具の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする。

　また、本発明に係る調理動作推定装置において、前記制御部は、前記物体認識技術、または、前記動画フレームに対する画像領域分割技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、食材の座標領域である食材領域を特定する食材特定手段、を更に備えたことを特徴とする。

　また、本発明に係る調理動作推定装置において、前記食材特定手段は、更に、前記食材から、摂取栄養素を推定することを特徴とする。

　また、本発明に係る調理動作推定装置において、前記調理動作推定手段は、更に、前記手領域と前記食材領域とが重なる場合、または、前記調理器具領域と前記食材領域とが重なる場合、前記食材の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする。

　また、本発明に係る調理動作推定装置において、前記制御部は、前記物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調味料の座標領域である調味料領域を特定する調味料特定手段、を更に備えたことを特徴とする。

　また、本発明に係る調理動作推定装置において、前記調理動作推定手段は、更に、前記手領域と前記調味料領域とが重なる場合、前記調味料の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする。

　また、本発明に係る調理動作推定方法は、記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定方法であって、前記記憶部は、各ユーザの調理行動動画を記憶する動画データベース、を備え、前記制御部で実行させる、姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、を含むことを特徴とする。

　また、本発明に係る調理動作推定プログラムは、記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定プログラムであって、前記記憶部は、各ユーザの調理行動動画を記憶する動画データベース、を備え、前記制御部において、姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、を実行させることを特徴とする。

　本発明によれば、調理行動の観察に観察者の主観によらない指標を導入するとともに、行動観察の手間を減らし、多量の消費者を対象とする調査を実現することが可能となるという効果を奏する。また、本発明によれば、行動動画の撮影は消費者自身のスマートフォン等の端末を用いて消費者自身によって行うことも可能であるため、特別な撮影設備や観察者の消費者家庭への訪問が不要となるという効果を奏する。また、本発明によれば、消費者の撮影した調理動画から消費者の調理行動の客観的・定量的な指標を提供することができるという効果を奏する。また、本発明によれば、調理動作区分毎の時間と作業量とを定量的に評価できることにより、ユーザが負担に感じる調理中の行動を抽出でき、特徴的な行動を行っているユーザを特定できるという効果を奏する。また、本発明によれば、俯瞰ではなく横からの撮像の動画像を使用することにより、例えば、包丁で食材を切る際の手の上下動を適切に捉えることが可能になるという効果を奏する。これにより、本発明によれば、調理動作（工程）毎の作業量を適切に見積もできるという効果を奏する。また、本発明によれば、動画フレーム毎の姿勢認識により認識した関節点の座標から推定した手の座標領域と、物体認識により認識した調理器具の領域とが重なる時を、当該調理器具を使用している時と判定し、使用する調理器具の種類から調理動作を推定することができるという効果を奏する。また、本発明によれば、消費者が自身で撮影した調理動画データから、動画の各フレームにおける人物の姿勢を認識し各関節点の座標を抽出し、動画の各フレームにおける調理器具を認識し調理器具の種類およびその座標を抽出し、抽出したフレーム毎の関節点データおよび調理器具データに基づいて、調理工程を分類し、分類した調理工程の時間、順序、作業量等の調理行動データを作成することができるという効果を奏する。

図１は、本実施形態における調理動作推定装置の構成の一例を示すブロック図である。図２は、本実施形態における調理動作推定処理の一例を示すフローチャートである。図３は、本実施形態における調理動作推定処理の一例を示す図である。図４は、本実施形態における調理動作推定処理の一例を示す図である。図５は、本実施形態における調理動作推定処理の一例を示す図である。図６は、本実施形態における調理動作推定処理の一例を示す図である。図７は、本実施形態における調理動作推定処理の一例を示す図である。図８は、本実施形態における調理行動分析結果の一例を示す図である。図９は、本実施形態における調理行動分析結果の一例を示す図である。図１０は、本実施形態における調理行動分析結果の一例を示す図である。図１１は、本実施形態における画像領域分割の一例を示す図である。図１２は、本実施形態における調理行動の解析処理の一例を示す図である。

　本発明の実施形態を図面に基づいて詳細に説明する。なお、本発明は本実施形態により限定されるものではない。

［１．概要］
　まず、本発明の概要を説明する。

　消費者の調理体験を調査する際、消費者の行動を観察する手法が用いられるが、行動観察調査は、観察者の主観の影響が大きく、一般的に、行動動画の撮影を行った上で、複数人で観察を行う等偏った結果のみが抽出されないような工夫・手間が必要となる。一方、多様化が急速に進む消費者のニーズに応える製品・サービスを提供するには、多様な消費者を対象に迅速に調査することが求められている。

　ここで、従来の行動観察手法においては、会場調査・訪問観察により、目視での行動観察を行うことで、調理方法の課題を確認し、新たな調理ディレクションを開発していたが、作業負荷が大きいため、多人数の調査が困難であり、定性的な解析しかできなかった。

　そこで、本実施形態においは、被験者の自宅にて、ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）活用による行動観察の自動化により、調理行動データを取得することで、作業負荷を下げ、多人数の調査を可能とし、定量的な解析を可能とする仕組みを提供している。

［２．調理動作推定システムの構成］
　本実施形態に係る調理動作推定システムは、任意の単位で機能的または物理的に分散・統合して（スタンドアローン型またはシステム型でも）構成することができる。本実施形態においては、端末装置１００、および、調理動作推定装置２００を通信可能に接続した調理動作推定システムの構成の一例について、図１を参照して説明する。図１は、本実施形態における調理動作推定装置２００の構成の一例を示すブロック図である。

［端末装置１００の構成］
　図１において、端末装置１００は、デジタルカメラもしくはＷｅｂカメラだけでなく、携帯電話、スマートフォン、タブレット端末、ＰＨＳもしくはＰＤＡ（Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔｓ）等の携帯端末、または、一般に市販されるデスクトップ型もしくはノート型のパーソナルコンピュータ等の情報処理装置等であってもよい。

　端末装置１００は、制御部１０２と記憶部１０６と入出力部１１２とを備えており、端末装置１００が備えている各部は、任意の通信路を介して通信可能に接続されている。

　入出力部１１２は、動画を含むデータの入出力（Ｉ／Ｏ）を行う機能を有しており、ＣＣＤイメージセンサまたはＣＭＯＳイメージセンサ等の撮像素子で撮影した画像（静止画および動画）をデジタルデータとして記録する画像入力部（例えば、カメラ等）である。ここで、入出力部１１２は、例えば、キー入力部、タッチパネル、コントロールパッド（例えば、タッチパッド、および、ゲームパッド等）、マウス、キーボード、および、マイク等を含んでいてもよい。また、入出力部１１２は、アプリケーション・ソフトウェア等の（入出力）情報を表示する表示部（例えば、液晶または有機ＥＬ等から構成されるディスプレイ、モニタ、および、タッチパネル等）を含んでいてもよい。また、入出力部１１２は、音声情報を音声として出力する音声出力部（例えば、スピーカ等）を含んでいてもよい。また、入出力部１１２は、指紋センサ、虹彩認証もしくは顔認証等に利用可能なカメラ（例えば、赤外線カメラ等）、および／または、静脈センサ等の生体センサを含んでいてもよい。

　端末装置１００は、他の装置とネットワーク３００を介して通信可能に接続し、他の装置とデータを通信する機能を有する。ここで、ネットワーク３００は、端末装置１００と他の装置とを相互に通信可能に接続する機能を有し、例えば、インターネットおよび／またはＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等である。

　記憶部１０６には、各種のデータベース、テーブル、および／または、ファイル等が格納される。記憶部１０６には、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）と協働してＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）に命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部１０６として、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、および／または、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等を用いることができる。記憶部１０６は、入出力部１１２にて記録された画像データ、ネットワーク３００を介して受信されたデータ、および／または、入出力部１１２を介して入力された入力データ等を記憶していてもよい。

　制御部１０２は、端末装置１００を統括的に制御するＣＰＵ等である。制御部１０２は、ＯＳ等の制御プログラム・各種の処理手順等を規定したプログラム・所要データ等を格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。例えば、制御部１０２は、入出力部１１２にて記録された画像データの取得および画像データに含まれる文字データ（ＵＲＬ等）のデータ読取、ネットワーク３００を介したデータ送受信、入出力部１１２を介して入力された入力データの取得、ならびに、入出力部１１２でのデータ（画面）表示等の各処理を実行してもよい。

［調理動作推定装置２００の構成］
　図１において、調理動作推定装置２００は、パーソナルコンピュータ、または、ワークステーション等の情報処理装置であってもよい。調理動作推定装置２００は、制御部２０２と記憶部２０６と入出力部２１２とを備えており、調理動作推定装置２００が備えている各部は、任意の通信路を介して通信可能に接続されている。調理動作推定装置２００は、ネットワーク３００を介して、他の装置と相互に通信可能に接続されている。

　入出力部２１２は、データの入出力（Ｉ／Ｏ）を行う機能を有していてもよい。ここで、入出力部２１２は、例えば、キー入力部、タッチパネル、コントロールパッド（例えば、タッチパッド、および、ゲームパッド等）、マウス、キーボード、および、マイク等であってもよい。また、入出力部２１２は、アプリケーション・ソフトウェア等の（入出力）情報を表示する表示部（例えば、液晶または有機ＥＬ等から構成されるディスプレイ、モニタ、および、タッチパネル等）であってもよい。また、入出力部２１２は、音声情報を音声として出力する音声出力部（例えば、スピーカ等）であってもよい。また、入出力部２１２は、ＣＣＤイメージセンサまたはＣＭＯＳイメージセンサ等の撮像素子で撮影した画像（静止画および動画）をデジタルデータとして記録する画像入力部（例えば、カメラ等）であってもよい。また、入出力部２１２は、指紋センサ、虹彩認証もしくは顔認証等に利用可能なカメラ（例えば、赤外線カメラ等）、および／または、静脈センサ等の生体センサであってもよい。

　記憶部２０６には、各種のデータベース、テーブル、および／または、ファイル等が格納される。記憶部２０６には、ＯＳと協働してＣＰＵに命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部２０６は、ＲＡＭ、ＲＯＭ、ＨＤＤ、および／または、ＳＳＤ等のストレージ手段であり、各種のデータベースやテーブルを格納する。記憶部２０６は、機能概念的に、動画データベース２０６ａとモデルデータベース２０６ｂと調理データベース２０６ｃとを備えている。

　動画データベース２０６ａは、動画を記憶する。ここで、動画データベース２０６ａは、各ユーザの調理行動動画を記憶していてもよい。ここで、調理行動動画は、ユーザの属性を示す属性データが紐付けて設定されていてもよい。ここで、属性は、料理得意もしくは料理不得意を識別するための料理得意度合、年齢、性別、各種調理スキルの有無、製品の使用経験の有無、調理行動特性（例えば、野菜炒めを１回で行う、または、野菜炒めを２回に分ける等）、ならびに／または、各種アンケートに対する回答傾向等であってもよい。また、調理行動動画は、各ユーザの家庭のキッチンを含む任意のキッチンでの当該ユーザの調理を側面から記録した動画であってもよい。また、調理行動動画は、端末装置１００にて撮影されたものであってもよい。

　モデルデータベース２０６ｂは、各種機械学習モデルを記憶する。ここで、モデルデータベース２０６ｂは、複数の調理中の手の動きが記録された手動画フレームを教師データとし、入力を調理行動動画を構成する動画フレームとし、出力を手領域とする姿勢認識モデルを記憶していてもよい。また、モデルデータベース２０６ｂは、複数の調理器具が記録された調理器具動画フレームを教師データとし、入力を調理行動動画を構成する動画フレームとし、出力を調理器具領域とする物体認識モデルを記憶していてもよい。

　また、モデルデータベース２０６ｂは、手領域をラベリングした調理動画を教師データとし、手領域および調理器具領域を説明変数とし、調理動作を目的変数とする機械学習モデルである調理動作推定モデルを記憶していてもよい。

　調理データベース２０６ｃは、調理データを記憶する。ここで、調理データベース２０６ｃは、順序データ、調理行動データ、姿勢認識技術データ、手領域データ、物体認識技術データ、調理器具領域データ、調理動作データ、調理動作区分、調理時間、作業量、調理時間代表値、作業量代表値、および／または、外れ値等を記憶していてもよい。

　制御部２０２は、調理動作推定装置２００を統括的に制御するＣＰＵ等である。制御部２０２は、ＯＳ等の制御プログラム・各種の処理手順等を規定したプログラム・所要データ等を格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。制御部２０２は、機能概念的に、手推定部２０２ａと調理器具特定部２０２ｂと調理動作推定部２０２ｃと時間設定部２０２ｄと区分算出部２０２ｅと調理行動取得部２０２ｆと代表値取得部２０２ｇと外れ値特定部２０２ｈと食材特定部２０２ｉと調味料特定部２０２ｊとを備えている。

　手推定部２０２ａは、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する。ここで、手推定部２０２ａは、姿勢認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定してもよい。また、手推定部２０２ａは、姿勢認識モデルを用いて、調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定してもよい。

　調理器具特定部２０２ｂは、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する。ここで、調理器具特定部２０２ｂは、物体認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定してもよい。また、調理器具特定部２０２ｂは、物体認識モデルを用いて、調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域を特定してもよい。また、調理器具特定部２０２ｂは、調理器具の種類を特定してもよい。

　調理動作推定部２０２ｃは、調理器具の種類から動画フレーム毎の調理動作を推定する。ここで、調理動作推定部２０２ｃは、手領域と調理器具領域とが重なる場合、調理器具の種類から動画フレーム毎の調理動作を推定してもよい。

　また、調理動作推定部２０２ｃは、手領域と調理器具領域とが重なる場合、調理動作推定モデルを用いて、調理器具の種類から動画フレーム毎の調理動作を推定してもよい。また、調理動作推定部２０２ｃは、手領域と食材領域とが重なる場合、または、調理器具領域と食材領域とが重なる場合、食材の種類から動画フレーム毎の調理動作を推定してもよい。また、調理動作推定部２０２ｃは、手領域と調味料領域とが重なる場合、調味料の種類から動画フレーム毎の調理動作を推定してもよい。

　時間設定部２０２ｄは、動画フレームに経過時間を紐付けて設定する。ここで、時間設定部２０２ｄは、動画フレーム毎の調理動作に基づいて、調理動作の順序データを取得してもよい。

　区分算出部２０２ｅは、調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出する。ここで、区分算出部２０２ｅは、動画フレーム毎の調理動作に基づいて、調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出してもよい。また、区分算出部２０２ｅは、属性データ、および、動画フレーム毎の調理動作に基づいて、属性毎、且つ、調理動作区分毎の調理時間および作業量を算出してもよい。

　調理行動取得部２０２ｆは、ユーザの調理行動データを取得する。ここで、調理行動取得部２０２ｆは、調理動作区分毎の調理時間および作業量、ならびに、順序データに基づいて、ユーザの調理行動データを取得してもよい。また、調理行動取得部２０２ｆは、調理行動データを出力（表示）させてもよい。

　代表値取得部２０２ｇは、調理動作区分毎の調理時間代表値および作業量代表値を取得する。ここで、代表値取得部２０２ｇは、全てのユーザの調理動作区分毎の調理時間および作業量に基づいて、調理動作区分毎の調理時間代表値および作業量代表値を取得してもよい。ここで、代表値は、平均値、または、中央値等であってもよい。

　外れ値特定部２０２ｈは、外れ値となる調理時間および／または作業量の調理動作が記録されている調理行動動画を特定する。ここで、外れ値特定部２０２ｈは、調理時間代表値および／または作業量代表値に基づいて、外れ値となる調理時間および／または作業量の調理動作が記録されている調理行動動画を特定してもよい。

　食材特定部２０２ｉは、調理行動動画を構成する動画フレーム毎に、食材の座標領域である食材領域を特定する。ここで、食材特定部２０２ｉは、物体認識技術、または、動画フレームに対する画像領域分割技術に基づいて、調理行動動画を構成する動画フレーム毎に、食材の座標領域である食材領域を特定してもよい。また、食材特定部２０２ｉは、食材から、摂取栄養素を推定してもよい。

　調味料特定部２０２ｊは、調理行動動画を構成する動画フレーム毎に、調味料の座標領域である調味料領域を特定する。ここで、調味料特定部２０２ｊは、物体認識技術に基づいて、調理行動動画を構成する動画フレーム毎に、調味料の座標領域である調味料領域を特定してもよい。

［３．調理動作推定処理］
　本実施形態に係る調理動作推定処理の一例について、図２から図１２を参照して説明する。図２は、本実施形態における調理動作推定処理の一例を示すフローチャートである。

　図２に示すように、調理動作推定装置２００の手推定部２０２ａは、姿勢認識技術に基づいて、動画データベース２０６ａに記憶された各ユーザの調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する（ステップＳＡ－１）。

　そして、調理動作推定装置２００の調理器具特定部２０２ｂは、物体認識技術に基づいて、動画データベース２０６ａに記憶された各ユーザの調理行動動画を構成する動画フレーム毎に、調理器具の座標領域である調理器具領域および調理器具の種類を特定する（ステップＳＡ－２）。

　そして、調理動作推定装置２００の調理動作推定部２０２ｃは、手領域と調理器具領域とが重なる場合、調理器具の種類から動画フレーム毎の調理動作を推定する（ステップＳＡ－３）。

　そして、調理動作推定装置２００の時間設定部２０２ｄは、動画フレームに経過時間を紐付けて設定する（ステップＳＡ－４）。

　そして、調理動作推定装置２００の時間設定部２０２ｄは、動画フレーム毎の調理動作に基づいて、調理動作の順序データを取得する（ステップＳＡ－５）。

　そして、調理動作推定装置２００の区分算出部２０２ｅは、属性データ、および、動画フレーム毎の調理動作に基づいて、料理得意度合毎、且つ、調理動作区分毎の調理時間および作業量を算出する（ステップＳＡ－６）。

　そして、調理動作推定装置２００の調理行動取得部２０２ｆは、調理動作区分毎の調理時間および作業量、ならびに、順序データに基づいて、ユーザの調理行動データを取得し、調理行動データを入出力部２１２に表示させる（ステップＳＡ－７）。

　そして、調理動作推定装置２００の代表値取得部２０２ｇは、全てのユーザの調理動作区分毎の調理時間および作業量に基づいて、調理動作区分毎の調理時間代表値および作業量代表値を取得する（ステップＳＡ－８）。

　そして、調理動作推定装置２００の外れ値特定部２０２ｈは、調理時間代表値および／または作業量代表値に基づいて、外れ値となる調理時間および／または作業量の調理動作が記録されている調理行動動画を特定し（ステップＳＡ－９）、処理を終了する。

　ここで、図３から図７を参照して、本実施形態における調理動作推定処理の具体例について説明する。図３から図７は、本実施形態における調理動作推定処理の一例を示す図である。

　図３に示すように、本実施形態におけるホームユース調査（ＨＵＴ）調理動画の行動解析においては、撮影条件がばらつく中でも共通の判定基準として「（ユーザが）用いる調理器具」を採用し、例えば、「手の動き」と「包丁」とが重なれば「切る」行動を、「箸」または「へら」と「トング」とが重なれば「炒める」行動をしているとみなしている。ここで、本実施形態における調理行動判定アルゴリズムには、「体の動きＡＩ」に加えて調理器具を認識する「調理器具ＡＩ」が必要であり、「調理器具ＡＩ」については、従来のＡＩでは調理器具をきちんと認識することが困難であったため、本実施形態においては、調理動画から２万点を超えるデータセットを作成し学習させることで、図３に示すように、調理器具が認識できるようになった。また、本実施形態においては、「切る」および「炒める」の２つの調理行動を特定できるだけでなく、商品のパッケージや蛇口等を学習させることで、「商品を持っている」および「洗い物をしている」といったより細かな調理行動の特定も可能としている。

　また、図４に示すように、本実施形態においては、調理行動動画を入力とし、ＡＩを使用した体の動き推定モジュールにより全身および手の関節座標を特定し、ＡＩを使用した調理器具検出モジュールにより調理器具のカテゴリおよび座標を特定し、調理行動判定モジュールを用いた調理行動カテゴリを出力する処理が実行される。

　また、図５および図６に示すように、本実施形態においては、包丁・箸・へら・トング・ハサミ等の複数の調理器具が記録された調理器具画像を学習データとして作成し、調理器具領域を出力する機械学習モデルである物体認識モデルを構築している。ここで、図６に示すように、本実施形態における精度算出としては、Ｆａｌｓｅ　Ｄｉｓｃｏｖｅｒｙ　Ｒａｔｅを用いたＢｅｎｊａｍｉｎｉ－Ｈｏｃｈｂｅｒｇ法等により行ってもよい。

　また、図７に示すように、本実施形態においては、調理動作推定処理の具体的運用として、収集した調理動画がクラウド上にアップロードされた後、ＡＩ解析を実行することにより、出力結果がクラウド上に出力される。出力されたデータに対して、所定のアルゴリズムにより調理行動が判定される。また、本実施形態においては、各ユーザの家庭キッチンでのＨＵＴによる調理動画だけでなく、同一規格キッチンでのＣＬＴ（Ｃｅｎｔｒａｌ　Ｌｏｃａｔｉｏｎ　Ｔｅｓｔ）による調理動画を用いて、調理行動判定処理を実行してもよい。

　また、図８から図１０を参照して、本実施形態における調理行動分析結果の一例について説明する。図８から図１０は、本実施形態における調理行動分析結果の一例を示す図である。

　図８に示すように、本実施形態においては、各ユーザの自宅キッチンにおける、キャベツを２回に分けて炒めた回鍋肉調理、および、キャベツを１回にまとめて炒めた回鍋肉調理の調理行動の定量化について、「切る」、「炒める」の２つの行動に注目し、その調理時間および作業量を定量化している。ここで、図８に示すように、本実施形態においては、約１００名の自宅調理から、炒め工程の調理時間の平均値として、キャベツ炒め１回時：７分４５秒程度、および、キャベツ炒め２回時：８分半程度が算出される。このように、本実施形態においては、生活者の平均的な調理行動パターンが数字で把握できる。

　また、図９に示すように、本実施形態においては、外れ値の分析により、キャベツを２回に分けて炒めた回鍋肉調理、および、キャベツを１回にまとめて炒めた回鍋肉調理の調理行動の課題となる行動を確認することができる。すなわち、図９に示すように、本実施形態においては、行動が極端だった人（の動画）が抽出され、これらの人の行動が確認可能となる。ここで、図９には、炒め工程の調理時間、および、炒め工程の作業量についての結果が示されており、バーで平均値が示されており、１つ１つの点で各個人の生データがプロットされているため、本実施形態においては、２回炒め時の調理時間が最長の人、最短の人、および、作業量が多いＴｏｐ３の５人が外れ値として特定される。そして、本実施形態においては、作業量が多かった３名について、炒め中のほとんどの時間において具材を動かしていたことが確認できた。これは、作業量が多かった３名が、焦げてしまうことを心配しての行動だと推定できる。また、本実施形態においては、炒め時間が最も長かった人について、出来上がりのキャベツ・ピーマンがしんなりしていることが確認できた。これは、炒めの終点が分かりにくかった、または、しんなりした仕上がりが好みだったことを推定可能としている。

　また、図１０に示すように、本実施形態においては、調理得意層と調理不得意層との調理時間の層別解析がなされ、比較結果が取得されている。また、図１０に示すように、本実施形態においては、炒める工程について、調理得意層と調理不得意層とでの比較したところ、切る工程の調理時間において、調理不得意層の方が有意に長くなっていることが確認できる。このように、本実施形態においては、被験者を多くすることで、デモグラフィック等による層別解析が可能となり、新たな切り口での調理課題の抽出ができるようになる。

　更に、本実施形態においては、調理動作推定において、フレーム毎の特徴量を時系列に並べた特徴ベクトルを入力として、機械学習を用いて推定してもよい。ここで、機械学習の手法としては、入力する特徴ベクトルの時間情報を用いずに学習してもよく、また、時間情報を用いて、時系列モデルを用いて学習してもよい。いずれの場合にも出力層において調理動作推定カテゴリへの回帰を行うモデルとして学習してもよいし、その動作であるか否かを二値判定するモデルを調理動作推定カテゴリ毎に学習してもよい。時間情報を用いない場合のモデルとしては、ＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）や、畳み込みニューラルネットワークやＴｒａｎｓｆｏｒｍｅｒ等の深層学習モデル、時間情報を用いる場合のモデルとしては、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ－Ｔｅｒｍ　Ｍｅｍｏｒｙ）やＴｒａｎｓｆｏｒｍｅｒ等の深層学習モデル等を用いることができる。教師データとしては、独自に取得した調理動画に対して人の手で正解ラベルを付けたデータを使用してもよい。

　また、図６および図１１を参照して、本実施形態における食材識別処理の一例について説明する。図１１は、本実施形態における画像領域分割の一例を示す図である。

　本実施形態においては、図６に示す調理器具特定と同様の物体検出のアルゴリズム、および、図１１に示す領域分割（Ｓｅｍａｎｔｉｃ　Ｓｅｇｍｅｎｔａｔｉｏｎ）のアルゴリズムのいずれか１つの手法を用いて、または、２つの手法を組み合わせて用いて、食材認識し、摂取した栄養素を推定することで、不足すると思われる栄養素（群）を特定し、ユーザにその栄養素（群）の摂取を促すことに活用できる。ここで、本実施形態においては、食材を主に外観（例えば、形、大きさ、色等）により認識し、用いる食材を認識することにより、調理によって完成した食事にどのような栄養素をどのくらい摂取できるのかについて推定することを可能としている。

　また、本実施形態においては、調理器具特定と同様のアルゴリズムを用いて、調味料を認識することにより、調理動作をより詳細に推定することが可能となる。このように、本実施形態においては、物体検出（物体認識）技術により、調理器具以外の食材や調味料を認識することで、調理器具のみを活用した場合よりも詳細な区分で調理動作を推定することが可能となる。また、本実施形態においては、調味料を、主に外観（例えば、形、大きさ、色等）から認識している。また、本実施形態においては、物体検出技術と、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅａｄｅｒ：光学文字認識）とを組み合わせることにより、類似する外観の調味料を分けて認識している（例えば、容器に記載された文字から砂糖と塩とを区別して認識し、同一ブランドの商品群から品種を区別して認識している）。また、本実施形態においては、詳細な区分で調理動作を推定することにより、各動作の時間・手間の定量分析が可能となり、より具体的に調理行動を把握・考察することが可能となる。例えば、本実施形態においては、あるレシピの調理における各動作の時間・手間の定量分析から、ユーザの調理スキル、ならびに、類似するレシピの調理にかかる時間および手間を推定することで、ユーザの調理スキルおよび調理に対する心理（かけたい時間および手間、ならびに、かけたいエネルギーおよびコスト等のサステナビリティへの意識）に合わせたレシピおよび調理工程（加熱方法として、ガスもしくはＩＨを用いるか、または、電子レンジを用いるか等）をリコメンドすることに活用することができる。

　また、図１２を参照して、本実施形態における電子レンジ専用調味料を用いた調理行動の解析処理の一例を示す図である。図１２は、本実施形態における調理行動の解析処理の一例を示す図である。

　図１２に示すように、本実施形態においては、（１）全体の作業のうち電子レンジ専用調味料が認識されている時間帯、８分以上認識されていない時間帯、および、再び認識されて以降の時間帯を、それぞれ「下ごしらえ（加熱前）」、「レンジ加熱・蒸らし」、および、「盛り付け（加熱後）」の３つの工程として判定し、（２）手の領域と、電子レンジ専用調味料の領域と、箸またはトングの領域と、が重なって認識された時間帯のうち、「下ごしらえ（加熱前）」と判定された時間帯を「パウチに食材を入れる」と判定し、「盛り付け（加熱後）」と判定された時間帯を「取り出す」と判定し、（３）「パウチに食材を入れる」と判定された時間帯以降で、電子レンジ専用調味料の領域と、手の領域と、が重なる時間帯、且つ、「下ごしらえ（加熱前）」と判定された時間帯を「もみ込む」と判定し、（４）「切る」と判定された時間帯について、包丁の領域と重なって認識された食材の領域により、「玉ねぎを切る」または「肉を切る」にそれぞれ分けて判定し、（５）手の領域と、箸またはトングの領域と、が重なって認識されるが、手の領域と、電子レンジ専用調味料の領域と、が重ならない時間帯、且つ、「盛り付け（加熱後）」と判定された時間帯を「盛り付ける」と判定し、（６）手の領域と、フォークの領域と、が重なって認識され、且つ、手の領域と、フォークの領域と、が重なってお肉が認識された時間帯を「肉に穴をあける」と判定している。

［４．他の実施形態］
　本発明は、上述した実施形態以外にも、請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。

　例えば、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

　また、本明細書中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

　また、端末装置１００および調理動作推定装置２００等に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。

　例えば、端末装置１００および調理動作推定装置２００等が備える処理機能、特に制御部にて行われる各処理機能については、その全部または任意の一部を、ＣＰＵおよび当該ＣＰＵにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、本実施形態で説明した処理を情報処理装置に実行させるためのプログラム化された命令を含む一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて端末装置１００に機械的に読み取られる。すなわち、ＲＯＭまたはＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の記憶部等には、ＯＳと協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭにロードされることによって実行され、ＣＰＵと協働して制御部を構成する。

　また、このコンピュータプログラムは、端末装置１００および調理動作推定装置２００等に対して任意のネットワーク３００を介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

　また、本実施形態で説明した処理を実行するためのプログラムを、一時的でないコンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ、ＳＤ（Ｓｅｃｕｒｅ　Ｄｉｇｉｔａｌ）カード、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（登録商標）（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　ａｎｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）、および、Ｂｌｕ－ｒａｙ（登録商標）　Ｄｉｓｃ等の任意の「可搬用の物理媒体」を含むものとする。

　また、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、本実施形態に示した各装置において記録媒体を読み取るための具体的な構成および読み取り手順ならびに読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

　記憶部に格納される各種のデータベース等は、ＲＡＭ、ＲＯＭ等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。

　また、端末装置１００および調理動作推定装置２００等は、既知のパーソナルコンピュータまたはワークステーション等の情報処理装置として構成してもよく、また、任意の周辺装置が接続された当該情報処理装置として構成してもよい。また、端末装置１００および調理動作推定装置２００等は、当該装置に本実施形態で説明した処理を実現させるソフトウェア（プログラムまたはデータ等を含む）を実装することにより実現してもよい。

　更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じてまたは機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。

　本発明は、食品業界、ならびに、レシピサイト等のアプリケーション・ソフトウェアの製作・提供等を行う情報技術業界において有用である。

　１００　端末装置
　１０２　制御部
　１０６　記憶部
　１１２　入出力部
　２００　調理動作推定装置
　２０２　制御部
　２０２ａ　手推定部
　２０２ｂ　調理器具特定部
　２０２ｃ　調理動作推定部
　２０２ｄ　時間設定部
　２０２ｅ　区分算出部
　２０２ｆ　調理行動取得部
　２０２ｇ　代表値取得部
　２０２ｈ　外れ値特定部
　２０２ｉ　食材特定部
　２０２ｊ　調味料特定部
　２０６　記憶部
　２０６ａ　動画データベース
　２０６ｂ　モデルデータベース
　２０６ｃ　調理データベース
　２１２　入出力部
　３００　ネットワーク

Claims

　記憶部と制御部とを備えた調理動作推定装置であって、
　前記記憶部は、
　各ユーザの調理行動動画を記憶する動画記憶手段、
　を備え、
　前記制御部は、
　姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定手段と、
　物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定手段と、
　前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定手段と、
　を備えたことを特徴とする調理動作推定装置。
　前記制御部は、
　前記動画フレームに経過時間を紐付けて設定する時間設定手段と、
　前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の特徴を識別する調理動作区分毎の調理時間および作業量を算出する区分算出手段と、
　を更に備えたことを特徴とする請求項１に記載の調理動作推定装置。
　前記制御部は、
　全ての前記ユーザの前記調理動作区分毎の前記調理時間および前記作業量に基づいて、前記調理動作区分毎の調理時間代表値および作業量代表値を取得する代表値取得手段、
　を更に備えたことを特徴とする請求項２に記載の調理動作推定装置。
　前記制御部は、
　前記調理時間代表値および／または前記作業量代表値に基づいて、外れ値となる前記調理時間および／または前記作業量の前記調理動作が記録されている前記調理行動動画を特定する外れ値特定手段、
　を更に備えたことを特徴とする請求項３に記載の調理動作推定装置。
　前記調理行動動画は、
　前記ユーザの属性を示す属性データが紐付けて設定され、
　前記区分算出手段は、
　前記属性データ、および、前記動画フレーム毎の前記調理動作に基づいて、前記属性毎、且つ、前記調理動作区分毎の前記調理時間および前記作業量を算出することを特徴とする請求項２に記載の調理動作推定装置。
　前記時間設定手段は、
　更に、前記動画フレーム毎の前記調理動作に基づいて、前記調理動作の順序データを取得し、
　前記制御部は、
　前記調理動作区分毎の前記調理時間および前記作業量、ならびに、前記順序データに基づいて、前記ユーザの調理行動データを取得する調理行動取得手段、
　を更に備えたことを特徴とする請求項２に記載の調理動作推定装置。
　前記記憶部は、
　複数の調理中の手の動きが記録された手動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記手領域とする姿勢認識モデルを記憶するモデル記憶手段、
　を更に備え、
　前記手推定手段は、
　前記姿勢認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記関節点の座標を特定し、前記手の座標領域である前記手領域を推定することを特徴とする請求項１に記載の調理動作推定装置。
　前記記憶部は、
　複数の前記調理器具が記録された調理器具動画フレームを教師データとし、入力を前記調理行動動画を構成する前記動画フレームとし、出力を前記調理器具領域とする物体認識モデルを記憶するモデル記憶手段、
　を更に備え、
　前記調理器具特定手段は、
　前記物体認識モデルを用いて、前記調理行動動画を構成する前記動画フレーム毎に、前記調理器具の座標領域である前記調理器具領域を特定することを特徴とする請求項１に記載の調理動作推定装置。
　前記属性は、
　料理得意、または、料理不得意を識別するための料理得意度合であることを特徴とする請求項５に記載の調理動作推定装置。
　前記調理行動動画は、
　前記各ユーザの家庭のキッチンを含む任意のキッチンでの当該ユーザの調理を側面から記録した動画であることを特徴とする請求項１に記載の調理動作推定装置。
　前記記憶部は、
　前記手領域をラベリングした調理動画を教師データとし、前記手領域および前記調理器具領域を説明変数とし、前記調理動作を目的変数とする機械学習モデルである調理動作推定モデルを記憶するモデル記憶手段、
　を更に備え、
　前記調理動作推定手段は、
　前記手領域と前記調理器具領域とが重なる場合、前記調理動作推定モデルを用いて、前記調理器具の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする請求項１に記載の調理動作推定装置。
　前記制御部は、
　前記物体認識技術、または、前記動画フレームに対する画像領域分割技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、食材の座標領域である食材領域を特定する食材特定手段、
　を更に備えたことを特徴とする請求項１に記載の調理動作推定装置。
　前記食材特定手段は、
　更に、前記食材から、摂取栄養素を推定することを特徴とする請求項１２に記載の調理動作推定装置。
　前記調理動作推定手段は、
　更に、前記手領域と前記食材領域とが重なる場合、または、前記調理器具領域と前記食材領域とが重なる場合、前記食材の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする請求項１２に記載の調理動作推定装置。
　前記制御部は、
　前記物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調味料の座標領域である調味料領域を特定する調味料特定手段、
　を更に備えたことを特徴とする請求項１に記載の調理動作推定装置。
　前記調理動作推定手段は、
　更に、前記手領域と前記調味料領域とが重なる場合、前記調味料の種類から前記動画フレーム毎の前記調理動作を推定することを特徴とする請求項１５に記載の調理動作推定装置。
　記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定方法であって、
　前記記憶部は、
　各ユーザの調理行動動画を記憶する動画記憶手段、
　を備え、
　前記制御部で実行させる、
　姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、
　物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、
　前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、
　を含むことを特徴とする調理動作推定方法。
　記憶部と制御部とを備えた調理動作推定装置に実行させるための調理動作推定プログラムであって、
　前記記憶部は、
　各ユーザの調理行動動画を記憶する動画記憶手段、
　を備え、
　前記制御部において、
　姿勢認識技術に基づいて、前記調理行動動画を構成する動画フレーム毎に、関節点の座標を特定し、手の座標領域である手領域を推定する手推定ステップと、
　物体認識技術に基づいて、前記調理行動動画を構成する前記動画フレーム毎に、調理器具の座標領域である調理器具領域を特定する調理器具特定ステップと、
　前記手領域と前記調理器具領域とが重なる場合、前記調理器具の種類から前記動画フレーム毎の調理動作を推定する調理動作推定ステップと、
　を実行させるための調理動作推定プログラム。