WO2022050092A1

WO2022050092A1 - ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム

Info

Publication number: WO2022050092A1
Application number: PCT/JP2021/030653
Authority: WO
Inventors: 宏彰大眉; 靖上坂
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2020-09-01
Filing date: 2021-08-20
Publication date: 2022-03-10

Abstract

本発明の課題は、ペットの状況を把握しやすくすることである。ペット状況推定システム（１）は、フレーム抽出部（３１）と領域検出部（３２）と姿勢判定部（３３１）と動き検出部（３３０）と推定部（３４）とを備える。フレーム抽出部（３１）は、動画データから、各々が被写体としてペットが存在し得る静止画である複数の画像フレームを抽出する。領域検出部（３２）は、複数の画像フレームにおいて、ペットの容姿の少なくとも一部を示す特定領域を検出する。姿勢判定部（３３１）は、ペットの姿勢を判定する。動き検出部（３３０）は、複数の特定領域における画素値の変化に基づき、ペットの全身又は一部の動きに対応する１又は複数の画素領域を検出する。推定部（３４）は、姿勢判定部（３３１）の判定結果と、動き検出部（３３０）の検出結果とに基づいて、動画データ内に写るペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

Description

ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム

　本開示は、一般に、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。本開示は、より詳細には、動画データ内の被写体としてのペットに関するペット状況推定システム、ペット状況推定システムを備えるペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。

　特許文献１には、画像から動物と人物とをそれぞれ認識し、検出する検出装置が開示されている。この検出装置は、画像から動物を検出する動物検出部と、上記画像から人物を検出する人物検出部とを備えている。また検出装置は、動物かつ人物が検出された場合に、目的の物体が検出されたことを示す情報を検出結果として出力する検出結果出力部を更に備えている。

　この検出装置においては、動物検出部は、動物特徴量記憶部に記憶されている動物の特徴を反映した特徴量データに基づいて、入力された画像を走査する。動物検出部２１は、動物の特徴量データと合致する、あるいは、類似度が高い領域を特定できた場合には、上記領域に写っている物体を、動物として検出する。

　ところで、利用者（例えばペットの飼い主等）は、画像データ内に写るペット（動物）の状況について具体的に知りたい、或いは画像データ内に写るペットが、ある特定の状況にある場合に、その旨の通知を受けたいといった要望がある。

特開２０１３－６５１１０号公報

　本開示は上記事由に鑑みてなされ、ペットの状況を把握しやすくすることができる、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムを提供することを目的とする。

　本開示の一態様のペット状況推定システムは、フレーム抽出部と、領域検出部と、姿勢判定部と、動き検出部と、推定部と、を備える。前記フレーム抽出部は、動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出する。前記領域検出部は、前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出する。前記姿勢判定部は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも１つの画像フレームとに基づいて、前記ペットの姿勢を判定する。前記動き検出部は、前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する１又は複数の画素領域を検出する。前記推定部は、前記姿勢判定部の判定結果と、前記動き検出部の検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

　本開示の一態様のペットカメラは、上記のペット状況推定システムと、前記動画データを撮像する撮像部と、を備える。

　本開示の一態様のサーバは、上記のペット状況推定システムにおける前記姿勢判定部、前記動き検出部及び前記推定部が設けられたペットカメラと通信可能である。前記サーバには、前記フレーム抽出部、及び前記領域検出部が設けられている。

　本開示の一態様のサーバは、上記のペット状況推定システムにおける前記フレーム抽出部、及び前記領域検出部が設けられたペットカメラと通信可能である。前記サーバには、前記姿勢判定部、前記動き検出部及び前記推定部が設けられている。

　本開示の一態様のペット状況推定方法は、フレーム抽出ステップと、ペット検出ステップと、姿勢判定ステップと、動き検出ステップと、推定ステップと、を含む。前記フレーム抽出ステップでは、動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出する。前記ペット検出ステップでは、前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出する。前記姿勢判定ステップでは、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも１つの画像フレームとに基づいて、前記ペットの姿勢を判定する。前記動き検出ステップでは、前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する１又は複数の画素領域を検出する。前記推定ステップでは、前記姿勢判定ステップの判定結果と、前記動き検出ステップの検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

　本開示の一態様のプログラムは、１以上のプロセッサに、上記のペット状況推定方法を実行させるためのプログラムである。

図１Ａは、一実施形態に係るペット状況推定システムが適用されたペットカメラの概略構成図である。図１Ｂは、同上のペットカメラと通信する提示装置の概略構成図である。図２は、同上のペット状況推定システムを備えるペット管理システムの全体構成の概念図である。図３は、同上のペット状況推定システムにて動画データから抽出された複数の画像フレームを説明するための概念図である。図４Ａ及び図４Ｂは、同上のペット状況推定システムにて検出された「動き」のある画素領域に関する特徴量を説明するための図である。図５Ａ～図５Ｃは、同上のペット状況推定システムにて推定処理の対象となる画像フレームのデータの一例である。図６Ａ～図６Ｃは、同上のペット状況推定システムにて推定処理の対象となる画像フレームのデータの別の例である。図７は、同上のペット状況推定システムによる推定結果が画面上にて提示されている提示装置の概念図である。図８は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。図９は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。図１０は、同上のペット状況推定システムの変形例が適用されたペットカメラの概略構成図である。

　（１）概要
　以下の実施形態において説明する各図は、模式的な図であり、各図中の各構成要素の大きさ及び厚さそれぞれの比が、必ずしも実際の寸法比を反映しているとは限らない。

　本実施形態の一の形態に係るペット状況推定システム１は、図１Ａに示すように、フレーム抽出部３１と、領域検出部３２と、姿勢判定部３３１と、動き検出部３３０と、推定部３４と、を備えている。ペット状況推定システム１は、１以上のプロセッサ及び１以上のメモリを有するコンピュータシステムを主構成とする。ここでは一例として、ペット状況推定システム１の構成要素（フレーム抽出部３１、領域検出部３２、姿勢判定部３３１、動き検出部３３０、及び推定部３４等）は全て、ペットカメラ１００の一の筐体内に集約して設けられているものとして説明する。しかし、本開示におけるペット状況推定システム１の構成要素は分散して設けられてもよく、例えばペット状況推定システム１の構成要素の少なくとも一部が、ペットカメラ１００の外部（例えばサーバ７等の外部サーバ）に設けられてもよい。例えば、ペットカメラ１００に、姿勢判定部３３１、動き検出部３３０、及び推定部３４が設けられて、ペットカメラ１００と通信可能なサーバ７に、フレーム抽出部３１、及び領域検出部３２が設けられてもよい。或いは、ペットカメラ１００に、フレーム抽出部３１、及び領域検出部３２が設けられて、ペットカメラ１００と通信可能なサーバ７に、姿勢判定部３３１、動き検出部３３０、及び推定部３４が設けられてもよい。ここでいう「サーバ」は、１台の外部装置（利用者３００の宅内に設置される装置でもよい）から構成されてもよいし、複数の外部装置から構成されてもよい。

　フレーム抽出部３１は、動画データＧ１から複数（図示例では５つ）の画像フレームＦ０（コマ）を抽出する（図３参照）。複数の画像フレームＦ０の各々は、被写体Ｈ１としてペット５が存在し得る静止画である。複数の画像フレームＦ０は、時間軸の方向Ｙ１に並ぶ。ここでは動画データＧ１は、ペットカメラ１００の撮像部２（図１Ａ参照）で撮像（生成）された動画像（データ）である。動画データＧ１は、撮像部２で撮像された動画像の一部を加工したものでもよい。動画データＧ１のフレームレートは、一例として６０ｆｐｓである。しかし、そのフレームレートについて特に限定されず、動画データＧ１は、１コマ（フレーム）と１コマの間隔が比較的長い（コマ送り）ものも含む。ここでいう「時間軸の方向に並ぶ複数の画像フレーム」は、所定の間隔（例えば０．５秒間隔）を空けて並ぶ画像フレームでもよいし、連続する画像フレームでもよい。本明細書において、「動画データＧ１」は、撮像部２で撮像された動画像、又は、撮像部２で撮像された動画像の一部が加工されることによって得られる動画像である。

　図３の例では、５つの画像フレームＦ０が、時間軸の方向Ｙ１に沿って並んでおり、以下では、第１フレームＦ１、第２フレームＦ２、第３フレームＦ３、第４フレームＦ４、及び第５フレームＦ５が、この順で並んでいる。すなわち、５つの画像フレームＦ０の中で第１フレームＦ１が最も早く（古く）撮像されたもので、第５フレームＦ５が最も遅く（新しく）撮像されたものである。

　以下の説明では、ペット状況推定システム１の推定対象とする「ペット」の種類が、犬（動物）である場合を想定する。「ペット」の種類は、特に限定されず、猫でもよいし、その他の動物でもよい。また以下では、画像フレームＦ０に写っている（着目する）「犬（ペット）」については符号「５」を付与して説明し、不特定多数の「犬（ペット）」については符号を付けずに説明する場合もある。

　領域検出部３２は、複数の画像フレームＦ０において、ペット５の容姿の少なくとも一部を示す特定領域Ａ１を検出する。

　ここで特定領域Ａ１は、図３に示すように、画像フレームＦ０内において矩形の枠状で囲まれた領域であり、被写体Ｈ１のペット５を囲む「バウンディングボックス」で示される。画像フレームＦ０内でのペット５の位置は、例えば、バウンディングボックスにおける左上隅のＸ軸座標、Ｙ軸座標、バウンディングボックスの横幅、及びバウンディングボックスの高さ等によって定義される。しかし、特定領域Ａ１は、バウンディングボックスで示されることに限定されず、例えば、画素単位で被写体Ｈ１と背景とを区別するセグメンテーションで示されてもよい。本開示における画像フレームＦ０内でのペット５の位置を特定するための「Ｘ－Ｙ座標」は、一例として画素単位で規定されているものとする。

　姿勢判定部３３１は、学習済みモデル（以下、「第１モデルＭ１」と呼ぶことがある）と、複数の画像フレームＦ０のうち少なくとも１つの画像フレームＦ０とに基づいて、ペット５の姿勢を判定する。第１モデルＭ１は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。第１モデルＭ１は、機械学習により生成されたモデルであり、ペットカメラ１００のモデル格納部Ｐ１（図１Ａ参照）に格納されている。

　動き検出部３３０は、時間軸の方向Ｙ１に並ぶ複数の特定領域Ａ１における画素値の変化に基づき、ペット５の全身又は一部の動きに対応する１又は複数の画素領域Ｐｘ１を検出する。

　本実施形態では一例として、複数の画像フレームＦ０のうちのいずれか１つの画像フレームＦ０（例えば先頭の第１フレームＦ１）で特定領域Ａ１を検出すると、複数の画像フレームＦ０の間で、その特定領域Ａ１の位置の共通化を図る。つまり、各画像フレームＦ０で１つ１つペットを示す特定領域Ａ１を検出するのではなく、例えば先頭の第１フレームＦ１で特定領域Ａ１が検出されると、その他の画像フレームＦ０の特定領域Ａ１は、第１フレームＦ１の特定領域Ａ１と同じ位置に固定される。

　本実施形態では、動き検出部３３０と姿勢判定部３３１とが、情報生成部３３（図１Ａ参照）を構成する。また領域検出部３２と情報生成部３３とが、複数の画像フレームＦ０から犬（ペット５）を検出するペット検出部Ｘ１（図１Ａ参照）を構成する。ただし、情報生成部３３の機能の少なくとも一部が、ペット検出部Ｘ１の外部に設けられてもよい。

　推定部３４は、姿勢判定部３３１の判定結果と、動き検出部３３０の検出結果とに基づいて、動画データＧ１内に写るペット５の感情及び行動の少なくとも一方に関するペット状況を推定する。本実施形態では一例として、推定部３４は、姿勢判定部３３１の判定結果と、動き検出部３３０の検出結果と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報９（図１Ａ参照）とに基づいて、ペット状況を推定する。条件情報９は、ペットカメラ１００の条件格納部Ｐ２（図１Ａ参照）に格納されている。本明細書において、「動画データＧ１内に写るペット５」とは、動画データＧ１で構成されている動画像に写るペット５をいう。

　この構成によれば、推定部３４は、姿勢判定部３３１の判定結果と、動き検出部３３０の検出結果とに基づいて、ペット５の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット５の状況を把握しやすくすることができる。

　また本実施形態の別の形態に係るペット状況推定方法は、フレーム抽出ステップと、ペット検出ステップと、姿勢判定ステップと、動き検出ステップと、推定ステップと、を含む。フレーム抽出ステップでは、動画データＧ１から複数の画像フレームＦ０を抽出する。複数の画像フレームＦ０の各々は、被写体Ｈ１としてペット５が存在し得る静止画である。複数の画像フレームＦ０は、時間軸の方向Ｙ１に並ぶ。ペット検出ステップでは、複数の画像フレームＦ０において、ペット５の容姿の少なくとも一部を示す特定領域Ａ１を検出する。姿勢判定ステップでは、学習済みモデルＭ１と、複数の画像フレームＦ０のうち少なくとも１つの画像フレームＦ０とに基づいて、ペット５の姿勢を判定する。学習済みモデルＭ１は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。動き検出ステップでは、時間軸の方向Ｙ１に並ぶ複数の特定領域Ａ１における画素値の変化に基づき、ペット５の全身又は一部の動きに対応する１又は複数の画素領域Ｐｘ１を検出する。推定ステップでは、姿勢判定ステップの判定結果と、動き検出ステップの検出結果とに基づいて、動画データＧ１内に写るペット５の感情及び行動の少なくとも一方に関するペット状況を推定する。

　この構成によれば、姿勢判定ステップの判定結果と、動き検出ステップの検出結果とに基づいて、ペット５の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット５の状況を把握しやすくすることができる。

　ペット状況推定方法は、コンピュータシステム（ペット状況推定システム１）上で用いられる。つまり、ペット状況推定方法は、プログラムでも具現化可能である。本実施形態に係るプログラムは、本実施形態に係るペット状況推定方法を、１以上のプロセッサに実行させるためのプログラムである。

　（２）詳細
　以下、本実施形態に係るペット状況推定システム１が適用されたシステム（以下、「ペット管理システム２００」と呼ぶ）について、図１Ａ～図９を参照しながら詳しく説明する。

　（２．１）全体構成
　ペット管理システム２００は、図２に示すように、１又は複数台のペットカメラ１００と、１又は複数台の提示装置４と、サーバ７と、を備えている。以下では、ペット管理システム２００を利用して、ペット５の管理（見守り）支援のサービスを受ける、ある一人の利用者３００（図２参照）に着目して説明する。利用者３００は、例えば、ペット５の飼い主であるが、特に限定されない。

　利用者３００は、１又は複数台のペットカメラ１００を、施設（例えばペット５と一緒に住む住居）の所定の位置に設置する。利用者３００は、ペットカメラ１００を複数台設置する場合、住居内の各部屋に１台ずつ設置してもよい。ペットカメラ１００は、屋内に設置されることに限定されず、屋外に設置されてもよい。以下では、説明の便宜上、１台のペットカメラ１００に着目して説明する。

　提示装置４は、例えば、利用者３００が所有する情報端末であることを想定する。情報端末は、一例としてスマートフォン又はタブレット端末等の携帯型の情報端末を想定する。しかし、提示装置４は、ノートパソコン、又は据置型のパソコンでもよい。

　提示装置４は、図１Ｂに示すように、通信部４１と、処理部４２と、表示部４３とを有している。

　通信部４１は、ペットカメラ１００（図２参照）及びサーバ７（図２参照）の各々と互いに通信可能とするための通信インタフェースである。通信部４１は、ペットカメラ１００及びサーバ７のうちいずれか一方のみと通信可能であってもよい。

　処理部４２は、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、１以上のプロセッサが１以上のメモリに記憶された１以上のプログラム（アプリケーション）を実行することで、処理部４２として機能する。プログラムは、ここでは処理部４２のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。利用者３００は、見守りの対象となるペット５に関するＧＵＩ（Graphical User Interface）を提示するための専用のアプリケーションソフト（以下では「ペットアプリ」と呼ぶ）をインストールし、このペットアプリを起動することにより提示装置４として機能する。

　表示部４３は、タッチパネル式の液晶ディスプレイ又は有機ＥＬ（Electro-Luminescence）ディスプレイを構成する。提示装置４がペットアプリを実行することで、表示部４３にはペット５に関する情報を提示する画面が表示（出力）される。

　ところで、ペット５と一緒に住む住人（家族）が複数である場合、複数の住人が、利用者３００としてペット５の管理支援のサービスを受ける場合、ペット管理システム２００は、複数の住人（複数の利用者３００）がそれぞれ携帯する複数台の提示装置４を備えることになる。以下では、説明の便宜上、ある一人の利用者３００（住人）が携帯する１台の提示装置４（スマートフォン）に着目して説明する。

　ペットカメラ１００は、例えば、ペット見守り用の撮像機能を有した装置である。言い換えると、ペットカメラ１００は、図１Ａに示すように、撮像部２（カメラ装置）を備えている。利用者３００は、飼っているペット５が居住内（居住外でもよい）で、主に活動し得る場（例えばエサが置かれている場所）となっている領域が撮像部２の視野角内に収まるように、ペットカメラ１００を設置する。利用者３００は、撮像部２で撮像された画像を通じて、例えば外出中であっても、ペット５の状況を見守ることができる。

　上述の通り、ここでは一例として、ペットの種類は犬であることを想定する。図５Ａ～図６Ｃでは、複数の犬種のペット５を示す画像フレームＦ０（例えば第１フレームＦ１）のデータが例示されているが、これらの図面は、ペット状況推定システム１を説明するために、犬の「姿勢の種類」を例示しているにすぎず、犬種は特に限定されない。ペット状況推定システム１は、例えば犬の「姿勢」について犬種を問わずに、ある程度共通して認識するように構成されるが、犬種によって個別に姿勢を認識してもよい。

　ペットカメラ１００は、図１Ａに示すように、撮像部２に加えて通信部１１を更に備えている。通信部１１は、提示装置４（図２参照）及びサーバ７（図２参照）の各々と互いに通信可能とするための通信インタフェースである。通信部１１は、提示装置４と、例えばＢＬＥ（Bluetooth（登録商標） Low Energy）の規格に準拠した近距離無線通信を行う機能を有してもよい。提示装置４を携帯する利用者３００（図２参照）が宅内に居る場合、通信部１１は、提示装置４と直接、近距離無線通信することでデータの授受を行ってもよい。

　また通信部１１は、宅内に設置されたルータ等を介して、インターネット等のネットワークＮＴ１（図２参照）に接続されている。ペットカメラ１００は、ネットワークＮＴ１を介して外部のサーバ７と通信を行い、サーバ７から情報を取得したりサーバ７へ情報を出力したりすることが可能である。

　図２に示す提示装置４は、通信事業者が提供する携帯電話網（キャリア網）又は公衆無線ＬＡＮ（Local Area Network）等を介してネットワークＮＴ１に接続されてもよい。携帯電話網には、例えば、３Ｇ（第３世代）回線、ＬＴＥ（Long Term Evolution）回線、４Ｇ（第４世代）回線又は５Ｇ（第５世代）回線等がある。提示装置４は、携帯電話網に接続可能な環境であれば、携帯電話網を介してネットワークＮＴ１に接続可能となる。例えば、提示装置４を携帯する利用者３００が宅外に居る場合、携帯電話網等を介してネットワークＮＴ１に接続されることで、ペットカメラ１００及びサーバ７の各々と通信可能となる。

　また提示装置４及びペットカメラ１００間の通信は、ネットワークＮＴ１及びサーバ７を介して行われてもよい。

　ここで上述の通り、ペット状況推定システム１は、図１Ａに示すように、ペットカメラ１００に設けられている。具体的には、ペットカメラ１００は、図１Ａに示すように、処理部３、モデル格納部Ｐ１、条件格納部Ｐ２、及び記憶部３７を更に備えていて、これらがペット状況推定システム１を構成する。なお、ペット状況推定システム１の詳細については、次の欄で説明する。

　サーバ７は、図２に示すように、ネットワークＮＴ１に接続されている。サーバ７は、ネットワークＮＴ１を介して、ペットカメラ１００及び提示装置４の各々と通信可能である。サーバ７は、例えば、利用者情報（氏名、利用者ＩＤ、電話番号、メールアドレス等）、利用者３００が所有するペットカメラ１００及び提示装置４の情報（識別情報等）、及び利用者３００が飼っているペット５（犬種情報等）の情報を管理する。またサーバ７は、複数のペットカメラ１００で撮像された種々の画像データ、及び処理結果（特に処理エラー等）を収集し蓄積する。利用者３００は、提示装置４を通じてサーバ７にアクセスすることで、ペットアプリのダウンロードが行えてもよい。

　サーバ７は、１台のサーバ装置から構成されることを想定するが、複数台のサーバ装置から構成されてもよいし、そのようなサーバ装置が、例えばクラウド（クラウドコンピューティング）を構築してもよい。またペット状況推定システム１の少なくとも一部の機能が、サーバ７内に設けられてもよい。

　（２．２）ペット状況推定システム
　ペットカメラ１００は、図１Ａに示すように、動画データＧ１を撮像する撮像部２、及び通信部１１に加えて、上述の通り、ペット状況推定システム１として、処理部３、モデル格納部Ｐ１、条件格納部Ｐ２及び記憶部３７を備えている。ペット状況推定システム１は、ペット状況を推定するための「推定処理」を実行する。

　モデル格納部Ｐ１は、複数の学習済みモデルを含むデータを格納可能に構成される。モデル格納部Ｐ１は、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）のような書き換え可能な不揮発性メモリを含む。また条件格納部Ｐ２は、条件情報９を含むデータを格納可能に構成される。条件格納部Ｐ２は、ＥＥＰＲＯＭのような書き換え可能な不揮発性メモリを含む。記憶部３７は、後述するイベント情報やダイジェスト情報を記憶する。モデル格納部Ｐ１、条件格納部Ｐ２、及び記憶部３７は、同一の格納部（メモリ）から構成されてもよい。またモデル格納部Ｐ１、条件格納部Ｐ２、及び記憶部３７は、処理部３の内蔵メモリであってもよい。

　処理部３は、例えば、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、１以上のプロセッサが１以上のメモリに記憶された１以上のプログラム（アプリケーション）を実行することで、処理部３の後述する各部として機能する。プログラムは、ここでは処理部３のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。

　処理部３は、ペットカメラ１００の全体的な制御、すなわち、撮像部２、通信部１１、モデル格納部Ｐ１、条件格納部Ｐ２及び記憶部３７等を制御する制御部としての機能を有する。

　ここで処理部３は、図１Ａに示すように、取得部３０と、フレーム抽出部３１と、領域検出部３２と、情報生成部３３と、推定部３４と、出力部３５と、ダイジェスト作成部３８と、を有している。本実施形態では、上述の通り、領域検出部３２と情報生成部３３とが、複数の画像フレームＦ０から犬（ペット５）を検出するペット検出部Ｘ１を構成する。

　取得部３０は、撮像部２から動画データＧ１を取得するように構成されている。取得部３０が動画データＧ１（図３参照）を取得する。

　フレーム抽出部３１は、動画データＧ１から、（１セット分の）複数の画像フレームＦ０を抽出するように構成される。複数の画像フレームＦ０の各々は、被写体Ｈ１としてペット５が存在し得る静止画である。複数の画像フレームＦ０は、時間軸の方向Ｙ１に並ぶ１セット分の複数の画像フレームである。複数の画像フレームＦ０が抽出されると、処理部３は、推定処理を実行する。なお、この抽出時点では、抽出された画像フレームＦ０内にペット５が写っていない可能性もあり得る。

　ペット検出部Ｘ１の領域検出部３２は、複数の画像フレームＦ０において、ペット５の容姿の少なくとも一部を示す特定領域Ａ１を検出するように構成される。本実施形態では、領域検出部３２は、学習済みモデル（以下、「第２モデルＭ２」と呼ぶことがある）に基づいて、特定領域Ａ１を検出する。第２モデルＭ２は、所定の種類のペット（ここでは「犬」）について画像認識するためにその外観要因（特徴量）を（機械）学習したものである。第２モデルＭ２は、モデル格納部Ｐ１に格納されている。ここでは一例として、画像フレームＦ０の数は５つ（第１フレームＦ１～第５フレームＦ５）である。

　第２モデルＭ２は、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。ニューラルネットワーク（多層ニューラルネットワークを含む）は、例えばＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）、又はＢＮＮ（Bayesian Neural Network：ベイズニューラルネットワーク）等を含み得る。第２モデルＭ２は、ＡＳＩＣ（Application Specific Integrated Circuit）又はＦＰＧＡ（Field-Programmable Gate Array）等の集積回路に、学習済みのニューラルネットワークを実装することで実現されている。第２モデルＭ２は、ディープラーニングにより生成されるモデルに限定されない。第２モデルＭ２は、サポートベクターマシン、又は決定木等により生成されるモデルでもよい。

　要するに、領域検出部３２は、第２モデルＭ２を用いて、抽出した第１フレームＦ１～第５フレームＦ５内に犬（ペット５）が被写体Ｈ１として存在するか否かを推定する。領域検出部３２は、第１フレームＦ１～第５フレームＦ５内に犬（ペット５）が存在すると推定すると、ペット５を囲むバウンディングボックスで定義された特定領域Ａ１（図３参照）を検出する。特定領域Ａ１は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。

　また上述の通り、領域検出部３２は、各画像フレームＦ０で、個別にペット５を示す特定領域Ａ１を検出しない。領域検出部３２は、先頭の第１フレームＦ１で特定領域Ａ１を検出すると、その他の第２フレームＦ２～第５フレームＦ５の特定領域Ａ１の位置は、第１フレームＦ１の特定領域Ａ１と同じ位置に固定する。

　情報生成部３３の（後述する）動き検出部３３０には、第１フレームＦ１～第５フレームＦ５の全ての特定領域Ａ１に関する情報が入力される。一方、情報生成部３３の（後述する）姿勢判定部３３１には、第１フレームＦ１～第５フレームＦ５のうち、第１フレームＦ１の特定領域Ａ１に関する情報のみが入力される。

　領域検出部３２は、学習済みモデル（以下、「第３モデルＭ３」と呼ぶことがある）に基づいて、被写体Ｈ１の頭部５０（図２参照）を示す頭部領域Ａ２（図３参照）を検出する。第３モデルＭ３は、所定の種類のペット（ここでは「犬」）の頭部について画像認識するためにその外観要因（特徴量）を学習したものである。つまり、領域検出部３２は、第３モデルＭ３を用いて、顔の部分を含む頭部領域Ａ２を検出する頭部検出部としての機能を更に有している。ただし、領域検出部３２と頭部検出部とは、別々に設けられてもよい。第３モデルＭ３は、モデル格納部Ｐ１に格納されている。

　第３モデルＭ３は、第２モデルＭ２と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。第３モデルＭ３は、ディープラーニングにより生成されるモデルに限定されない。また第３モデルＭ３は、第２モデルＭ２と同一モデルから構成されてもよい。

　領域検出部３２は、第３モデルＭ３を用いて、抽出した第１フレームＦ１～第５フレームＦ５内に、犬（ペット５）の頭部５０が存在するか否かを推定する。領域検出部３２は、第１フレームＦ１～第５フレームＦ５内に、犬（ペット５）の頭部５０が存在すると推定すると、頭部５０を囲むバウンディングボックスで定義された頭部領域Ａ２（図３参照）を検出する。頭部領域Ａ２は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。

　なお、領域検出部３２は、頭部領域Ａ２については、各画像フレームＦ０で、個別に検出する。

　ところで、画像フレームＦ０が、犬（ペット５）の容姿の一部（例えば顔）がアップになった画像の場合、特定領域Ａ１の検出と頭部領域Ａ２の検出のいずれかの検出について失敗（誤検出）する可能性がある。具体的には、犬（ペット５）の顔がアップになった画像フレームＦ０は、「犬の顔」のアノテーションに近いことから、領域検出部３２は、「犬の顔（頭部５０）」として頭部領域Ａ２を検出できても、「犬（容姿全体）」のアノテーションから外れ得る。その結果、「犬」として特定領域Ａ１の検出に失敗する可能性がある。本実施形態では、領域検出部３２は、「犬」及び「犬の顔」の少なくとも一方を検出すれば、取得した画像フレームＦ０内に、犬（ペット５）が存在すると推定する。もし頭部領域Ａ２のみを検出した場合には、領域検出部３２は、頭部領域Ａ２と略等しい領域を、特定領域Ａ１に設定する。なお、もし特定領域Ａ１を検出したにも関わらず頭部領域Ａ２の検出に失敗した場合には、処理部３は、その取得した画像フレームＦ０に関する推定処理を終了してもよい。

　情報生成部３３の動き検出部３３０には、第１フレームＦ１～第５フレームＦ５の全ての頭部領域Ａ２に関する情報が入力される。

　ペット検出部Ｘ１の情報生成部３３は、図１Ａに示すように、動き検出部３３０と、姿勢判定部３３１とを有する。

　姿勢判定部３３１は、学習済みモデル（第１モデルＭ１）と、複数の画像フレームＦ０のうち少なくとも１つの画像フレームＦ０（ここでは第１フレームＦ１）の特定領域Ａ１に関する情報とに基づいて、特定領域Ａ１に示されるペット５の姿勢を判定（推定）する。第１モデルＭ１は、ペット（ここでは「犬」）の姿勢について画像認識するためにペットの姿勢について学習したものである。すなわち、第１モデルＭ１は、犬の姿勢について画像認識するためにその外観要因（特徴量）を学習したものである。

　第１モデルＭ１は、第２モデルＭ２や第３モデルＭ３と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。第１モデルＭ１は、ディープラーニングにより生成されるモデルに限定されない。第１モデルＭ１は、第２モデルＭ２や第３モデルＭ３と同一モデルから構成されてもよい。

　ここで犬（ペット５）の姿勢について図５Ａ～図６Ｃを参照しながら説明する。図５Ａ～図６Ｃは、いずれも、ペット状況推定システム１にて推定処理の対象となり得る画像フレームＦ０（ここでは第１フレームＦ１）の一例である。

　図５Ａは、ペット５が四つ足で起立した姿勢（第１姿勢）で、周囲の様子を窺がっている状態を示す画像フレームＦ０の一例である。

　図５Ｂは、ペット５が床に伏せている姿勢（第２姿勢）で、正面を向いて周囲の様子を窺がっている状態を示す画像フレームＦ０の一例である。

　図５Ｃは、図５Ｂと同様に、ペット５が第２姿勢で、やや右方向を向いて周囲の様子を窺がっている状態を示す画像フレームＦ０の一例である。

　図６Ａは、ペット５が前足を前方に後ろ足を後方にそれぞれ伸張した姿勢（第３姿勢）で、走っている状態を示す画像フレームＦ０の一例である。図６Ａでは、ペット５の尻尾は上を向いている。

　図６Ｂは、ペット５が片方の前足と片方の後ろ足は床に着いて他の足は床から離れて曲がっている姿勢（第４姿勢）で、歩いている状態を示す画像フレームＦ０の一例である。図６Ｂでは、ペット５の尻尾が下に垂れている。

　図６Ｃは、ペット５が寝転んでいる姿勢（第５姿勢）で、目を瞑って睡眠中の状態を示す画像フレームＦ０の一例である。

　上記の姿勢は、犬（ペット５）が取り得る姿勢の単なる一例であり、これらに限定されない。ただし、第１モデルＭ１は、犬の姿勢について、犬の何かしらの行動（特に何かしらの感情に関連する行動）と高い関係性を有した姿勢について機械学習して生成される。犬の姿勢の中で、より精度良く推定したい特定の姿勢については、更に細かい状態も区別できるように機械学習される。ここでいう「特定の姿勢」とは、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特に、犬の行動から読み取れる犬の感情は、例えば、「喜」、「怒」、「哀」、「楽」、「怖」、「安（リラックス）」、等であり、犬の特定の姿勢と関係性のある行動の幾つかは、これらの感情のどれかと関連し得る。

　例えばペット５が四つ足で起立した姿勢（第１姿勢）でも、歯や舌を見せているか否か、耳が立っているか垂れているかといった状態も区別して姿勢の推定を行えるように機械学習される。例えば、歯を見せている第１姿勢は「威嚇中」という行動と関係性がある。また耳が立っている第１姿勢は、周囲の様子を窺がっている「警戒中」という行動と関係性がある。また耳が垂れている第１姿勢は、「無警戒中」という行動と関係性がある。そして、「威嚇中」という行動は、「怒」という犬の感情に関連する行動として設定され得る。「警戒中」という行動は、「怖」という犬の感情に関連する行動として設定され得る。また「無警戒中」という行動は、「哀」や「安」という犬の感情に関連する行動として設定され得る。またペット５が寝ている姿勢（第５姿勢）でも、どのように寝ているのか、具体的には、背中が丸まっているか伸びているか、目を瞑っているか否か、舌を出しているか否かといった状態も区別して姿勢の推定を行えるように機械学習される。

　第１～第３モデルＭ１～Ｍ３を生成するための学習用のデータセットとして、画像データ（生データ）にタグ付けをするアノテーション作業（教師データの決定）において、多数の画像データを用いる。学習用のデータセットは、犬種、犬の色、犬の向き、犬が写っている背景等について制約なしで収集された多数の画像データから選ばれる。学習用のデータセットは、実際の犬の画像データだけでなく、犬のぬいぐるみの画像データ、及びＣＧで作成された犬の画像データも含んでもよく、これらを混ぜて機械学習を行う。

　姿勢判定部３３１で判定されたペット５の姿勢情報（判定結果、及び特定領域Ａ１に関する情報を含む）は、推定部３４に入力される。

　動き検出部３３０は、時間軸の方向Ｙ１に並ぶ第１フレームＦ１～第５フレームＦ５における画素値（画素の輝度値）の変化に基づき、ペット５の全身又は一部の動きに対応する１又は複数の画素領域Ｐｘ１を検出するように構成される。以下、「動き」の検出について図４Ａ及び図４Ｂを参照しながら説明する。

　本実施形態の動き検出部３３０は、１又は複数の画素領域Ｐｘ１に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量（閾値）とを比較することで、複数の特定領域Ａ１における動きが、所定部位の動きであると推定する。ここでは動き検出部３３０は、複数の特定領域Ａ１の中から１つの特定領域Ａ１を、判定用の基準領域Ｒ１として決定する。比較用の所定の特徴量に関する情報は、処理部３のメモリ又は記憶部３７等に予め記憶される。一例として、動き検出部３３０は、先頭の第１フレームＦ１の特定領域Ａ１を、基準領域Ｒ１とする。またここでの「所定部位」は、ペットの「尻尾」であるとする。ただし、所定部位は、尻尾に限定されず足や胴でもよい。

　図４Ａ及び図４Ｂでは、説明の便宜上、画像フレームＦ０における特定領域Ａ１（基準領域Ｒ１）が、模式的に１６×１６の画素領域Ｐｘ１で構成されているものとする。特に図４Ａは、ペット５が四つ足で起立した姿勢を示す図３の特定領域Ａ１について、縮小して模式的に１６×１６の画素領域Ｐｘ１で示したものである。各画素領域Ｐｘ１は、画像フレームＦ０の実際の画素の複数分から構成される領域を想定するが、１画素分に相当してもよい。各画素領域Ｐｘ１の画素値は、各画素領域Ｐｘ１を構成する複数画素の画素値の平均値でもよい。

　動き検出部３３０は、第１フレームＦ１～第５フレームＦ５における特定領域Ａ１に対して、画像解析処理を実行する。具体的には、動き検出部３３０は、時間軸の方向Ｙ１に注目し、基準領域Ｒ１における画素値と、他の４つの特定領域Ａ１における画素値とを比較して、一定値以上に画素値が変化している１又は複数の画素領域Ｐｘ１を選択する。言い換えると、動き検出部３３０は、画素値の変化に基づき、特定領域Ａ１内に動きがあるか否かを判定する。

　図４Ａの左側の特定領域Ａ１（基準領域Ｒ１）は、一定値以上に画素値が変化している画素領域Ｐｘ１を動き検出部３３０が選択した一例である。この特定領域Ａ１は、左上隅に１１個の画素領域Ｐｘ１からなる第１領域Ｔ１（図示例では白色で示す）と、それ以外の複数の画素領域Ｐｘ１からなる第２領域Ｔ２（図示例ではドットハッチングで示す）を含む。動き検出部３３０は、第１領域Ｔ１を「動き」のある画素領域Ｐｘ１の集まりと判断し、第２領域Ｔ２を「動き」がない画素領域Ｐｘ１の集まりと判断している。

　ここで動き検出部３３０は、例えば、第１領域Ｔ１を構成する複数画素の位置座標（座標値）に関する「平均」と「分散」とを求める。図４Ａ中の点Ｃ１は、第１領域Ｔ１を構成する複数画素の位置座標の平均値としての「平均位置」を示す。動き検出部３３０は、点Ｃ１（平均位置）に対する第１領域Ｔ１全体の位置のばらつき（分散）を求め、その「分散」がある閾値（尻尾に対応する所定の特徴量）よりも小さい場合に、ペット５の尻尾５１（図３参照）が動いていると推定する。図４Ａ中の点Ｃ１を中心とした円Ｊ１は、第１領域Ｔ１のばらつき度合いを可視化するために図示しており、円Ｊ１の大きさ（半径）が、分散の値に比例して決まり、上記閾値と比較される。

　言い換えると、動き検出部３３０は、一定値以上に画素値が変化している１又は複数の画素領域Ｐｘ１に関する特徴量（分散）と、尻尾の動きに対応する所定の特徴量（分散）とを比較することで、複数の特定領域Ａ１における動きが、尻尾５１の動きであると推定する。さらに言い換えると、動き検出部３３０は、特定領域Ａ１（基準領域Ｒ１）の中で、第１領域Ｔ１が局所的な領域である場合に、第１領域Ｔ１を尻尾５１が動いている領域と推定する。

　図４Ｂは、犬（ペット５）の全身が、第１フレームＦ１～第５フレームＦ５にわたって動いている場合の、特定領域Ａ１（基準領域Ｒ１）について、縮小して模式的に１６×１６の画素領域Ｐｘ１で示したものである。図４Ｂでは、４つの第１領域Ｔ１が、四隅に離散して存在している。図４Ｂの点Ｃ２は、４つの第１領域Ｔ１の「平均位置」を示す。この例では、犬（ペット５）の全身が動いているため、点Ｃ２（平均位置）に対する４つの第１領域Ｔ１全体のばらつき（分散）が大きい。図４Ｂ中の点Ｃ２を中心とした円Ｊ２は、第１領域Ｔ１のばらつき度合いを可視化するために図示しており、円Ｊ２の大きさ（半径）が、分散の値に比例して決まる。

　ところで、ペット５が犬の場合、犬の尻尾の動きは、犬の感情と深い関係性を有しており、後述する推定部３４で犬（ペット５）のペット状況を推定するために、上述の通り、所定部位をペットの尻尾に設定している。ここで本実施形態の動き検出部３３０は、尻尾５１の位置を直接的に推定しているというより、第１領域Ｔ１のばらつき（分散）から尻尾５１の動きを推定している。そのため、ペット５の所定部位（尻尾）以外のある一部位が第１フレームＦ１～第５フレームＦ５にわたって局所的に動いている場合、尻尾５１と誤認識する可能性がある。ここでいう「尻尾以外のある一部位」の一例としては、ペットの頭部である。

　そこで、本実施形態では、動き検出部３３０は、領域検出部３２で検出された頭部５０（図２参照）を示す頭部領域Ａ２を（たとえ「動き」があっても）、「動き」がない第２領域Ｔ２に含めるように処理する。つまり、動き検出部３３０は、複数の画像フレームＦ０の、時間軸の方向Ｙ１に並ぶ複数の特定領域Ａ１において、頭部領域Ａ２以外の領域における画素値の変化から、ペット５の全身又は一部（尻尾５１）の動きに対応する１又は複数の画素領域Ｐｘ１を検出する。

　動き検出部３３０は、検出された検出結果として、ペット５の動き情報（ここでは尻尾５１が動いているか否かという情報を含み得る）を、推定部３４に出力する。

　本実施形態では、ペット検出部Ｘ１は、上述した、領域検出部３２における特定領域Ａ１の検出処理と、情報生成部３３における姿勢情報及び動き情報を生成する生成処理とを、この順で実行する。しかし、ペット検出部Ｘ１は、検出処理と生成処理とを概ね同時に並行して実行してもよい。

　推定部３４は、姿勢判定部３３１の判定結果（姿勢情報）と、動き検出部３３０の検出結果（動き情報）とに基づいて、ペット状況を推定するように構成される。ここでいう「ペット状況」とは、動画データＧ１内に写るペット５の感情及び行動の少なくとも一方に関する。ここでは一例として、推定部３４は、姿勢情報と、動き情報と、条件情報９とに基づいて、ペット状況を推定する。

　条件情報９は、抽出対象として予め設定されたペットの特定の行動及び感情の少なくとも一方に関連する情報である。例えば、下記の表１～表３に示すような対応関係の情報（以下、「パターン」と呼ぶことがある）は、条件情報９として含まれ得る一例であり、この様なパターンが多数用意されてデータベース化されて条件格納部Ｐ２内に格納されている。

　推定部３４は、条件情報９の中に、得られた姿勢情報及び動き情報（尻尾の動きの有無）と合致する条件のパターンが存在するかをサーチする。

　例えば得られた姿勢情報及び動き情報が、「四つ足で起立」及び「尻尾の動き有り」という結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表１に示すように合致する条件のパターンが存在し、「懐いている／喜び」という「行動／感情」が紐づけされている。したがって、推定部３４は、複数の画像フレームＦ０内のペット５のペット状況が「懐いている／喜び」であると推定する。

　また例えば、得られた姿勢情報及び動き情報が、「前足を前方に後ろ足を後方に伸張している」及び「尻尾の動き有り」という結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表２に示すように合致する条件のパターンが存在し、「走っている」という「行動」が紐づけされている。したがって、推定部３４は、複数の画像フレームＦ０内のペット５のペット状況が「走っている」であると推定する。つまり、推定部３４は、尻尾５１の動きが感情によるものではなく、犬（ペット５）が走っているため、胴体の上下の動きに応じて尻尾５１も上下に揺れていると推定している。

　また例えば、得られた姿勢情報及び動き情報が、「尻尾が垂れている」及び「尻尾の動き無し」という結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表３に示すように合致する条件のパターンが存在し、「無関心」という「感情」が紐づけされている。したがって、推定部３４は、複数の画像フレームＦ０内のペット５のペット状況が「無関心」であると推定する。

　上記の各パターンの条件の種類は、「ペットの姿勢」及び「尻尾の動きの有無」に関する条件に限定されず、他の条件を含んでもよい。

　例えば、動き検出部３３０は、第１フレームＦ１～第５フレームＦ５にわたる画素値の変化から、尻尾５１の動きの速度を推定する機能を有してもよい。この場合、各パターンは、「尻尾の動きの有無」に加えて又はその代わりに、「尻尾の動きの速度」に関する条件を含んでもよい。例えば、尻尾を（左右に）ゆっくりと振っているという条件には、「不安」又は「好奇心」という感情が紐づけされてもよい。また、尻尾を（左右に）素早く振っているという条件には、「喜び」という感情が紐づけされてもよい。

　またペット状況推定システム１が、動画データＧ１内において犬（ペット５）以外の物体（飼い主等の人、食器、又は玩具）を検出する機能（物体検出部）を有していれば、犬以外の物体の存否に関する条件を更に含んでもよい。

　出力部３５は、推定部３４の推定結果（推定されたペット状況）を含む「イベント情報」を出力するように構成される。出力部３５は、処理部３が推定処理を実行する度にイベント情報を生成し、記憶部３７に記憶させる。イベント情報は、サーバ７又はその他の周辺機器に送信されて保存されてもよい。ここでは、イベント情報は、推定部３４の推定結果と、上記推定結果の基となった複数の画像フレームＦ０のうち少なくとも１つの画像フレームＦ０（例えば先頭の第１フレームＦ１）が撮像された撮像時間とを紐づけた情報である。出力部３５は、推定結果と撮像時間に対して、さらに画像データ（第１フレームＦ１）とも紐づけた態様で、イベント情報を生成することが好ましい。

　出力部３５は、イベント情報（出力情報）を、通信部１１を通じて、提示装置４に送信する。提示装置４を携帯する利用者３００が外出中であれば、イベント情報は、サーバ７を経由して提示装置４に送信されてもよい。

　ところで、ペット状況推定システム１は、上述の通り、ダイジェスト作成部３８を更に備える。ダイジェスト作成部３８は、記憶部３７に記憶される１又は複数のイベント情報に基づいて、動画データＧ１に関するダイジェスト情報を作成する。つまり、処理部３は、取得した一の動画データＧ１に対して、複数回推定処理を実行し、複数のイベント情報が記憶部３７に記憶され得る。ダイジェスト情報は、複数のイベント情報を外部（ここでは提示装置４）で利用しやすいように一括りにまとめたものである。一の動画データＧ１の中には、ペット５が写っていない時間帯の画像フレームＦ０、及び特定のペット状況下でないペット５が写っている時間帯の画像フレームＦ０が含まれ得る。ダイジェスト作成部３８で作成されるダイジェスト情報は、これらの時間帯の画像フレームＦ０に関する情報を含まない。

　ダイジェスト情報は、記憶部３７に記憶される。ダイジェスト情報は、サーバ７又はその他の周辺機器に送信されて保存されてもよい。

　出力部３５は、ダイジェスト情報（出力情報）を、通信部１１を通じて、提示装置４に送信する。提示装置４を携帯する利用者３００が外出中であれば、ダイジェスト情報は、サーバ７を経由して提示装置４に送信されてもよい。

　提示装置４は、ペットカメラ１００からイベント情報又はダイジェスト情報等の出力情報を受信すると、出力情報に含まれるペット状況を、例えば簡易的な表現（メッセージ）に置き換えてもよい。そして、提示装置４は、そのメッセージを添えたプッシュ通知等にて画面上に通知（提示）してもよい。利用者３００がプッシュ通知を開封すると、提示装置４は、ペットアプリが起動して、出力情報に含まれる詳細なペット状況を画面上で提示してもよい（図７参照）。或いは出力情報は、メールサーバを経由してメールにより通知されてもよい。

　図７の例では、提示装置４は、表示部４３の画面４３０上に、ペット状況の推定の基となった複数の画像フレームＦ０（床に伏せている姿勢：尻尾を左右に振っている）を表示している。ここでは条件情報９は、「伏せている」及び「尻尾の動き有り」という２つの条件に「喜び」という「感情」が紐づけされたパターンを含んでいる。その結果、ペット状況として「喜び」が推定された例である。提示装置４は、「喜び」というペット５の感情を「うれしいな～」という親しみやすい表現に変換した文字列データを吹き出し付きで、画像フレームＦ０上に重畳させて表示する。また提示装置４は、尻尾を表示する画像領域の近傍に「パタパタ」という文字列データや、尻尾が動いている方向を示す矢印等を重畳させて表示させてもよく、この場合、利用者３００は、ペット５が尻尾５１を振っていることを直感的に理解しやすくなる。

　提示装置４は、複数の画像フレームＦ０を動画として表示させてもよいし、複数の画像フレームＦ０のうちの１つ（例えば第１フレームＦ１）のみを、静止画として表示させてもよい。

　提示装置４は、表示部４３の画面４３０上に、ペット状況の推定の基となった画像フレームＦ０（例えば第１フレームＦ１）が撮像された時間（日時）を更に表示させることが好ましい。

　出力部３５は、推定結果の基となった複数の画像フレームＦ０（生データ）を含めて出力情報を送信することに限定されず、画像のデータ加工を行った上で送信してもよい。また出力部３５は、複数の画像フレームＦ０を、推定されたペット状況に対応するアイコン画像（例えば、尻尾を振って喜んでいる様子の犬のアイコン画像）に置き換えた上で送信してもよい。データの加工処理、及びアイコン画像への置き換えは、提示装置４又はサーバ７の側で実行されてもよい。

　推定部３４の推定結果は、画面出力に限られず、画面出力の代わりに又は画面出力に加えて、音声出力によって行われてもよい。

　ところで、処理部３は、取得部３０が複数（ここでは５つ）の画像フレームＦ０（１セット）を取得する度に推定処理を実行する。例えば、撮像部２が所定のフレームレートで動画を撮像する場合、処理部３は、動画データＧ１の中で連続する多数の画像フレームＦ０の中から、複数セット分の画像フレームＦ０を取得して、各セットについて推定処理を実行し得る。出力部３５は、推定部３４が各セット分の画像フレームＦ０についてペット状況を推定する度に、出力情報を提示装置４に送信してもよいし、複数セット分の出力情報をある程度記憶部３７等にプールして、まとめて送信してもよい。

　また出力部３５は、複数セットに関する推定部３４の推定結果が、所定回数（例えば２回）連続して同じ結果を示す場合、推定部３４の推定結果の出力を制限してもよい。具体的には、ある１セット分の画像フレームＦ０に対するペット５の姿勢と尻尾の動きが、「伏せている」及び「尻尾の動き有り」と推定されて出力情報が提示装置４に出力されたとする。そして、以降に取得したセット分の画像フレームＦ０に対するペット５の姿勢と尻尾の動きも、上記のある１セット分の画像フレームＦ０と同じに推定された場合、出力部３５は、その推定結果を出力しなくてもよい。

　出力部３５は、複数セット分の複数の出力情報を記憶部３７等にプールする場合、所定回数連続して同じ推定結果だった出力情報については、一の推定結果としてまとめて送信してもよい。「所定回数」に関する設定は、ペットカメラ１００又は提示装置４への利用者３００の操作入力によって適宜変更可能でもよい。

　このように推定結果の出力を制限することで、類似する推定結果が連続して出力されることを抑制でき、例えば処理負荷や通信量の低減を図れる。また短期間に何度も同じペット状況が利用者３００に通知されることが抑制されるため、利便性も向上する。

　（２．３）動作説明
　以下、本実施形態におけるペット管理システム２００の動作について、図８及び図９を参照しながら簡単に説明する。なお、以下の動作説明における順序は、単なる一例であって特に限定されない。特に以下では、ペット検出部Ｘ１における、特定領域Ａ１の検出処理と、姿勢情報及び動き情報の生成処理とが、この順で実行される一例を説明するが、これらの処理は、概ね同時に並行して実行されてもよい。

　利用者３００の宅内に設置されたペットカメラ１００は、ペット５が主に活動し得る所定の管理領域を、撮像部２で撮像して監視する。ペットカメラ１００は、管理領域を動画像として所定の期間撮像し続ける。

　ペットカメラ１００のペット状況推定システム１は、図８に示すように、撮像部２で撮像された動画データＧ１を取得部３０にて取得する（Ｓ１）。そして、ペット状況推定システム１は、フレーム抽出部３１にて時間軸の方向Ｙ１に並ぶ（例えば１セット分の）複数の画像フレームＦ０を抽出する（Ｓ２：フレーム抽出ステップ）。ペット状況推定システム１は、抽出された複数の画像フレームＦ０について、推定処理を実行する（Ｓ３）。

　ペット状況推定システム１は、領域検出部３２にて、第２モデルＭ２を用いて複数の画像フレームＦ０内に犬（ペット５）が被写体Ｈ１として写っているか否かを判定する（Ｓ４）。ペット状況推定システム１は、犬（ペット５）が写っていれば（Ｓ４：Ｙｅｓ）、ペット５を示す特定領域Ａ１を検出し（Ｓ５：ペット検出ステップ）、頭部５０の判定（Ｓ６）に進む。

　本実施形態では、仮に画像フレームＦ０内に犬（ペット５）が写っていないと判定しても（Ｓ４：Ｎｏ）、処理は、頭部５０の判定（Ｓ６）に進む。これは、上述の通り、画像フレームＦ０が犬の顔のアップ画像の場合に、「犬」の検出に関する失敗をフォローするためである。

　ペット状況推定システム１は、領域検出部３２にて、第３モデルＭ３を用いて画像フレームＦ０内に犬（ペット５）の頭部５０が写っているか否かを判定する（Ｓ６）。ペット状況推定システム１は、頭部５０が写っていれば（Ｓ６：Ｙｅｓ）、頭部５０を示す頭部領域Ａ２を検出する（Ｓ７）。本実施形態では、ペット状況推定システム１は、頭部５０が写っていなければ（Ｓ６：Ｎｏ）、このセット分の複数の画像フレームＦ０に関する推定処理を終えて、次のセット分の複数の画像フレームＦ０の取得を待つ（Ｓ２に戻る）。ただし、特定領域Ａ１を検出していれば、頭部領域Ａ２を検出していなくても、推定処理を続けてもよい。

　ペット状況推定システム１は、頭部領域Ａ２の検出後、特定領域Ａ１を検出済みであれば（Ｓ８：Ｙｅｓ）、処理は、犬（ペット５）の姿勢の判定（Ｓ１０：図９参照）に進む。一方、ペット状況推定システム１は、頭部領域Ａ２の検出後、特定領域Ａ１を検出していなければ（Ｓ８：Ｎｏ）、頭部領域Ａ２と略同等の領域を特定領域Ａ１に設定して（Ｓ９）、処理は、犬（ペット５）の姿勢の判定（Ｓ１０）に進む。

　ペット状況推定システム１は、姿勢判定部３３１にて、第１モデルＭ１と第１フレームＦ１の特定領域Ａ１に関する情報とを用いて、犬（ペット５）の姿勢を判定する（Ｓ１０：姿勢判定ステップ）。

　またペット状況推定システム１は、動き検出部３３０にて、第１フレームＦ１～第５フレームＦ５における画素値の変化に基づき、「動き」のある画素領域Ｐｘ１（第１領域Ｔ１）を検出する（Ｓ１１：動き検出ステップ）。ただし、ペット状況推定システム１は、頭部領域Ａ２以外の領域の画素値の変化について判定する。「動き」のある画素領域Ｐｘ１が無ければ（Ｓ１１：Ｎｏ）、ペット状況推定システム１は、ペット５は尻尾５１を動かしていない（振っていない）と推定する（Ｓ１２）。

　「動き」のある画素領域Ｐｘ１が有れば、ペット状況推定システム１は、「動き」のある画素領域Ｐｘ１に関する特徴量（分散）と、尻尾の動きに対応する所定の特徴量（分散）とを比較する（Ｓ１３）。ペット状況推定システム１は、検出した画素領域Ｐｘ１に関する特徴量（分散）が、所定の特徴量（分散）よりも小さいと判定すると（Ｓ１３：Ｙｅｓ）、ペット５は尻尾５１を動かしていると推定する（Ｓ１４）。なお、ペット状況推定システム１は、検出した画素領域Ｐｘ１に関する特徴量（分散）が、所定の特徴量（分散）以上であると判定すると（Ｓ１３：Ｎｏ）、ペット５は尻尾５１を動かしていないと推定する（Ｓ１２）。

　ペット状況推定システム１は、処理Ｓ１０～Ｓ１４で得られた結果から、姿勢情報及び動き情報を生成する（Ｓ１５）。

　そしてペット状況推定システム１は、姿勢情報、動き情報、及び条件情報９に基づいて、ペット状況を推定する（Ｓ１６：推定ステップ）。

　ペット状況推定システム１は、推定したペット状況に関するイベント情報やダイジェスト情報等の出力情報を提示装置４に送信して、提示装置４から提示させる（Ｓ１７）。

　［利点］
　このようにペット状況推定システム１では、推定部３４は、姿勢情報、及び動き情報に基づいて、ペット５の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペットの状況を把握しやすくすることができる。

　また本実施形態では、推定部３４は、姿勢情報、及び動き情報に加えて、条件情報９に基づいて、ペット状況を推定する。そのため、例えば、機械学習された学習済みモデルを用いて、ペット状況を推定する場合に比べて、ペット状況推定システム１を簡単な構成で実現可能である。

　また本実施形態では、動き検出部３３０は、「動き」のある画素領域Ｐｘ１に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量とを比較することで、その動きが、所定部位の動きであると推定する。そのため、所定部位の動きの検出に関する信頼性が向上され、結果的に、ペット５の状況に関する推定の信頼性を向上できる。特に本実施形態では、所定部位を、ペットの感情と深い関係性のある尻尾に設定しているため、ペット５の状況に関する推定の信頼性をさらに向上できる。

　また本実施形態では、動き検出部３３０は、ペット５（被写体Ｈ１）の頭部５０を示す頭部領域Ａ２以外の領域における画素値の変化から、「動き」のある画素領域（Ｐｘ１）を検出する。そのため、所定部位（尻尾）の動きの検出に関する信頼性が向上され、結果的に、ペット５の状況に関する推定の信頼性を向上できる。

　また推定部３４の推定結果が、その基となった複数の画像フレームＦ０のうち少なくとも１つの画像フレームＦ０が撮像された撮像時間と紐づけられて、イベント情報として記憶部３７に記憶される。そのため、イベント情報を、例えば提示装置４から提示させる場合に、ペット５の状況をより把握しやすくすることができる。さらに本実施形態では、１又は複数のイベント情報に基づいて、動画データＧ１に関するダイジェスト情報が作成されるため、ダイジェスト情報を通じてより簡単にペット５の状況を把握できる。

　特に、利用者３００は、ペット状況推定システム１によって推定されたペット状況を通じて、ペット５の行動／感情を把握しやすく、その結果、ペット５とのコミュニケーションが図りやすくなる。また利用者３００は、外出中においても、提示装置４からの通知によって、宅内のペット５の行動／感情を把握しやすく、その結果、ペット５を管理（見守り）しやすい。特に例えばペット状況が、緊急性を要するような行動（体調が悪く、ぐったりしている等）と推定された場合に、その旨をいち早く知ることができる。

　（３）変形例
　上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、上記実施形態に係るペット状況推定システム１と同様の機能は、ペット状況推定方法、コンピュータプログラム、又はコンピュータプログラムを記録した非一時的記録媒体等で具現化されてもよい。

　以下、上記実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。以下では、上記実施形態を「基本例」と呼ぶこともある。

　本開示におけるペット状況推定システム１は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示におけるペット状況推定システム１としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

　また、ペット状況推定システム１における複数の機能が、１つのハウジング内に集約されていることは必須の構成ではない。例えば、ペット状況推定システム１の構成要素は、複数のハウジングに分散して設けられていてもよい。具体的には、ペット状況推定システム１の第１モデルＭ１～第３モデルＭ３の少なくとも一部の学習済みモデルは、ペットカメラ１００の外部（例えばサーバ７等の外部サーバ）に設けられてもよい。

　反対に、ペット状況推定システム１における複数の機能が、基本例のように、１つのハウジング（ペットカメラ１００の筐体）内に集約されてもよい。さらに、ペット状況推定システム１の少なくとも一部の機能、例えば、ペット状況推定システム１の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

　（３．１）変形例１
　以下、本開示における変形例１について、図１０を参照しながら説明する。図１０は、本変形例のペット状況推定システム１Ａを示す。以下では基本例のペット状況推定システム１と実質的に同じ構成要素については、同じ符号を付与して適宜にその説明を省略する場合がある。

　基本例のペット状況推定システム１では、ペット検出部Ｘ１は、領域検出部３２及び情報生成部３３を有し、領域検出部３２でペット５を検出してから、情報生成部３３の姿勢判定部３３１でペット５の姿勢を判定して姿勢情報を生成している。つまり、先ずは取得した複数の画像フレームＦ０内におけるペット５の存否を検出してから、姿勢判定を行っている。

　本変形例のペット状況推定システム１Ａは、図１０に示すように、領域検出部３２が、姿勢判定部３３１の機能を有している点で、基本例のペット状況推定システム１と相違する。

　本変形例では、領域検出部３２は、複数の画像フレームＦ０において、ペットの姿勢について画像認識するためにペットの姿勢について学習した第１モデルＭ１に基づいて、特定の姿勢を取っているペット５の特定領域Ａ１を検出する。ここでは領域検出部３２は、例えば第１モデルＭ１～第３モデルＭ３を用いて、特定の姿勢を取っているペット５が被写体Ｈ１として画像フレームＦ０内に写っているか否かを判定し、特定の姿勢を取っているペット５を示す特定領域Ａ１を検出する。特定の姿勢は、上述の通り、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特定の姿勢は、例えば座っている、伏せている、寝ている、又は四つ足で起立している等である。

　特定の姿勢を取っているペット５を示す特定領域Ａ１に関する情報は、情報生成部３３に入力されて、動き検出部３３０にて「動き」の検出に用いられる。

　要するに、本変形例のペット検出部Ｘ１では、ペット５の存在を検出してから姿勢を判定するというよりは、特定の姿勢のペット５を検出する。

　本変形例の構成においても、ペット５の状況を把握しやすくすることができる。

　更に別の変形例として、フレーム抽出部３１が、姿勢判定部３３１の機能を有してもよく、例えば第１モデルＭ１～第３モデルＭ３を用いて、特定の姿勢を取っているペット５が写っている複数の画像フレームＦ０を、動画データＧ１から抽出してもよい。

　（３．２）その他の変形例
　以下、その他の変形例について列記する。

　基本例では、推定部３４は、姿勢情報と、動き情報と、条件情報９とに基づいて、ペット状況を推定している。しかし、推定部３４は、条件情報９の代わりに、姿勢情報と、動き情報と、ペットの特定の行動及び感情の少なくとも一方について機械学習した学習済みモデル（分類器）とを用いて、ペット状況が推定されてもよい。分類器は、姿勢情報、及び動き情報が入力されることで、姿勢情報及び動き情報を、ペットの特定の行動及び感情の少なくとも一方に分類する。

　基本例では、複数の画像フレームＦ０内における被写体Ｈ１としての犬（ペット５）の数が１匹であった。しかし、当然ながら、複数の画像フレームＦ０内における被写体Ｈ１としての犬（ペット５）の数が２匹以上（例えば親犬と子犬の２匹）の場合もあり得る。ペット状況推定システム１は、画像フレームＦ０内において、複数の特定領域Ａ１を検出した場合には、各特定領域Ａ１について姿勢情報と、動き情報とを生成し、ペット状況を推定する。

　基本例における第１モデルＭ１～第３モデルＭ３の少なくとも一部は、強化学習により機械学習されてもよい。この場合、上記一部のモデルは、強化学習のための処理負荷を考慮すると、ペットカメラ１００の外部（例えばサーバ７等の外部サーバ）に設けられることが好ましい。

　（４）まとめ
　以上説明したように、第１の態様に係るペット状況推定システム（１，１Ａ）は、フレーム抽出部（３１）と、領域検出部（３２）と、姿勢判定部（３３１）と、動き検出部（３３０）と、推定部（３４）と、を備える。フレーム抽出部（３１）は、動画データ（Ｇ１）から、各々が被写体（Ｈ１）としてペット（５）が存在し得る静止画であり時間軸の方向（Ｙ１）に並ぶ複数の画像フレーム（Ｆ０）を抽出する。領域検出部（３２）は、複数の画像フレーム（Ｆ０）において、ペット（５）の容姿の少なくとも一部を示す特定領域（Ａ１）を検出する。姿勢判定部（３３１）は、学習済みモデル（第１モデルＭ１）と、複数の画像フレーム（Ｆ０）のうち少なくとも１つの画像フレーム（Ｆ０）とに基づいて、ペット（５）の姿勢を判定する。学習済みモデル（第１モデルＭ１）は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。動き検出部（３３０）は、時間軸の方向（Ｙ１）に並ぶ複数の特定領域（Ａ１）における画素値の変化に基づき、ペット（５）の全身又は一部の動きに対応する１又は複数の画素領域（Ｐｘ１）を検出する。推定部（３４）は、姿勢判定部（３３１）の判定結果と、動き検出部（３３０）の検出結果とに基づいて、動画データ（Ｇ１）内に写るペット（５）の感情及び行動の少なくとも一方に関するペット状況を推定する。第１の態様によれば、推定部（３４）は、ペット（５）の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット（５）の状況を把握しやすくすることができる。

　第２の態様に係るペット状況推定システム（１，１Ａ）に関して、第１の態様において、推定部（３４）は、姿勢判定部（３３１）の判定結果と、動き検出部（３３０）の検出結果と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報（９）とに基づいて、ペット状況を推定する。第２の態様によれば、推定部（３４）が、例えば、機械学習された学習済みモデルを用いて、ペット状況を推定する場合に比べて、ペット状況推定システム（１，１Ａ）を簡単な構成で実現可能である。

　第３の態様に係るペット状況推定システム（１，１Ａ）に関して、第１又は第２の態様において、動き検出部（３３０）は、１又は複数の画素領域（Ｐｘ１）に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量とを比較することで、複数の特定領域（Ａ１）における動きが、所定部位の動きであると推定する。第３の態様によれば、動きの検出に関する信頼性が向上され、結果的に、ペット（５）の状況に関する推定の信頼性を向上できる。

　第４の態様に係るペット状況推定システム（１，１Ａ）に関して、第３の態様において、所定部位は、ペットの尻尾である。第４の態様によれば、ペット（５）の状況に関する推定の信頼性がさらに向上される。

　第５の態様に係るペット状況推定システム（１，１Ａ）に関して、第１～第４の態様のいずれか１つにおいて、領域検出部（３２）は、学習済みモデル（第２モデルＭ２）に基づいて、特定領域（Ａ１）を検出する。学習済みモデル（第２モデルＭ２）は、所定の種類のペットについて画像認識するためにその外観要因を学習したものである。第５の態様によれば、特定領域（Ａ１）の検出に関する信頼性が向上され、結果的に、ペット（５）の状況に関する推定の信頼性を向上できる。

　第６の態様に係るペット状況推定システム（１，１Ａ）に関して、第１～第５の態様のいずれか１つにおいて、動き検出部（３３０）は、複数の画像フレーム（Ｆ０）の、時間軸の方向（Ｙ１）に並ぶ複数の特定領域（Ａ１）において、被写体（Ｈ１）の頭部（５０）を示す頭部領域（Ａ２）以外の領域における画素値の変化から、ペット（５）の全身又は一部の動きに対応する１又は複数の画素領域（Ｐｘ１）を検出する。第６の態様によれば、動きの検出に関する信頼性が向上され、結果的に、ペット（５）の状況に関する推定の信頼性を向上できる。

　第７の態様に係るペット状況推定システム（１，１Ａ）に関して、第１～第６の態様のいずれか１つにおいて、領域検出部（３２）は、学習済みモデル（第３モデルＭ３）に基づいて、被写体（Ｈ１）の頭部（５０）を示す頭部領域（Ａ２）を検出する。学習済みモデル（第３モデルＭ３）は、所定の種類のペット（５）の頭部（５０）について画像認識するためにその外観要因を学習したものである。第７の態様によれば、頭部領域（Ａ２）の検出に関する信頼性が向上され、結果的に、ペット（５）の状況に関する推定の信頼性を向上できる。

　第８の態様に係るペット状況推定システム（１，１Ａ）は、第１～第７の態様のいずれか１つにおいて、記憶部（３７）を更に備える。記憶部（３７）は、推定部（３４）の推定結果と、上記推定結果の基となった複数の画像フレーム（Ｆ０）のうち少なくとも１つの画像フレーム（Ｆ０）が撮像された撮像時間とを紐づけたイベント情報を記憶する。第８の態様によれば、ペット（５）の状況をより把握しやすくすることができる。

　第９の態様に係るペット状況推定システム（１，１Ａ）は、第８の態様において、ダイジェスト作成部（３８）を更に備える。ダイジェスト作成部（３８）は、記憶部（３７）に記憶される１又は複数のイベント情報に基づいて、動画データ（Ｇ１）に関するダイジェスト情報を作成する。第９の態様によれば、ダイジェスト情報を通じてより簡単にペット（５）の状況を把握できる。

　第１０の態様に係るペット状況推定システム（１，１Ａ）に関して、第１～第９の態様のいずれか１つにおいて、領域検出部（３２）は、姿勢判定部（３３１）を含み、複数の画像フレーム（Ｆ０）において、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル（第１モデルＭ１）に基づいて、特定の姿勢を取っているペット（５）の特定領域（Ａ１）を検出する。第１０の態様によれば、ペット（５）の状況をより把握しやすくすることができる。

　第１１の態様に係るペットカメラ（１００）は、第１～第１０の態様のいずれか１つにおけるペット状況推定システム（１，１Ａ）と、動画データ（Ｇ１）を撮像する撮像部（２）と、を備える。第１１の態様によれば、ペット（５）の状況を把握しやすくすることが可能なペットカメラ（１００）を提供できる。

　第１２の態様に係るサーバ（７）は、第１～第１０の態様のいずれか１つにおけるペット状況推定システム（１，１Ａ）における姿勢判定部（３３１）、動き検出部（３３０）、及び推定部（３４）が設けられたペットカメラ（１００）と通信可能である。サーバ（７）には、フレーム抽出部（３１）及び領域検出部（３２）が設けられている。第１２の態様によれば、ペット（５）の状況を把握しやすくすることが可能なサーバ（７）を提供できる。

　第１３の態様に係るサーバ（７）は、第１～第１０の態様のいずれか１つにおけるペット状況推定システム（１，１Ａ）におけるフレーム抽出部（３１）及び領域検出部（３２）が設けられたペットカメラ（１００）と通信可能である。サーバ（７）には、姿勢判定部（３３１）、動き検出部（３３０）、及び推定部（３４）が設けられている。第１３の態様によれば、ペット（５）の状況を把握しやすくすることが可能なサーバ（７）を提供できる。

　第１４の態様に係るペット状況推定方法は、フレーム抽出ステップと、ペット検出ステップと、姿勢判定ステップと、動き検出ステップと、推定ステップと、を含む。フレーム抽出ステップでは、動画データ（Ｇ１）から、各々が被写体（Ｈ１）としてペット（５）が存在し得る静止画であり時間軸の方向（Ｙ１）に並ぶ複数の画像フレーム（Ｆ０）を抽出する。ペット検出ステップでは、複数の画像フレーム（Ｆ０）において、ペット（５）の容姿の少なくとも一部を示す特定領域（Ａ１）を検出する。姿勢判定ステップでは、学習済みモデル（第１モデルＭ１）と、複数の画像フレーム（Ｆ０）のうち少なくとも１つの画像フレーム（Ｆ０）とに基づいて、ペット（５）の姿勢を判定する。学習済みモデル（第１モデルＭ１）は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。動き検出ステップでは、時間軸の方向（Ｙ１）に並ぶ複数の特定領域（Ａ１）における画素値の変化に基づき、ペット（５）の全身又は一部の動きに対応する１又は複数の画素領域（Ｐｘ１）を検出する。推定ステップでは、姿勢判定ステップの判定結果と、動き検出ステップの検出結果とに基づいて、動画データ（Ｇ１）内に写るペット（５）の感情及び行動の少なくとも一方に関するペット状況を推定する。第１４の態様によれば、ペット（５）の状況を把握しやすくすることが可能なペット状況推定方法を提供できる。

　第１５の態様に係るプログラムは、１以上のプロセッサに、第１４の態様におけるペット状況推定方法を実行させるためのプログラムである。第１５の態様によれば、ペット（５）の状況を把握しやすくすることが可能な機能を提供できる。

　第２～１０の態様に係る構成については、ペット状況推定システム（１，１Ａ）に必須の構成ではなく、適宜省略可能である。

　１００　ペットカメラ
　１，１Ａ　ペット状況推定システム
　２　撮像部
　３１　フレーム抽出部
　３２　領域検出部
　３３０　動き検出部
　３３１　姿勢判定部
　３４　推定部
　３７　記憶部
　３８　ダイジェスト作成部
　５　ペット
　５０　頭部
　７　サーバ
　９　条件情報
　Ａ１　特定領域
　Ａ２　頭部領域
　Ｆ０　画像フレーム
　Ｇ１　動画データ
　Ｈ１　被写体
　Ｍ１～Ｍ３　第１モデル～第３モデル（学習済みモデル）
　Ｐｘ１　画素領域
　Ｒ１　基準領域
　Ｙ１　時間軸の方向

Claims

　動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出するフレーム抽出部と、
　前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出する領域検出部と、
　ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも１つの画像フレームとに基づいて、前記ペットの姿勢を判定する姿勢判定部と、
　前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する１又は複数の画素領域を検出する動き検出部と、
　前記姿勢判定部の判定結果と、前記動き検出部の検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定部と、
を備える、
　ペット状況推定システム。
　前記推定部は、前記姿勢判定部の判定結果と、前記動き検出部の検出結果と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定する、
　請求項１に記載のペット状況推定システム。
　前記動き検出部は、前記１又は複数の画素領域に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量とを比較することで、複数の前記特定領域における前記動きが、前記所定部位の動きであると推定する、
　請求項１又は２に記載のペット状況推定システム。
　前記所定部位は、ペットの尻尾である、
　請求項３に記載のペット状況推定システム。
　前記領域検出部は、所定の種類のペットについて画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記特定領域を検出する、
　請求項１～４のいずれか１項に記載のペット状況推定システム。
　前記動き検出部は、前記複数の画像フレームの、前記時間軸の方向に並ぶ複数の前記特定領域において、前記被写体の頭部を示す頭部領域以外の領域における画素値の変化から、前記ペットの全身又は一部の動きに対応する前記１又は複数の画素領域を検出する、
　請求項１～５のいずれか１項に記載のペット状況推定システム。
　前記領域検出部は、所定の種類のペットの頭部について画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記被写体の頭部を示す頭部領域を検出する、
　請求項１～６のいずれか１項に記載のペット状況推定システム。
　前記推定部の推定結果と、前記推定結果の基となった前記複数の画像フレームのうち少なくとも１つの画像フレームが撮像された撮像時間とを紐づけたイベント情報を記憶する記憶部を更に備える、
　請求項１～７のいずれか１項に記載のペット状況推定システム。
　前記記憶部に記憶される１又は複数の前記イベント情報に基づいて、前記動画データに関するダイジェスト情報を作成するダイジェスト作成部を更に備える、
　請求項８に記載のペット状況推定システム。
　前記領域検出部は、前記姿勢判定部を含み、前記複数の画像フレームにおいて、ペットの姿勢について画像認識するためにペットの姿勢について学習した前記学習済みモデルに基づいて、特定の姿勢を取っている前記ペットの前記特定領域を検出する、
　請求項１～９のいずれか１項に記載のペット状況推定システム。
　請求項１～１０のいずれか１項に記載のペット状況推定システムと、
　前記動画データを撮像する撮像部と、
を備える、
　ペットカメラ。
　請求項１～１０のいずれか１項に記載のペット状況推定システムにおける前記姿勢判定部、前記動き検出部及び前記推定部が設けられたペットカメラと通信可能なサーバであって、
　前記フレーム抽出部、及び前記領域検出部が設けられている、
　サーバ。
　請求項１～１０のいずれか１項に記載のペット状況推定システムにおける前記フレーム抽出部、及び前記領域検出部が設けられたペットカメラと通信可能なサーバであって、
　前記姿勢判定部、前記動き検出部及び前記推定部が設けられている、
　サーバ。
　動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出するフレーム抽出ステップと、
　前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出するペット検出ステップと、
　ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも１つの画像フレームとに基づいて、前記ペットの姿勢を判定する姿勢判定ステップと、
　前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する１又は複数の画素領域を検出する動き検出ステップと、
　前記姿勢判定ステップの判定結果と、前記動き検出ステップの検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定ステップと、
を含む、
　ペット状況推定方法。
　１以上のプロセッサに、請求項１４に記載のペット状況推定方法を実行させるためのプログラム。