WO2022050093A1

WO2022050093A1 - ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム

Info

Publication number: WO2022050093A1
Application number: PCT/JP2021/030654
Authority: WO
Inventors: 友香中村; 宏彰大眉; 靖上坂; 真史佐藤
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2020-09-01
Filing date: 2021-08-20
Publication date: 2022-03-10
Also published as: CN115885313A; JP7479019B2; JPWO2022050093A1; US20230320328A1

Abstract

本発明の課題は、ペットの状況を把握しやすくすることである。ペット状況推定システム（１）は、領域検出部（３２）と、情報生成部（３３）と、推定部（３４）と、を備える。領域検出部（３２）は、画像データにおいて、被写体であるペットの容姿の少なくとも一部を示す特定領域を検出する。情報生成部（３３）は、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、画像データとに基づく姿勢情報を含む。推定部（３４）は、ペット情報に基づいて、ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

Description

ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム

　本開示は、一般に、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。本開示は、より詳細には、画像データ内の被写体としてのペットに関するペット状況推定システム、ペット状況推定システムを備えるペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。

　特許文献１には、画像から動物と人物とをそれぞれ認識し、検出する検出装置が開示されている。この検出装置は、画像から動物を検出する動物検出部と、上記画像から人物を検出する人物検出部とを備えている。また検出装置は、動物かつ人物が検出された場合に、目的の物体が検出されたことを示す情報を検出結果として出力する検出結果出力部を更に備えている。

　この検出装置においては、動物検出部は、動物特徴量記憶部に記憶されている動物の特徴を反映した特徴量データに基づいて、入力された画像を走査する。動物検出部２１は、動物の特徴量データと合致する、あるいは、類似度が高い領域を特定できた場合には、上記領域に写っている物体を、動物として検出する。

　ところで、利用者（例えばペットの飼い主等）は、画像データ内に写るペット（動物）の状況について具体的に知りたい、或いは画像データ内に写るペットが、ある特定の状況にある場合に、その旨の通知を受けたいといった要望がある。

特開２０１３－６５１１０号公報

　本開示は上記事由に鑑みてなされ、ペットの状況を把握しやすくすることができる、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムを提供することを目的とする。

　本開示の一態様のペット状況推定システムは、領域検出部と、情報生成部と、推定部と、を備える。前記領域検出部は、画像データにおいて、被写体であるペットの容姿の少なくとも一部を示す特定領域を検出する。前記情報生成部は、ペット情報を生成する。前記ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含む。前記推定部は、前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

　本開示の一態様のペットカメラは、上記のペット状況推定システムと、前記画像データを撮像する撮像部と、を備える。

　本開示の一態様のサーバは、上記のペット状況推定システムにおける前記情報生成部及び前記推定部が設けられたペットカメラと通信可能である。前記サーバには、前記領域検出部が設けられている。

　本開示の一態様のサーバは、上記のペット状況推定システムにおける前記領域検出部が設けられたペットカメラと通信可能である。前記サーバには、前記情報生成部及び前記推定部が設けられている。

　本開示の一態様のペット状況推定方法は、ペット検出ステップと、情報生成ステップと、推定ステップと、を含む。前記ペット検出ステップにて、画像データにおいて、被写体としてのペットの容姿の少なくとも一部を示す特定領域を検出する。前記情報生成ステップにて、ペット情報を生成する。前記ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含む。前記推定ステップにて、前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

　本開示の一態様のプログラムは、１以上のプロセッサに、上記のペット状況推定方法を実行させるためのプログラムである。

図１Ａは、一実施形態に係るペット状況推定システムが適用されたペットカメラの概略構成図である。図１Ｂは、同上のペットカメラと通信する提示装置の概略構成図である。図２は、同上のペット状況推定システムを備えるペット管理システムの全体構成の概念図である。図３Ａ～図３Ｃは、同上のペット状況推定システムにて推定処理の対象となる画像データの一例である。図４Ａ～図４Ｃは、同上のペット状況推定システムにて推定処理の対象となる画像データの別の例である。図５Ａ～図５Ｃは、同上のペット状況推定システムにて推定処理の対象となる画像データのさらに別の例である。図６は、同上のペット状況推定システムにて推定処理の対象となる画像データのさらに別の例である。図７Ａ及び図７Ｂは、同上のペット状況推定システムによる推定結果が画面上にて提示されている提示装置の概念図である。図８は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。図９は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。図１０は、同上のペット状況推定システムの変形例が適用されたペットカメラの概略構成図である。

　（１）概要
　以下の実施形態において説明する各図は、模式的な図であり、各図中の各構成要素の大きさ及び厚さそれぞれの比が、必ずしも実際の寸法比を反映しているとは限らない。

　本実施形態の一の形態に係るペット状況推定システム１は、図１Ａに示すように、領域検出部３２と、情報生成部３３と、推定部３４と、を備えている。ペット状況推定システム１は、１以上のプロセッサ及び１以上のメモリを有するコンピュータシステムを主構成とする。ここでは一例として、ペット状況推定システム１の構成要素（領域検出部３２、情報生成部３３、及び推定部３４等）は全て、ペットカメラ１００の一の筐体内に集約して設けられているものとして説明する。しかし、本開示におけるペット状況推定システム１の構成要素は分散して設けられてもよく、例えばペット状況推定システム１の構成要素の少なくとも一部が、ペットカメラ１００の外部（例えばサーバ７等の外部サーバ）に設けられてもよい。例えば、ペットカメラ１００に、情報生成部３３及び推定部３４が設けられて、ペットカメラ１００と通信可能なサーバ７に、領域検出部３２が設けられてもよい。或いは、ペットカメラ１００に、領域検出部３２が設けられて、ペットカメラ１００と通信可能なサーバ７に、情報生成部３３及び推定部３４が設けられてもよい。ここでいう「サーバ」は、１台の外部装置（利用者３００の宅内に設置される装置でもよい）から構成されてもよいし、複数の外部装置から構成されてもよい。

　領域検出部３２は、画像データＤ１（図３Ａ～図６）において、被写体Ｈ１であるペット５の容姿の少なくとも一部を示す特定領域Ａ１を検出する。ここでは、画像データＤ１は、ペットカメラ１００の撮像部２（図１Ａ参照）で撮像（生成）された画像（データ）である。画像データＤ１は、静止画像、又は動画像中の１コマ（フレーム）の画像でもよい。また画像データＤ１は、撮像部２で撮像された画像の一部を加工したものでもよい。以下の説明では、ペット状況推定システム１の推定対象とする「ペット」の種類が、犬（動物）である場合を想定する。「ペット」の種類は、特に限定されず、猫でもよいし、その他の動物でもよい。

　また以下では、画像データＤ１に写っている（着目する）「犬（ペット）」については符号「５」を付与して説明し、不特定多数の「犬（ペット）」については符号を付けずに説明する場合もある。

　ここで特定領域Ａ１は、図３Ａ～図６に示すように、画像データＤ１内において矩形の枠状で囲まれた領域であり、被写体Ｈ１のペット５を囲む「バウンディングボックス」で示される。画像データＤ１内でのペット５の位置は、例えば、バウンディングボックスにおける左上隅のＸ軸座標、Ｙ軸座標、バウンディングボックスの横幅、及びバウンディングボックスの高さ等によって定義される。しかし、特定領域Ａ１は、バウンディングボックスで示されることに限定されず、例えば、画素単位で被写体Ｈ１と背景とを区別するセグメンテーションで示されてもよい。本開示における画像データＤ１内でのペット５、ペット５以外の特定物体６の位置を特定するための「Ｘ－Ｙ座標」は、一例として画素単位で規定されているものとする。

　情報生成部３３は、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル（以下、「第１モデルＭ１」と呼ぶことがある）と、画像データＤ１とに基づくペット５の少なくとも姿勢に関する姿勢情報を含む。第１モデルＭ１は、機械学習により生成されたモデルであり、ペットカメラ１００のモデル格納部Ｐ１（図１Ａ参照）に格納されている。

　本実施形態では、領域検出部３２と情報生成部３３とが、画像データＤ１から犬（ペット５）を検出するペット検出部Ｘ１（図１Ａ参照）を構成する。ただし、情報生成部３３の機能の少なくとも一部が、ペット検出部Ｘ１の外部に設けられてもよい。

　推定部３４は、ペット情報に基づいて、特定領域Ａ１に示されるペット５の感情及び行動の少なくとも一方に関するペット状況を推定する。本実施形態では一例として、推定部３４は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報９（図１Ａ参照）とに基づいて、ペット状況を推定する。条件情報９は、ペットカメラ１００の条件格納部Ｐ２（図１Ａ参照）に格納されている。

　この構成によれば、推定部３４は、ペット情報に基づいて、ペット５の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット５の状況を把握しやすくすることができる。

　また本実施形態の別の形態に係るペット状況推定方法は、ペット検出ステップと、情報生成ステップと、推定ステップと、を含む。ペット検出ステップにて、画像データＤ１において、被写体Ｈ１としてのペット５の容姿の少なくとも一部を示す特定領域Ａ１を検出する。情報生成ステップにて、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルＭ１と、画像データＤ１とに基づくペット５の少なくとも姿勢に関する姿勢情報を含む。推定ステップにて、ペット情報に基づいて、特定領域Ａ１に示されるペット５の感情及び行動の少なくとも一方に関するペット状況を推定する。

　この構成によれば、推定ステップにて、ペット情報に基づいて、ペット５の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット５の状況を把握しやすくすることができる。

　ペット状況推定方法は、コンピュータシステム（ペット状況推定システム１）上で用いられる。つまり、ペット状況推定方法は、プログラムでも具現化可能である。本実施形態に係るプログラムは、本実施形態に係るペット状況推定方法を、１以上のプロセッサに実行させるためのプログラムである。

　（２）詳細
　以下、本実施形態に係るペット状況推定システム１が適用されたシステム（以下、「ペット管理システム２００」と呼ぶ）について、図１Ａ～図９を参照しながら詳しく説明する。

　（２．１）全体構成
　ペット管理システム２００は、図２に示すように、１又は複数台のペットカメラ１００と、１又は複数台の提示装置４と、サーバ７と、を備えている。以下では、ペット管理システム２００を利用して、ペット５の管理（見守り）支援のサービスを受ける、ある一人の利用者３００（図２参照）に着目して説明する。利用者３００は、例えば、ペット５の飼い主であるが、特に限定されない。

　利用者３００は、１又は複数台のペットカメラ１００を、施設（例えばペット５と一緒に住む住居）の所定の位置に設置する。利用者３００は、ペットカメラ１００を複数台設置する場合、住居内の各部屋に１台ずつ設置してもよい。ペットカメラ１００は、屋内に設置されることに限定されず、屋外に設置されてもよい。以下では、説明の便宜上、１台のペットカメラ１００に着目して説明する。

　提示装置４は、例えば、利用者３００が所有する情報端末であることを想定する。情報端末は、一例としてスマートフォン又はタブレット端末等の携帯型の情報端末を想定する。しかし、提示装置４は、ノートパソコン、又は据置型のパソコンでもよい。

　提示装置４は、図１Ｂに示すように、通信部４１と、処理部４２と、表示部４３とを有している。

　通信部４１は、ペットカメラ１００（図２参照）及びサーバ７（図２参照）の各々と互いに通信可能とするための通信インタフェースである。通信部４１は、ペットカメラ１００及びサーバ７のうちいずれか一方のみと通信可能であってもよい。

　処理部４２は、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、１以上のプロセッサが１以上のメモリに記憶された１以上のプログラム（アプリケーション）を実行することで、処理部４２として機能する。プログラムは、ここでは処理部４２のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。利用者３００は、見守りの対象となるペット５に関するＧＵＩ（Graphical User Interface）を提示するための専用のアプリケーションソフト（以下では「ペットアプリ」と呼ぶ）をインストールし、このペットアプリを起動することにより提示装置４として機能する。

　表示部４３は、タッチパネル式の液晶ディスプレイ又は有機ＥＬ（Electro-Luminescence）ディスプレイを構成する。提示装置４がペットアプリを実行することで、表示部４３にはペット５に関する情報を提示する画面が表示（出力）される。

　ところで、ペット５と一緒に住む住人（家族）が複数である場合、複数の住人が、利用者３００としてペット５の管理支援のサービスを受ける場合、ペット管理システム２００は、複数の住人（複数の利用者３００）がそれぞれ携帯する複数台の提示装置４を備えることになる。以下では、説明の便宜上、ある一人の利用者３００（住人）が携帯する１台の提示装置４（スマートフォン）に着目して説明する。

　ペットカメラ１００は、例えば、ペット見守り用の撮像機能を有した装置である。言い換えると、ペットカメラ１００は、図１Ａに示すように、撮像部２（カメラ装置）を備えている。利用者３００は、飼っているペット５が居住内（居住外でもよい）で、主に活動し得る場（例えばエサが置かれている場所）となっている領域が撮像部２の視野角内に収まるように、ペットカメラ１００を設置する。利用者３００は、撮像部２で撮像された画像を通じて、例えば外出中であっても、ペット５の状況を見守ることができる。

　上述の通り、ここでは一例として、ペットの種類は犬であることを想定する。図３Ａ～図６では、複数の犬種のペット５を示す画像データＤ１が例示されているが、これらの図面は、ペット状況推定システム１を説明するために、犬の「姿勢の種類」を例示しているにすぎず、犬種は特に限定されない。ペット状況推定システム１は、例えば犬の「姿勢」について犬種を問わずに、ある程度共通して認識するように構成されるが、犬種によって個別に姿勢を認識してもよい。

　ペットカメラ１００は、図１Ａに示すように、撮像部２に加えて通信部１１を更に備えている。通信部１１は、提示装置４（図２参照）及びサーバ７（図２参照）の各々と互いに通信可能とするための通信インタフェースである。通信部１１は、提示装置４と、例えばＢＬＥ（Bluetooth（登録商標） Low Energy）の規格に準拠した近距離無線通信を行う機能を有してもよい。提示装置４を携帯する利用者３００（図２参照）が宅内に居る場合、通信部１１は、提示装置４と直接、近距離無線通信することでデータの授受を行ってもよい。

　また通信部１１は、宅内に設置されたルータ等を介して、インターネット等のネットワークＮＴ１（図２参照）に接続されている。ペットカメラ１００は、ネットワークＮＴ１を介して外部のサーバ７と通信を行い、サーバ７から情報を取得したりサーバ７へ情報を出力したりすることが可能である。

　図２に示す提示装置４は、通信事業者が提供する携帯電話網（キャリア網）又は公衆無線ＬＡＮ（Local Area Network）等を介してネットワークＮＴ１に接続されてもよい。携帯電話網には、例えば、３Ｇ（第３世代）回線、ＬＴＥ（Long Term Evolution）回線、４Ｇ（第４世代）回線又は５Ｇ（第５世代）回線等がある。提示装置４は、携帯電話網に接続可能な環境であれば、携帯電話網を介してネットワークＮＴ１に接続可能となる。例えば、提示装置４を携帯する利用者３００が宅外に居る場合、携帯電話網等を介してネットワークＮＴ１に接続されることで、ペットカメラ１００及びサーバ７の各々と通信可能となる。

　また提示装置４及びペットカメラ１００間の通信は、ネットワークＮＴ１及びサーバ７を介して行われてもよい。

　ここで上述の通り、ペット状況推定システム１は、図１Ａに示すように、ペットカメラ１００に設けられている。具体的には、ペットカメラ１００は、図１Ａに示すように、処理部３、モデル格納部Ｐ１及び条件格納部Ｐ２を更に備えていて、これらがペット状況推定システム１を構成する。なお、ペット状況推定システム１の詳細については、次の欄で説明する。

　サーバ７は、図２に示すように、ネットワークＮＴ１に接続されている。サーバ７は、ネットワークＮＴ１を介して、ペットカメラ１００及び提示装置４の各々と通信可能である。サーバ７は、例えば、利用者情報（氏名、利用者ＩＤ、電話番号、メールアドレス等）、利用者３００が所有するペットカメラ１００及び提示装置４の情報（識別情報等）、及び利用者３００が飼っているペット５（犬種情報等）の情報を管理する。またサーバ７は、複数のペットカメラ１００で撮像された種々の画像データ、及び処理結果（特に処理エラー等）を収集し蓄積する。利用者３００は、提示装置４を通じてサーバ７にアクセスすることで、ペットアプリのダウンロードが行えてもよい。

　サーバ７は、１台のサーバ装置から構成されることを想定するが、複数台のサーバ装置から構成されてもよいし、そのようなサーバ装置が、例えばクラウド（クラウドコンピューティング）を構築してもよい。またペット状況推定システム１の少なくとも一部の機能が、サーバ７内に設けられてもよい。

　（２．２）ペット状況推定システム
　ペットカメラ１００は、図１Ａに示すように、撮像部２及び通信部１１に加えて、上述の通り、ペット状況推定システム１として、処理部３、モデル格納部Ｐ１及び条件格納部Ｐ２を備えている。ペット状況推定システム１は、ペット状況を推定するための「推定処理」を実行する。

　モデル格納部Ｐ１は、複数の学習済みモデルを含むデータを格納可能に構成される。モデル格納部Ｐ１は、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）のような書き換え可能な不揮発性メモリを含む。また条件格納部Ｐ２は、条件情報９を含むデータを格納可能に構成される。条件格納部Ｐ２は、ＥＥＰＲＯＭのような書き換え可能な不揮発性メモリを含む。モデル格納部Ｐ１、条件格納部Ｐ２は、同一の格納部（メモリ）から構成されてもよい。またモデル格納部Ｐ１、条件格納部Ｐ２は、処理部３の内蔵メモリであってもよい。

　処理部３は、例えば、１以上のプロセッサ（マイクロプロセッサ）と１以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、１以上のプロセッサが１以上のメモリに記憶された１以上のプログラム（アプリケーション）を実行することで、処理部３の後述する各部として機能する。プログラムは、ここでは処理部３のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。

　処理部３は、ペットカメラ１００の全体的な制御、すなわち、撮像部２、通信部１１、モデル格納部Ｐ１及び条件格納部Ｐ２等を制御する制御部としての機能を有する。

　ここで処理部３は、図１Ａに示すように、取得部３１と、領域検出部３２と、情報生成部３３と、推定部３４と、出力部３５と、物体検出部３６と、を有している。本実施形態では、上述の通り、領域検出部３２と情報生成部３３とが、画像データＤ１から犬（ペット５）を検出するペット検出部Ｘ１を構成する。

　取得部３１は、撮像部２から画像データＤ１（例えば静止画像）を取得するように構成されている。取得部３１は、撮像部２から動画像の中の１コマ（フレーム）の画像を、画像データＤ１として取得してもよい。取得部３１が画像データＤ１を取得すると、処理部３は、推定処理を実行する。

　ペット検出部Ｘ１の領域検出部３２は、画像データＤ１において、被写体Ｈ１であるペット５の容姿の少なくとも一部を示す特定領域Ａ１を検出するように構成される。本実施形態では、領域検出部３２は、学習済みモデル（以下、「第２モデルＭ２」と呼ぶことがある）に基づいて、特定領域Ａ１を検出する。第２モデルＭ２は、所定の種類のペット（ここでは「犬」）について画像認識するためにその外観要因（特徴量）を（機械）学習したものである。第２モデルＭ２は、モデル格納部Ｐ１に格納されている。

　第２モデルＭ２は、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。ニューラルネットワーク（多層ニューラルネットワークを含む）は、例えばＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）、又はＢＮＮ（Bayesian Neural Network：ベイズニューラルネットワーク）等を含み得る。第２モデルＭ２は、ＡＳＩＣ（Application Specific Integrated Circuit）又はＦＰＧＡ（Field-Programmable Gate Array）等の集積回路に、学習済みのニューラルネットワークを実装することで実現されている。第２モデルＭ２は、ディープラーニングにより生成されるモデルに限定されない。第２モデルＭ２は、サポートベクターマシン、又は決定木等により生成されるモデルでもよい。

　要するに、領域検出部３２は、第２モデルＭ２を用いて、取得した画像データＤ１内に犬（ペット５）が被写体Ｈ１として存在するか否かを推定する。領域検出部３２は、画像データＤ１内に犬（ペット５）が存在すると推定すると、ペット５を囲むバウンディングボックスで定義された特定領域Ａ１（図３Ａ～図６参照）を検出する。特定領域Ａ１は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。

　領域検出部３２は、学習済みモデル（以下、「第３モデルＭ３」と呼ぶことがある）に基づいて、被写体Ｈ１の頭部５０（図２参照）を示す頭部領域Ａ２（図３Ａ～図６参照）を検出する。第３モデルＭ３は、所定の種類のペット（ここでは「犬」）の頭部について画像認識するためにその外観要因（特徴量）を学習したものである。つまり、領域検出部３２は、第３モデルＭ３を用いて、顔の部分を含む頭部領域Ａ２を検出する頭部検出部としての機能を更に有している。ただし、領域検出部３２と頭部検出部とは、別々に設けられてもよい。第３モデルＭ３は、モデル格納部Ｐ１に格納されている。

　第３モデルＭ３は、第２モデルＭ２と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。第３モデルＭ３は、ディープラーニングにより生成されるモデルに限定されない。また第３モデルＭ３は、第２モデルＭ２と同一モデルから構成されてもよい。

　領域検出部３２は、第３モデルＭ３を用いて、画像データＤ１内に、犬（ペット５）の頭部５０が存在するか否かを推定する。領域検出部３２は、画像データＤ１内に、犬（ペット５）の頭部５０が存在すると推定すると、頭部５０を囲むバウンディングボックスで定義された頭部領域Ａ２（図３Ａ～図６参照）を検出する。頭部領域Ａ２は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。

　ところで、画像データＤ１が、犬（ペット５）の容姿の一部（例えば顔）がアップになった画像の場合、特定領域Ａ１の検出と頭部領域Ａ２の検出のいずれかの検出について失敗（誤検出）する可能性がある。具体的には、犬（ペット５）の顔がアップになった画像データＤ１は、「犬の顔」のアノテーションに近いことから、領域検出部３２は、「犬の顔（頭部５０）」として頭部領域Ａ２を検出できても、「犬（容姿全体）」のアノテーションから外れ得る。その結果、「犬」として特定領域Ａ１の検出に失敗する可能性がある。本実施形態では、領域検出部３２は、「犬」及び「犬の顔」の少なくとも一方を検出すれば、取得した画像データＤ１内に、犬（ペット５）が存在すると推定する。もし頭部領域Ａ２のみを検出した場合には、領域検出部３２は、頭部領域Ａ２と略等しい領域を、特定領域Ａ１に設定する。なお、もし特定領域Ａ１を検出したにも関わらず頭部領域Ａ２の検出に失敗した場合には、処理部３は、その画像データＤ１に関する推定処理を終了してもよい。

　ペット検出部Ｘ１の情報生成部３３は、ペット（ここでは「犬」）の姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル（第１モデルＭ１）と、特定領域Ａ１が検出された画像データＤ１とに基づいて、ペット情報を生成する。ペット情報は、特定領域Ａ１に示されるペット５の少なくとも姿勢に関する姿勢情報を含む。

　具体的には、情報生成部３３は、姿勢判定部３３１と、向き判定部３３２と、距離判定部３３３とを有する。

　姿勢判定部３３１は、第１モデルＭ１と特定領域Ａ１に関する情報とを用いて、犬（ペット５）の姿勢を判定（推定）するように構成される。第１モデルＭ１は、犬の姿勢について画像認識するためにその外観要因（特徴量）を学習したものである。

　第１モデルＭ１は、第２モデルＭ２や第３モデルＭ３と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。第１モデルＭ１は、ディープラーニングにより生成されるモデルに限定されない。第１モデルＭ１は、第２モデルＭ２や第３モデルＭ３と同一モデルから構成されてもよい。

　ここで犬（ペット５）の姿勢について図３Ａ～図６を参照しながら説明する。図３Ａ～図６は、いずれも、ペット状況推定システム１にて推定処理の対象となり得る画像データＤ１の一例である。

　図３Ａは、ペット５が四つ足で起立した姿勢（第１姿勢）で、周囲の様子を窺がっている状態を示す画像データＤ１の一例である。

　図３Ｂは、ペット５が床に伏せている姿勢（第２姿勢）で、正面を向いて周囲の様子を窺がっている状態を示す画像データＤ１の一例である。

　図３Ｃは、図３Ｂと同様に、ペット５が第２姿勢で、やや右方向を向いて周囲の様子を窺がっている状態を示す画像データＤ１の一例である。

　図４Ａは、ペット５が前足を前方に後ろ足を後方にそれぞれ伸張した姿勢（第３姿勢）で、走っている状態を示す画像データＤ１の一例である。図４Ａでは、ペット５の尻尾は上を向いている。

　図４Ｂは、ペット５が片方の前足と片方の後ろ足は床に着いて他の足は床から離れて曲がっている姿勢（第４姿勢）で、歩いている状態を示す画像データＤ１の一例である。図４Ｂでは、ペット５の尻尾が下に垂れている。

　図４Ｃは、ペット５が寝転んでいる姿勢（第５姿勢）で、目を瞑って睡眠中の状態を示す画像データＤ１の一例である。

　図５Ａは、ペット５が後ろ足のみで起立した姿勢（第６姿勢）で、人（例えば利用者３００）に懐いている状態を示す画像データＤ１の一例である。

　図５Ｂは、ペット５が座っている姿勢（第７姿勢）で、人（例えば利用者３００）と向かい合って懐いている状態を示す画像データＤ１の一例である。

　図５Ｃは、ペット５が、片方の前足を床から離して他の足で起立している姿勢（第８姿勢）で、玩具６３（図示例ではボール）で遊んでいる状態を示す画像データＤ１の一例である。

　図６は、ペット５が頭部５０を下げながら四つ足で起立した姿勢（第９姿勢）で、食器６４内のエサを食べている状態を示す画像データＤ１の一例である。

　上記の第１姿勢～第９姿勢は、犬（ペット５）が取り得る姿勢の単なる一例であり、これらに限定されない。ただし、第１モデルＭ１は、犬の姿勢について、犬の何かしらの行動（特に何かしらの感情に関連する行動）と高い関係性を有した姿勢について機械学習して生成される。犬の姿勢の中で、より精度良く推定したい特定の姿勢については、更に細かい状態も区別できるように機械学習される。ここでいう「特定の姿勢」とは、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特に、犬の行動から読み取れる犬の感情は、例えば、「喜」、「怒」、「哀」、「楽」、「怖」、「安（リラックス）」、等であり、犬の特定の姿勢と関係性のある行動の幾つかは、これらの感情のどれかと関連し得る。

　例えばペット５が四つ足で起立した姿勢（第１姿勢）でも、歯や舌を見せているか否か、耳が立っているか垂れているかといった状態も区別して姿勢の推定を行えるように機械学習される。例えば、歯を見せている第１姿勢は「威嚇中」という行動と関係性がある。また耳が立っている第１姿勢は、周囲の様子を窺がっている「警戒中」という行動と関係性がある。また耳が垂れている第１姿勢は、「無警戒中」という行動と関係性がある。そして、「威嚇中」という行動は、「怒」という犬の感情に関連する行動として設定され得る。「警戒中」という行動は、「怖」という犬の感情に関連する行動として設定され得る。また「無警戒中」という行動は、「哀」や「安」という犬の感情に関連する行動として設定され得る。またペット５が寝ている姿勢（第５姿勢）でも、どのように寝ているのか、具体的には、背中が丸まっているか伸びているか、目を瞑っているか否か、舌を出しているか否かといった状態も区別して姿勢の推定を行えるように機械学習される。

　第１～第３モデルＭ１～Ｍ３を生成するための学習用のデータセットとして、画像データ（生データ）にタグ付けをするアノテーション作業（教師データの決定）において、多数の画像データを用いる。学習用のデータセットは、犬種、犬の色、犬の向き、犬が写っている背景等について制約なしで収集された多数の画像データから選ばれる。学習用のデータセットは、実際の犬の画像データだけでなく、犬のぬいぐるみの画像データ、及びＣＧで作成された犬の画像データも含んでもよく、これらを混ぜて機械学習を行う。

　姿勢判定部３３１で判定されたペット５の姿勢情報（判定結果、及び特定領域Ａ１に関する情報を含む）は、距離判定部３３３に出力される。

　向き判定部３３２は、特定領域Ａ１が検出された画像データＤ１を用いて、画像データＤ１におけるペット５が向いている方向を判定（推定）するように構成される。つまり、ペット情報は、向き判定部３３２の判定結果を更に含む。向き判定部３３２には、領域検出部３２から、検出された特定領域Ａ１に関する情報と頭部領域Ａ２に関する情報とが入力される。向き判定部３３２は、領域検出部３２で検出された特定領域Ａ１に関する情報のみから被写体Ｈ１であるペット５の向きを判定してもよいが、本実施形態では、特定領域Ａ１に関する情報と頭部領域Ａ２に関する情報とに基づいて、ペット５の向きを判定する。

　特に本実施形態では、向き判定部３３２は、少なくとも特定領域Ａ１に対する頭部領域Ａ２の相対的な位置関係から、ペット５が向いている方向を判定する。具体的には、向き判定部３３２は、画像データＤ１内におけるペット５の位置及びサイズに関する情報を、領域検出部３２で検出された特定領域Ａ１を通じて取得する。また向き判定部３３２は、画像データＤ１内におけるペット５の頭部５０の位置及びサイズに関する情報を、領域検出部３２で検出された頭部領域Ａ２を通じて取得する。

　例えば図３Ａの例では、向き判定部３３２は、頭部領域Ａ２が、特定領域Ａ１内の右上隅に位置していることから、ペット５が概ね右方を向いていると判定する。また図３Ｂの例では、向き判定部３３２は、頭部領域Ａ２が、特定領域Ａ１内の上部の、左右方向における中央部に位置していることから、ペット５が概ね正面を向いていると判定する。向き判定部３３２は、画像データＤ１内において、ペット５の視線先となる位置（又はその範囲）を推定して、その位置情報を判定結果として出力する。

　向き判定部３３２は、特定領域Ａ１に対する頭部領域Ａ２の相対的な位置関係だけでなく、特定領域Ａ１に対して頭部領域Ａ２が占める面積の割合、頭部領域Ａ２内における目や鼻、口の位置等も考慮してペット５の向きを判定してもよい。この場合、更に判定の信頼性が向上される。

　向き判定部３３２で判定されたペット５の向きに関する情報（判定結果）は、推定部３４に出力される。

　距離判定部３３３は、（後述する）物体領域Ｂ１に対するペット５の相対的な距離（以下、「ペット物体間距離」と呼ぶことがある）を判定（推定）するように構成される。つまり、ペット情報は、距離判定部３３３の判定結果（ペット物体間距離に関する情報）を更に含む。言い換えると、画像データＤ１には、犬（ペット５）以外の物体（特定物体６）が被写体の一部として写り込んでいる場合がある。

　図５Ａの例では、特定物体６として、人の脚６１が写り込んでいる。図５Ｂの例では、特定物体６として、床に座っている人の全体容姿６２が写り込んでいる。図５Ｃの例では、特定物体６として、犬の玩具６３が写り込んでいる。図６の例では、特定物体６として、犬のエサが入った食器６４が写り込んでいる。

　ここで物体検出部３６について説明する。物体検出部３６は、画像データＤ１においてペット５以外の特定物体６を示す物体領域Ｂ１を検出するように構成される。本実施形態では、物体検出部３６は、所定の種類の特定物体について画像認識するためにその外観要因（特徴量）を学習した学習済みモデル（以下、「第４モデルＭ４」と呼ぶことがある）に基づいて、物体領域Ｂ１を検出する。

　第４モデルＭ４は、第１モデルＭ１～第３モデルＭ３と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習（ディープラーニング）により生成されるモデルを含み得る。第４モデルＭ４は、ディープラーニングにより生成されるモデルに限定されない。また第４モデルＭ４は、第１モデルＭ１や、第２モデルＭ２、第３モデルＭ３と同一モデルから構成されてもよい。

　ここでは、第４モデルＭ４は、特定物体について、犬の何かしらの行動（特に、何かしらの感情に関連する行動）と高い関係性を有した物体について機械学習して生成される。例えば特定物体６が、人の一部（例えば脚６１）又は全部（例えば全体容姿６２）であれば、ペット５は、何かしらの感情に関連する行動を取っている可能性が高い。また特定物体６が、玩具６３又は食器６４であれば、「遊ぶ」という行動、又は「食べる」という行動を取っている可能性が高い。言い換えると、第４モデルＭ４を生成するための学習用のデータセットとしては、犬以外の物体が写っている多数の画像データのうち、特定物体として、犬が興味を示しやすい物体が写っている画像データが選ばれる。学習用のデータセットは、実際の物体の画像データだけでなく、ＣＧで作成された物体の画像データも含んでもよく、これらを混ぜて機械学習を行う。ここでは、特定物体は、犬以外の物体として定義されているため、他の種類の動物（猫等）も、犬が興味を示しやすい物体として含まれてもよい。

　物体検出部３６は、第４モデルＭ４を用いて、画像データＤ１内に特定物体６が存在するか否かを推定する。物体検出部３６は、画像データＤ１内に、特定物体６が存在すると推定すると、特定物体６を囲むバウンディングボックスで定義された物体領域Ｂ１（図５Ａ～図６参照）を検出する。物体領域Ｂ１は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。なお、物体検出部３６は、特定物体６に該当しない物体については「背景」と見なす。

　物体検出部３６は、検出された物体領域Ｂ１に関する情報（特定物体６の種類に関する情報も含む）を、距離判定部３３３に出力する。画像データＤ１内に特定物体６が存在せず、物体領域Ｂ１が検出されなかった場合、物体検出部３６は、その旨を距離判定部３３３に出力する。

　距離判定部３３３は、領域検出部３２で検出された頭部領域Ａ２に関する情報と、物体検出部３６で検出された物体領域Ｂ１に関する情報と、姿勢判定部３３１で判定されたペット５の姿勢情報とに基づいて、ペット物体間距離を判定する。

　具体的には、距離判定部３３３は、ペット物体間距離として、物体領域Ｂ１の位置（左上隅の位置、又は重心位置等）からペット５の位置までの距離に基づき、例えば三段階の距離関係のいずれに該当するかを判定する。ここでは三段階の距離関係は、第１距離状態（非常に密着した距離）、第２距離状態（比較的近い距離）、及び、第３距離状態（比較的遠い距離）とする。第１距離状態～第３距離状態は、例えば画素数に基づき区分けされている。距離関係が三段階であることは単なる一例であって、二段階でも四段階以上でもよいし、無段階（画素単位）でもよい。ここでは頭部領域Ａ２の位置（左上隅の位置又は重心位置等）を、「ペット５の位置」として規定するが、特定領域Ａ１の位置（左上隅の位置又は重心位置等）を、「ペット５の位置」として規定してもよい。

　距離判定部３３３は、さらに、物体領域Ｂ１と頭部領域Ａ２（又は特定領域Ａ１）とが互いに重なり合う度合い（面積）も考慮して、ペット物体間距離を判定することが好ましい。

　ところで、実際にはペット５が特定物体６に興味を示していない場合であっても、ペット５と特定物体６とが奥行方向で並んでいて、画像データＤ１内で重なって写っている場合がある。仮に距離判定部３３３が、画像データＤ１内における特定物体６の位置からペット５の位置までの距離だけで、ペット物体間距離を判定すると、ペット５が特定物体６に関係する行動を取っていなくても、第１距離状態と判定する可能性がある。そこで距離判定部３３３は、さらに、姿勢判定部３３１で判定されたペット５の姿勢情報も考慮して、第１～第３距離状態のいずれに該当するかを判定する。

　例えば、特定物体６が食器６４であり、食器６４の位置からペット５の位置までの距離が第１距離状態にあっても、頭部５０を下げた姿勢でなければ、距離判定部３３３は、この画像データＤ１を第３距離状態と見なしてもよい。或いは距離判定部３３３は、この画像データＤ１を外れ値と見なして推定処理を終了してもよい。

　距離判定部３３３は、ペット物体間距離に関する判定結果と、頭部領域Ａ２に関する情報と、姿勢情報とを推定部３４に出力する。

　物体検出部３６にて物体領域Ｂ１が検出されなかった場合、距離判定部３３３は、ペット物体間距離に関する判定をスキップして、頭部領域Ａ２に関する情報と、姿勢情報とを推定部３４に出力する。

　本実施形態では、ペット検出部Ｘ１は、上述した、領域検出部３２における特定領域Ａ１の検出処理と、情報生成部３３におけるペット情報を生成する生成処理とを、この順で実行する。しかし、ペット検出部Ｘ１は、検出処理と生成処理とを概ね同時に並行して実行してもよい。

　推定部３４は、ペット情報に基づいて、特定領域Ａ１に示されるペット５の感情及び行動の少なくとも一方に関するペット状況を推定するように構成される。ここでは一例として、推定部３４は、ペット情報と、条件情報９とに基づいて、ペット状況を推定する。

　ペット情報は、上述の通り、姿勢判定部３３１で判定されたペット５の姿勢に関する姿勢情報と、向き判定部３３２で判定されたペット５の向きに関する情報と、距離判定部３３３で判定されたペット物体間距離に関する情報と、を含む。

　条件情報９は、抽出対象として予め設定されたペットの特定の行動及び感情の少なくとも一方に関連する情報である。例えば、下記の表１～表４に示すような対応関係の情報（以下、「パターン」と呼ぶことがある）は、条件情報９として含まれ得る一例であり、この様なパターンが多数用意されてデータベース化されて条件格納部Ｐ２内に格納されている。

　推定部３４は、条件情報９の中に、得られたペット情報と合致する条件のパターンが存在するかをサーチする。なお、その際に、推定部３４は、ペット５の向きに関する情報と物体領域Ｂ１に関する情報とから、ペット５が特定物体６の方を向いているか否か、例えばペット５の視線上に物体領域Ｂ１が存在するか否かを推定し、その推定結果を加味して、条件情報９をサーチする。

　例えば（上記推定結果も加味して）得られたペット情報が、「第１距離状態」、「四つ足で起立し、頭部を下げている」、及び「食器の方を向いている」という３つの結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表１に示すように合致する条件のパターンが存在し、「食事中／美味しい」という「行動／感情」が紐づけされている。したがって、推定部３４は、画像データＤ１内のペット５のペット状況が「食事中／美味しい」であると推定する。

　また例えば、得られたペット情報が、「第１距離状態」、「後ろ足のみで起立」、及び「人の方を向いている」という３つの結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表２に示すように合致する条件のパターンが存在し、「懐いている／喜び」という「行動／感情」が紐づけされている。したがって、推定部３４は、画像データＤ１内のペット５のペット状況が「懐いている／喜び」であると推定する。

　また例えば、得られたペット情報が、「第３距離状態」、「四つ足で起立し、歯を見せている」、及び「人の方を向いている」という３つの結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表３に示すように合致する条件のパターンが存在し、「威嚇中／怒っている」という「行動／感情」が紐づけされている。したがって、推定部３４は、画像データＤ１内のペット５のペット状況が「威嚇中／怒っている」であると推定する。

　さらに例えば、得られたペット情報が、「第２距離状態」、「片方の前足が浮いている」、及び「玩具の方を向いている」という３つの結果を含んでいるとする。推定部３４は、条件情報９の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表４に示すように合致する条件のパターンが存在し、「遊んでいる／楽しい」という「行動／感情」が紐づけされている。したがって、推定部３４は、画像データＤ１内のペット５のペット状況が「遊んでいる／楽しい」であると推定する。

　上記の表１～表４の例では、各パターンにおいて、条件に対して行動と感情の両方が紐づけされているが、何れか一方だけが紐づけされている場合もある。また各パターンの条件の種類は、少なくとも「ペットの姿勢」に関する条件を含めば、上記３種類（物体との距離、ペットの姿勢、ペットの向き）に限定されない。例えば、頭部領域Ａ２と物体領域Ｂ１とが重なっている「面積」に関する条件が含まれてもよい。

　このように本実施形態の条件情報９は、ペット５が向いている複数の方向（食器６４、人、及び玩具６３の方向）と、複数のペット状況（食事中／美味しい、懐いている／喜び、及び、遊んでいる／楽しい）とがそれぞれ対応付けされた向き情報を含む。推定部３４は、向き判定部３３２の判定結果と向き情報とに基づいて、ペット状況を推定する。そのため、ペット５の状況に関する推定の信頼性を向上できる。

　また本実施形態における条件情報９は、複数種類の特定物体６（食器６４、人、及び玩具６３）と、ペット５及び特定物体６間の距離に関する複数の閾値（第１距離状態～第３距離状態）とがそれぞれ対応付けされた情報を含む。推定部３４は、距離判定部３３３の判定結果と複数の閾値との比較により、ペット状況を推定する。そのため、ペットの状況に関する推定の信頼性を更に向上できる。なお、距離判定部３３３で判定されたペット物体間距離が、第１距離状態～第３距離状態ではなく、ペット５と特定物体６との間の距離が、数値化された情報（例えば画素数に対応する数値）であれば、複数の閾値も数値化された情報でもよい。

　特に、推定部３４は、物体検出部３６にて検出された物体領域Ｂ１に示される特定物体６が食器６４であり、かつ、距離判定部３３３にて判定された距離が所定の閾値以下の場合、ペット状況として、ペット５が食事をしていると推定する。この推定は、特定物体６が食器６４である場合、ペット５は、鼻先を食器６４内に突っ込むほど、特定物体６と密着した状態となり得る点に基づく。したがって、画像データＤ１のペット５が実際に食事をしている場合に、ペット状況も「食事中」と推定される可能性が高くなる。

　本実施形態では、推定部３４は、画像データＤ１内に特定物体６が存在せず、物体領域Ｂ１が検出されなかった場合であっても、ペット状況を推定可能である。例えば、条件情報９は、ペットの姿勢のみとペットの特定の行動及び感情の少なくとも一方とが紐づけされたパターンを含む。具体的には、「目を瞑った状態で寝転んでいる」というペットの姿勢は、「睡眠中／安らか」という「行動／感情」と紐づけされている。結果的に、推定部３４は、ペットの姿勢のみで、画像データＤ１内のペット５のペット状況が「睡眠中／安らか」であると推定する。

　出力部３５は、推定部３４の推定結果（推定されたペット状況）を出力するように構成される。特に本実施形態では、出力部３５は、推定部３４の推定結果を、上記推定結果の基となった特定領域Ａ１が検出された画像データＤ１とを紐づけた態様で出力する。出力部３５は、推定結果（例えば「睡眠中／安らか」）と画像データＤ１とを紐づけた情報（以下、「出力情報」と呼ぶ）を、通信部１１を通じて、提示装置４に送信する。提示装置４を携帯する利用者３００が外出中であれば、出力情報は、サーバ７を経由して提示装置４に送信されてもよい。出力情報は、推定結果の基となった画像データＤ１が撮像部２で撮像された時間に関する情報を、更に含むことが好ましい。

　出力情報は、ペットカメラ１００に内蔵のメモリ等に保存されることが好ましい。出力情報は、サーバ７又はその他の周辺機器に送信されて保存されてもよい。

　提示装置４は、ペットカメラ１００から出力情報を受信すると、出力情報に含まれるペット状況を、例えば簡易的な表現（メッセージ）に置き換えて、そのメッセージを添えたプッシュ通知等にて画面上に通知（提示）してもよい。利用者３００がプッシュ通知を開封すると、提示装置４は、ペットアプリが起動して、画像データＤ１を含む詳細なペット状況を画面上で提示してもよい（図７Ａ及び図７Ｂ参照）。或いは出力情報は、メールサーバを経由してメールにより通知されてもよい。

　図７Ａの例では、提示装置４は、表示部４３の画面４３０上に、ペット状況の推定の基となった画像データＤ１（図３Ｃ参照：床に伏せている姿勢）を表示している。ここでは条件情報９は、「特定物体が存在せず」及び「床に伏せている姿勢」という２つの条件に「寂しい」という「感情」が紐づけされたパターンを含んでいる。その結果、ペット状況として「寂しい」が推定された例である。提示装置４は、「寂しい」というペット５の感情を「さみしいよ～」という親しみやすい表現に変換した文字列データを吹き出し付きで、画像データＤ１上に重畳させて表示する。

　また図７Ｂの例では、提示装置４は、表示部４３の画面４３０上に、ペット状況の推定の基となった画像データＤ１（図６参照：四つ足で起立し、頭部を下げている姿勢）を表示している。ここでは条件情報９は、「第１距離状態」、「四つ足で起立し、頭部を下げている」及び「食器の方を向いている」という３つの条件に「食事中／美味しい」という「行動／感情」が紐づけされたパターンを含んでいる。その結果、ペット状況として「食事中／美味しい」と推定された例である。提示装置４は、「食事中」という文字列データと、「美味しい」というペット５の感情を「おいしい～」という親しみやすい表現に変換した文字列データとを吹き出し付きで、画像データＤ１上に重畳させて表示する。

　なお、提示装置４は、表示部４３の画面４３０上に、画像データＤ１が撮像された時間（日時）を更に表示させることが好ましい。

　出力部３５は、推定結果の基となった画像データＤ１（生データ）を含めて出力情報を送信することに限定されず、画像のデータ加工を行った上で送信してもよい。また出力部３５は、画像データＤ１を、推定されたペット状況に対応するアイコン画像（例えば、涙を流して寂しい様子の犬のアイコン画像）に置き換えた上で送信してもよい。データの加工処理、及びアイコン画像への置き換えは、提示装置４又はサーバ７の側で実行されてもよい。

　推定部３４の推定結果は、画面出力に限られず、画面出力の代わりに又は画面出力に加えて、音声出力によって行われてもよい。

　ところで、処理部３は、取得部３１が画像データＤ１を取得する度に推定処理を実行する。例えば撮像部２が所定の間隔（例えば、数分又は数十分等の間隔）で静止画像を撮像する場合、処理部３は、概ね上記所定の間隔で推定処理を実行し得る。或いは、撮像部２が所定のフレームレートで動画像を撮像する場合、動画像の中で連続する複数のフレーム画像について一定の間隔（例えば、数分又は数十分等の間隔）を空けてフレーム画像を画像データＤ１として取得して推定処理を実行し得る。出力部３５は、推定部３４が１つの画像データＤ１についてペット状況を推定する度に、出力情報を提示装置４に送信してもよいし、出力情報をある程度ペットカメラ１００に内蔵のメモリ等にプールして、まとめて送信してもよい。

　また出力部３５は、複数の画像データＤ１に関する推定部３４の推定結果が、所定回数（例えば２回）連続してペット５が同じ方向を向いた姿勢であることを示す場合、推定部３４の推定結果の出力を制限してもよい。具体的には、ある画像データＤ１に対するペット５の姿勢と向きが、「四つ足で起立し、頭部を下げている」及び「食器の方を向いている」（つまり、「食事中」という行動）と推定されて出力情報が提示装置４に出力されたとする。そして、以降に連続して取得した画像データＤ１に対するペット５の姿勢と向きも、上記のある画像データＤ１と同じに推定された場合、出力部３５は、その推定結果を出力しなくてもよい。出力部３５は、複数の出力情報を内蔵のメモリ等にプールする場合、所定回数連続して同じ推定結果だった出力情報については、一の推定結果としてまとめて送信してもよい。「所定回数」に関する設定は、ペットカメラ１００又は提示装置４への利用者３００の操作入力によって適宜変更可能でもよい。

　このように推定結果の出力を制限することで、類似する推定結果が連続して出力されることを抑制でき、例えば処理負荷や通信量の低減を図れる。また短期間に何度も同じペット状況（例えば「食事中」）が利用者３００に通知されることが抑制されるため、利便性も向上する。

　（２．３）動作説明
　以下、本実施形態におけるペット管理システム２００の動作について、図８及び図９を参照しながら簡単に説明する。なお、以下の動作説明における順序は、単なる一例であって特に限定されない。特に以下では、ペット検出部Ｘ１における、特定領域Ａ１の検出処理とペット情報の生成処理とが、この順で実行される一例を説明するが、これらの処理は、概ね同時に並行して実行されてもよい。

　利用者３００の宅内に設置されたペットカメラ１００は、ペット５が主に活動し得る所定の管理領域を、撮像部２で撮像して監視する。ペットカメラ１００は、管理領域を、静止画像として所定の周期で撮像してもよいし、動画像として所定の期間撮像し続けてもよい。

　ペットカメラ１００のペット状況推定システム１は、図８に示すように、撮像部２で撮像された画像データＤ１（静止画像、又は動画像の中の１コマ）を取得すると（Ｓ１）、推定処理を実行する（Ｓ２）。

　ペット状況推定システム１は、領域検出部３２にて、第２モデルＭ２を用いて画像データＤ１内に犬（ペット５）が被写体Ｈ１として写っているか否かを判定する（Ｓ３）。ペット状況推定システム１は、犬（ペット５）が写っていれば（Ｓ３：Ｙｅｓ）、ペット５を示す特定領域Ａ１を検出し（Ｓ４：ペット検出ステップ）、頭部５０の判定（Ｓ５）に進む。

　本実施形態では、仮に画像データＤ１内に犬（ペット５）が写っていないと判定しても（Ｓ３：Ｎｏ）、処理は、頭部５０の判定（Ｓ５）に進む。これは、上述の通り、画像データＤ１が犬の顔のアップ画像の場合に、「犬」の検出に関する失敗をフォローするためである。

　ペット状況推定システム１は、領域検出部３２にて、第３モデルＭ３を用いて画像データＤ１内に犬（ペット５）の頭部５０が写っているか否かを判定する（Ｓ５）。ペット状況推定システム１は、頭部５０が写っていれば（Ｓ５：Ｙｅｓ）、頭部５０を示す頭部領域Ａ２を検出する（Ｓ６）。本実施形態では、ペット状況推定システム１は、頭部５０が写っていなければ（Ｓ５：Ｎｏ）、この画像データＤ１に関する推定処理を終えて、次の画像データＤ１の取得を待つ（Ｓ１に戻る）。ただし、特定領域Ａ１を検出していれば、頭部領域Ａ２を検出していなくても、推定処理を続けてもよい。

　ペット状況推定システム１は、頭部領域Ａ２の検出後、特定領域Ａ１を検出済みであれば（Ｓ７：Ｙｅｓ）、処理は、特定物体６の判定（Ｓ９：図９参照）に進む。一方、ペット状況推定システム１は、頭部領域Ａ２の検出後、特定領域Ａ１を検出していなければ（Ｓ７：Ｎｏ）、頭部領域Ａ２と略同等の領域を特定領域Ａ１に設定して（Ｓ８）、処理は、特定物体６の判定（Ｓ９）に進む。

　ペット状況推定システム１は、図９に示すように、物体検出部３６にて、第４モデルＭ４を用いて画像データＤ１内に特定物体６が写っているか否かを判定する（Ｓ９）。ペット状況推定システム１は、特定物体６が写っていれば（Ｓ９：Ｙｅｓ）、特定物体６を示す物体領域Ｂ１を検出し（Ｓ１０）、姿勢の判定（Ｓ１２）に進む。一方、特定物体６が写っていなければ（Ｓ９：Ｎｏ）、物体領域Ｂ１は非検出という結果を得て（Ｓ１１）、姿勢の判定（Ｓ１２）に進む。

　ペット状況推定システム１は、姿勢判定部３３１にて、第１モデルＭ１と特定領域Ａ１に関する情報とを用いて、犬（ペット５）の姿勢を判定する（Ｓ１２）。

　次にペット状況推定システム１は、向き判定部３３２にて、特定領域Ａ１に関する情報と頭部領域Ａ２に関する情報とに基づいて、ペット５の向きを判定する（Ｓ１３）。

　またペット状況推定システム１は、距離判定部３３３にて、頭部領域Ａ２に関する情報と、物体領域Ｂ１に関する情報と、姿勢情報とに基づいて、ペット物体間距離を判定する（Ｓ１４）。なお、物体領域Ｂ１が非検出の場合には、処理Ｓ１４はスキップされる。

　ペット状況推定システム１は、処理Ｓ１２～Ｓ１４で得られた判定結果から、ペット情報を生成する（Ｓ１５：情報生成ステップ）。

　そしてペット状況推定システム１は、ペット情報と条件情報９とに基づいて、ペット状況を推定する（Ｓ１６：推定ステップ）。

　ペット状況推定システム１は、推定したペット状況と画像データＤ１とを紐づけた出力情報を提示装置４に送信して、提示装置４から提示させる（Ｓ１７）。

　［利点］
　このようにペット状況推定システム１では、推定部３４は、ペット情報８に基づいて、ペット５の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペットの状況を把握しやすくすることができる。

　また本実施形態では、画像データＤ１におけるペット５が向いている方向を判定する向き判定部３３２が設けられているため、ペット５の向きを考慮することで、ペットの状況に関する推定の信頼性を向上できる。また特定領域Ａ１に対する頭部領域Ａ２の相対的な位置関係から、ペット５が向いている方向を判定するため、ペット５が向いている方向に関する判定の信頼性をより向上できる。

　また出力部３５が、推定部３４の推定結果を、上記推定結果の基となった特定領域Ａ１が検出された画像データＤ１とを紐づけた態様で出力するため、ペットの状況をより把握しやすくすることができる。

　特に、利用者３００は、ペット状況推定システム１によって推定されたペット状況を通じて、ペット５の行動／感情を把握しやすく、その結果、ペット５とのコミュニケーションが図りやすくなる。また利用者３００は、外出中においても、提示装置４からの通知によって、宅内のペット５の行動／感情を把握しやすく、その結果、ペット５を管理（見守り）しやすい。特に例えばペット状況が、緊急性を要するような行動（体調が悪く、ぐったりしている等）と推定された場合に、その旨をいち早く知ることができる。

　（３）変形例
　上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、上記実施形態に係るペット状況推定システム１と同様の機能は、ペット状況推定方法、コンピュータプログラム、又はコンピュータプログラムを記録した非一時的記録媒体等で具現化されてもよい。

　以下、上記実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。以下では、上記実施形態を「基本例」と呼ぶこともある。

　本開示におけるペット状況推定システム１は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示におけるペット状況推定システム１としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

　また、ペット状況推定システム１における複数の機能が、１つのハウジング内に集約されていることは必須の構成ではない。例えば、ペット状況推定システム１の構成要素は、複数のハウジングに分散して設けられていてもよい。具体的には、ペット状況推定システム１の第１モデルＭ１～第４モデルＭ４の少なくとも一部の学習済みモデルは、ペットカメラ１００の外部（例えばサーバ７等の外部サーバ）に設けられてもよい。

　反対に、ペット状況推定システム１における複数の機能が、基本例のように、１つのハウジング（ペットカメラ１００の筐体）内に集約されてもよい。さらに、ペット状況推定システム１の少なくとも一部の機能、例えば、ペット状況推定システム１の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

　（３．１）変形例１
　以下、本開示における変形例１について、図１０を参照しながら説明する。図１０は、本変形例のペット状況推定システム１Ａを示す。以下では基本例のペット状況推定システム１と実質的に同じ構成要素については、同じ符号を付与して適宜にその説明を省略する場合がある。

　基本例のペット状況推定システム１では、ペット検出部Ｘ１は、領域検出部３２及び情報生成部３３を有し、領域検出部３２でペット５を検出してから、情報生成部３３の姿勢判定部３３１でペット５の姿勢を判定して姿勢情報を生成している。つまり、先ずは取得した画像データＤ１内におけるペット５の存否を検出してから、姿勢判定を行っている。

　本変形例のペット状況推定システム１Ａは、図１０に示すように、領域検出部３２が、姿勢判定部３３１の機能を有している点で、基本例のペット状況推定システム１と相違する。

　本変形例では、領域検出部３２は、画像データＤ１において、ペットの姿勢について画像認識するためにペットの姿勢について学習した第１モデルＭ１に基づいて、特定の姿勢を取っているペット５の特定領域Ａ１を検出する。ここでは領域検出部３２は、例えば第１モデルＭ１～第４モデルＭ４を用いて、特定の姿勢を取っているペット５が被写体Ｈ１として画像データＤ１内に写っているか否かを判定し、特定の姿勢を取っているペット５を示す特定領域Ａ１を検出する。特定の姿勢は、上述の通り、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特定の姿勢は、例えば座っている、伏せている、寝ている、又は四つ足で起立している等である。

　特定の姿勢を取っているペット５を示す特定領域Ａ１に関する情報は、情報生成部３３に入力されて、向き判定部３３２における向きの判定、及び距離判定部３３３における距離の判定に用いられる。

　要するに、本変形例のペット検出部Ｘ１では、ペット５の存在を検出してから姿勢を判定するというよりは、特定の姿勢のペット５を検出する。

　本変形例の構成においても、ペット５の状況を把握しやすくすることができる。

　（３．２）その他の変形例
　以下、その他の変形例について列記する。

　基本例では、推定部３４は、ペット情報と、条件情報９とに基づいて、ペット状況を推定している。しかし、推定部３４は、条件情報９の代わりに、ペット情報と、ペットの特定の行動及び感情の少なくとも一方について機械学習した学習済みモデル（分類器）とを用いて、ペット状況が推定されてもよい。分類器は、ペット情報が入力されることで、ペット情報をペットの特定の行動及び感情の少なくとも一方に分類する。

　基本例では、１つの画像データＤ１内における被写体Ｈ１としての犬（ペット５）の数が１匹であった。しかし、当然ながら、１つの画像データＤ１内における被写体Ｈ１としての犬（ペット５）の数が２匹以上（例えば親犬と子犬の２匹）の場合もあり得る。ペット状況推定システム１は、１つの画像データＤ１内において、複数の特定領域Ａ１を検出した場合には、各特定領域Ａ１についてペット情報を生成し、ペット状況を推定する。

　基本例では、１つの画像データＤ１内におけるペット５以外の特定物体６の数が、ゼロ又は１つであった。しかし、当然ながら、１つの画像データＤ１内における特定物体６の数が、２つ以上の場合もあり得る。ペット状況推定システム１は、１つの画像データＤ１内において、複数の物体領域Ｂ１を検出した場合には、各物体領域Ｂ１に対するペット物体間距離を判定する。この場合、ペット状況推定システム１は、複数のペット物体間距離の中で、ペット５との距離が最も短い物体領域Ｂ１を選定して、ペット状況を推定してもよい。

　基本例では、ペット状況推定システム１は、ペット５の向きを判定する機能（向き判定部３３２）とペット物体間距離を判定する機能（距離判定部３３３）を有しているが、これらの機能は、必須の機能ではなく、省略されてもよい。

　基本例における第１モデルＭ１～第４モデルＭ４の少なくとも一部は、強化学習により機械学習されてもよい。この場合、上記一部のモデルは、強化学習のための処理負荷を考慮すると、ペットカメラ１００の外部（例えばサーバ７等の外部サーバ）に設けられることが好ましい。

　（４）まとめ
　以上説明したように、第１の態様に係るペット状況推定システム（１，１Ａ）は、領域検出部（３２）と、情報生成部（３３）と、推定部（３４）と、を備える。領域検出部（３２）は、画像データ（Ｄ１）において、被写体（Ｈ１）であるペット（５）の容姿の少なくとも一部を示す特定領域（Ａ１）を検出する。情報生成部（３３）は、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル（第１モデルＭ１）と、画像データ（Ｄ１）とに基づくペット（５）の少なくとも姿勢に関する姿勢情報を含む。推定部（３４）は、ペット情報に基づいて、特定領域（Ａ１）に示されるペット（５）の感情及び行動の少なくとも一方に関するペット状況を推定する。第１の態様によれば、推定部（３４）は、ペット情報に基づいて、ペット（５）の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット（５）の状況を把握しやすくすることができる。

　第２の態様に係るペット状況推定システム（１，１Ａ）に関して、第１の態様において、推定部（３４）は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報（９）とに基づいて、ペット状況を推定する。第２の態様によれば、推定部（３４）が、例えば、機械学習された学習済みモデルを用いて、ペット状況を推定する場合に比べて、ペット状況推定システム（１，１Ａ）を簡単な構成で実現可能である。

　第３の態様に係るペット状況推定システム（１，１Ａ）に関して、第１又は第２の態様において、領域検出部（３２）は、学習済みモデル（第２モデルＭ２）に基づいて、特定領域（Ａ１）を検出する。学習済みモデル（第２モデルＭ２）は、所定の種類のペットについて画像認識するためにその外観要因を学習したものである。第３の態様によれば、特定領域（Ａ１）の検出に関する信頼性が向上され、結果的に、ペット（５）の状況に関する推定の信頼性を向上できる。

　第４の態様に係るペット状況推定システム（１，１Ａ）に関して、第１～第３の態様のいずれか１つにおいて、領域検出部（３２）は、学習済みモデル（第３モデルＭ３）に基づいて、被写体（Ｈ１）の頭部（５０）を示す頭部領域（Ａ２）を検出する。学習済みモデル（第３モデルＭ３）は、所定の種類のペットの頭部について画像認識するためにその外観要因を学習したものである。第４の態様によれば、頭部領域（Ａ２）の検出に関する信頼性が向上され、結果的に、ペット（５）の状況に関する推定の信頼性を向上できる。

　第５の態様に係るペット状況推定システム（１，１Ａ）に関して、第４の態様において、情報生成部（３３）は、特定領域（Ａ１）が検出された画像データ（Ｄ１）を用いて、画像データ（Ｄ１）におけるペット（５）が向いている方向を判定する向き判定部（３３２）を有する。ペット情報は、向き判定部（３３２）の判定結果を更に含む。第５の態様によれば、ペット（５）が向いている方向を考慮することで、ペット（５）の状況に関する推定の信頼性を向上できる。

　第６の態様に係るペット状況推定システム（１，１Ａ）に関して、第５の態様において、向き判定部（３３２）は、少なくとも特定領域（Ａ１）に対する頭部領域（Ａ２）の相対的な位置関係から、ペット（５）が向いている方向を判定する。第６の態様によれば、ペット（５）が向いている方向に関する判定の信頼性を向上できる。

　第７の態様に係るペット状況推定システム（１，１Ａ）に関して、第５又は第６の態様において、推定部（３４）は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報（９）とに基づいて、ペット状況を推定する。条件情報（９）は、ペット（５）が向いている複数の方向と、複数のペット状況とがそれぞれ対応付けされた向き情報を含む。推定部（３４）は、向き判定部（３３２）の判定結果と向き情報とに基づいて、ペット状況を推定する。第７の態様によれば、ペット（５）の状況に関する推定の信頼性を向上できる。

　第８の態様に係るペット状況推定システム（１，１Ａ）は、第５～第７の態様のいずれか１つにおいて、推定部（３４）の推定結果を出力する出力部（３５）を更に備える。出力部（３５）は、複数の画像データ（Ｄ１）に関する推定部（３４）の推定結果が、所定回数連続してペット（５）が同じ方向を向いた姿勢であることを示す場合、推定部（３４）の推定結果の出力を制限する。第８の態様によれば、類似する推定結果が連続して出力されることを抑制でき、例えば処理負荷の低減を図れる。

　第９の態様に係るペット状況推定システム（１，１Ａ）は、第１～第８の態様のいずれか１つにおいて、画像データ（Ｄ１）においてペット（５）以外の特定物体（６）を示す物体領域（Ｂ１）を検出する物体検出部（３６）を更に備える。情報生成部（３３）は、物体領域（Ｂ１）に対するペット（５）の相対的な距離を判定する距離判定部（３３３）を有する。ペット情報は、距離判定部（３３３）の判定結果を更に含む。推定部（３４）は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報（９）とに基づいて、ペット状況を推定する。条件情報（９）は、複数種類の特定物体と、ペット及び特定物体間の距離に関する複数の閾値とがそれぞれ対応付けされた情報を含む。推定部（３４）は、距離判定部（３３３）の判定結果と複数の閾値との比較により、ペット状況を推定する。第９の態様によれば、物体領域（Ｂ１）に対する特定領域（Ａ１）の相対的な距離を考慮することで、ペット（５）の状況に関する推定の信頼性を向上できる。

　第１０の態様に係るペット状況推定システム（１，１Ａ）に関して、第９の態様において、物体検出部（３６）は、所定の種類の特定物体について画像認識するためにその外観要因を学習した学習済みモデル（第４モデルＭ４）に基づいて、物体領域（Ｂ１）を検出する。第１０の態様によれば、物体領域（Ｂ１）の検出に関する信頼性が向上される。

　第１１の態様に係るペット状況推定システム（１，１Ａ）に関して、第９又は第１０の態様において、推定部（３４）は、物体検出部（３６）にて検出された物体領域（Ｂ１）に示される特定物体（６）が食器（６４）であり、かつ、距離判定部（３３３）にて判定された距離が所定の閾値以下の場合、ペット状況として、ペット（５）が食事をしていると推定する。第１１の態様によれば、画像データ（Ｄ１）のペット（５）が実際に食事をしている場合に、ペット状況も「食事をしている」と推定される可能性が高くなる。

　第１２の態様に係るペット状況推定システム（１，１Ａ）は、第１～第１１の態様のいずれか１つにおいて、出力部（３５）を更に備える。出力部（３５）は、推定部（３４）の推定結果を、上記推定結果の基となった特定領域（Ａ１）が検出された画像データ（Ｄ１）とを紐づけた態様で出力する。第１２の態様によれば、ペット（５）の状況をより把握しやすくすることができる。

　第１３の態様に係るペット状況推定システム（１，１Ａ）に関して、第１～第１２の態様のいずれか１つにおいて、領域検出部（３２）は、画像データ（Ｄ１）において、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル（第１モデルＭ１）に基づいて、特定の姿勢を取っているペット（５）の特定領域（Ａ１）を検出する。第１３の態様によれば、ペット（５）の状況をより把握しやすくすることができる。

　第１４の態様に係るペットカメラ（１００）は、第１～第１３の態様のいずれか１つにおけるペット状況推定システム（１，１Ａ）と、画像データ（Ｄ１）を撮像する撮像部（２）と、を備える。第１４の態様によれば、ペット（５）の状況を把握しやすくすることが可能なペットカメラ（１００）を提供できる。

　第１５の態様に係るサーバ（７）は、第１～第１３の態様のいずれか１つにおけるペット状況推定システム（１，１Ａ）における情報生成部（３３）及び推定部（３４）が設けられたペットカメラ（１００）と通信可能である。サーバ（７）には、領域検出部（３２）が設けられている。第１５の態様によれば、ペット（５）の状況を把握しやすくすることが可能なサーバ（７）を提供できる。

　第１６の態様に係るサーバ（７）は、第１～第１３の態様のいずれか１つにおけるペット状況推定システム（１，１Ａ）における領域検出部（３２）が設けられたペットカメラ（１００）と通信可能である。サーバ（７）には、情報生成部（３３）及び推定部（３４）が設けられている。第１６の態様によれば、ペット（５）の状況を把握しやすくすることが可能なサーバ（７）を提供できる。

　第１７の態様に係るペット状況推定方法は、ペット検出ステップと、情報生成ステップと、推定ステップと、を含む。ペット検出ステップにて、画像データ（Ｄ１）において、被写体（Ｈ１）としてのペット（５）の容姿の少なくとも一部を示す特定領域（Ａ１）を検出する。情報生成ステップにて、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル（第１モデルＭ１）と、画像データ（Ｄ１）とに基づくペット（５）の少なくとも姿勢に関する姿勢情報を含む。推定ステップにて、ペット情報に基づいて、特定領域（Ａ１）に示されるペット（５）の感情及び行動の少なくとも一方に関するペット状況を推定する。第１７の態様によれば、ペット（５）の状況を把握しやすくすることが可能なペット状況推定方法を提供できる。

　第１８の態様に係るプログラムは、１以上のプロセッサに、第１７の態様におけるペット状況推定方法を実行させるためのプログラムである。第１８の態様によれば、ペット（５）の状況を把握しやすくすることが可能な機能を提供できる。

　第２～１３の態様に係る構成については、ペット状況推定システム（１，１Ａ）に必須の構成ではなく、適宜省略可能である。

　１００　ペットカメラ
　１，１Ａ　ペット状況推定システム
　２　撮像部
　３２　領域検出部
　３３　情報生成部
　３３２　向き判定部
　３３３　距離判定部
　３４　推定部
　３５　出力部
　３６　物体検出部
　５　ペット
　５０　頭部
　６　特定物体
　７　サーバ
　６４　食器
　９　条件情報
　Ａ１　特定領域
　Ａ２　頭部領域
　Ｂ１　物体領域
　Ｄ１　画像データ
　Ｈ１　被写体
　Ｍ１～Ｍ４　第１モデル～第４モデル（学習済みモデル）

Claims

　画像データにおいて、被写体であるペットの容姿の少なくとも一部を示す特定領域を検出する領域検出部と、
　ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含むペット情報を生成する情報生成部と、
　前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定部と、
を備える、
　ペット状況推定システム。
　前記推定部は、前記ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定する、
　請求項１に記載のペット状況推定システム。
　前記領域検出部は、所定の種類のペットについて画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記特定領域を検出する、
　請求項１又は２に記載のペット状況推定システム。
　前記領域検出部は、所定の種類のペットの頭部について画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記被写体の頭部を示す頭部領域を検出する、
　請求項１～３のいずれか１項に記載のペット状況推定システム。
　前記情報生成部は、前記特定領域が検出された前記画像データを用いて、前記画像データにおける前記ペットが向いている方向を判定する向き判定部を有し、
　前記ペット情報は、前記向き判定部の判定結果を更に含む、
　請求項４に記載のペット状況推定システム。
　前記向き判定部は、少なくとも前記特定領域に対する前記頭部領域の相対的な位置関係から、前記ペットが向いている方向を判定する、
　請求項５に記載のペット状況推定システム。
　前記推定部は、前記ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定し、
　前記条件情報は、ペットが向いている複数の方向と、複数のペット状況とがそれぞれ対応付けされた向き情報を含み、
　前記推定部は、前記向き判定部の判定結果と前記向き情報とに基づいて、前記ペット状況を推定する、
　請求項５又は６に記載のペット状況推定システム。
　前記推定部の推定結果を出力する出力部を更に備え、
　前記出力部は、複数の前記画像データに関する前記推定部の推定結果が、所定回数連続して前記ペットが同じ方向を向いた姿勢であることを示す場合、前記推定部の推定結果の出力を制限する、
　請求項５～７のいずれか１項に記載のペット状況推定システム。
　前記画像データにおいて前記ペット以外の特定物体を示す物体領域を検出する物体検出部を更に備え、
　前記情報生成部は、前記物体領域に対する前記ペットの相対的な距離を判定する距離判定部を有し、
　前記ペット情報は、前記距離判定部の判定結果を更に含み、
　前記推定部は、前記ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定し、
　前記条件情報は、複数種類の特定物体と、ペット及び特定物体間の距離に関する複数の閾値とがそれぞれ対応付けされた情報を含み、
　前記推定部は、前記距離判定部の判定結果と前記複数の閾値との比較により、前記ペット状況を推定する、
　請求項１～８のいずれか１項に記載のペット状況推定システム。
　前記物体検出部は、所定の種類の特定物体について画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記物体領域を検出する、
　請求項９に記載のペット状況推定システム。
　前記推定部は、前記物体検出部にて検出された前記物体領域に示される前記特定物体が食器であり、かつ、前記距離判定部にて判定された前記距離が所定の閾値以下の場合、前記ペット状況として、前記ペットが食事をしていると推定する、
　請求項９又は１０に記載のペット状況推定システム。
　前記推定部の推定結果を、上記推定結果の基となった前記特定領域が検出された前記画像データと紐づけた態様で出力する出力部を更に備える、
　請求項１～１１のいずれか１項に記載のペット状況推定システム。
　前記領域検出部は、前記画像データにおいて、ペットの姿勢について画像認識するためにペットの姿勢について学習した前記学習済みモデルに基づいて、特定の姿勢を取っている前記ペットの前記特定領域を検出する、
　請求項１～１２のいずれか１項に記載のペット状況推定システム。
　請求項１～１３のいずれか１項に記載のペット状況推定システムと、
　前記画像データを撮像する撮像部と、
を備える、
　ペットカメラ。
　請求項１～１３のいずれか１項に記載のペット状況推定システムにおける前記情報生成部及び前記推定部が設けられたペットカメラと通信可能なサーバであって、
　前記領域検出部が設けられている、
　サーバ。
　請求項１～１３のいずれか１項に記載のペット状況推定システムにおける前記領域検出部が設けられたペットカメラと通信可能なサーバであって、
　前記情報生成部及び前記推定部が設けられている、
　サーバ。
　画像データにおいて、被写体としてのペットの容姿の少なくとも一部を示す特定領域を検出するペット検出ステップと、
　ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含むペット情報を生成する情報生成ステップと、
　前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定ステップと、
を含む、
　ペット状況推定方法。
　１以上のプロセッサに、請求項１７に記載のペット状況推定方法を実行させるためのプログラム。