WO2022050093A1 - ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム - Google Patents

ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム Download PDF

Info

Publication number
WO2022050093A1
WO2022050093A1 PCT/JP2021/030654 JP2021030654W WO2022050093A1 WO 2022050093 A1 WO2022050093 A1 WO 2022050093A1 JP 2021030654 W JP2021030654 W JP 2021030654W WO 2022050093 A1 WO2022050093 A1 WO 2022050093A1
Authority
WO
WIPO (PCT)
Prior art keywords
pet
unit
estimation
information
situation
Prior art date
Application number
PCT/JP2021/030654
Other languages
English (en)
French (fr)
Inventor
友香 中村
宏彰 大眉
靖 上坂
真史 佐藤
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN202180050178.5A priority Critical patent/CN115885313A/zh
Priority to JP2022546235A priority patent/JP7479019B2/ja
Priority to US18/022,074 priority patent/US20230320328A1/en
Publication of WO2022050093A1 publication Critical patent/WO2022050093A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K29/00Other apparatus for animal husbandry
    • A01K29/005Monitoring or measuring activity, e.g. detecting heat or mating
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K29/00Other apparatus for animal husbandry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • This disclosure generally relates to pet status estimation systems, pet cameras, servers, pet status estimation methods, and programs. More specifically, the present disclosure relates to a pet situation estimation system for a pet as a subject in image data, a pet camera provided with the pet situation estimation system, a server, a pet situation estimation method, and a program.
  • Patent Document 1 discloses a detection device that recognizes and detects an animal and a person from an image, respectively.
  • This detection device includes an animal detection unit that detects an animal from an image and a person detection unit that detects a person from the image. Further, the detection device further includes a detection result output unit that outputs information indicating that the target object has been detected as a detection result when an animal and a person are detected.
  • the animal detection unit scans the input image based on the feature amount data that reflects the characteristics of the animal stored in the animal feature amount storage unit.
  • the animal detection unit 21 can identify a region that matches the feature amount data of the animal or has a high degree of similarity, the animal detection unit 21 detects the object in the region as an animal.
  • a user wants to know specifically about the situation of a pet (animal) shown in the image data, or when the pet shown in the image data is in a specific situation. There is a request to receive a notification to that effect.
  • an object of the present invention is to provide a pet situation estimation system, a pet camera, a server, a pet situation estimation method, and a program that can easily grasp the pet situation.
  • the pet situation estimation system of one aspect of the present disclosure includes a region detection unit, an information generation unit, and an estimation unit.
  • the area detection unit detects a specific area indicating at least a part of the appearance of the pet as a subject in the image data.
  • the information generation unit generates pet information.
  • the pet information includes a trained model in which the pet's posture is learned in order to recognize an image of the pet's posture, and posture information regarding at least the posture of the pet based on the image data.
  • the estimation unit estimates the pet status regarding at least one of the emotions and behaviors of the pet shown in the specific area.
  • the pet camera of one aspect of the present disclosure includes the above-mentioned pet situation estimation system and an imaging unit for capturing the image data.
  • the server of one aspect of the present disclosure can communicate with the information generation unit and the pet camera provided with the estimation unit in the pet situation estimation system.
  • the server is provided with the area detection unit.
  • the server of one aspect of the present disclosure can communicate with the pet camera provided with the area detection unit in the pet situation estimation system.
  • the server is provided with the information generation unit and the estimation unit.
  • the pet situation estimation method of one aspect of the present disclosure includes a pet detection step, an information generation step, and an estimation step.
  • a specific region showing at least a part of the appearance of the pet as a subject is detected in the image data.
  • Pet information is generated in the information generation step.
  • the pet information includes a trained model in which the pet's posture is learned in order to recognize an image of the pet's posture, and posture information regarding at least the posture of the pet based on the image data.
  • the estimation step based on the pet information, the pet situation regarding at least one of the emotions and behaviors of the pet shown in the specific area is estimated.
  • the program of one aspect of the present disclosure is a program for causing one or more processors to execute the above-mentioned pet situation estimation method.
  • FIG. 1A is a schematic configuration diagram of a pet camera to which the pet situation estimation system according to the embodiment is applied.
  • FIG. 1B is a schematic configuration diagram of a presentation device that communicates with the pet camera of the above.
  • FIG. 2 is a conceptual diagram of the overall configuration of a pet management system including the pet situation estimation system of the above.
  • 3A to 3C are examples of image data to be estimated by the pet situation estimation system of the same.
  • 4A to 4C are other examples of image data to be estimated by the pet situation estimation system of the same.
  • 5A-5C are still another example of the image data to be estimated by the pet situation estimation system of the same.
  • FIG. 6 is still another example of the image data to be estimated by the pet situation estimation system of the above.
  • FIG. 7A and 7B are conceptual diagrams of the presentation device in which the estimation result by the pet situation estimation system of the above is presented on the screen.
  • FIG. 8 is a flowchart for explaining an operation example of the pet situation estimation system of the above.
  • FIG. 9 is a flowchart for explaining an operation example of the pet situation estimation system as described above.
  • FIG. 10 is a schematic configuration diagram of a pet camera to which a modified example of the pet situation estimation system described above is applied.
  • the pet situation estimation system 1 includes a region detection unit 32, an information generation unit 33, and an estimation unit 34.
  • the pet situation estimation system 1 mainly comprises a computer system having one or more processors and one or more memories.
  • all the components (area detection unit 32, information generation unit 33, estimation unit 34, etc.) of the pet situation estimation system 1 are collectively provided in one housing of the pet camera 100. It is explained as.
  • the components of the pet situation estimation system 1 in the present disclosure may be provided in a distributed manner.
  • at least a part of the components of the pet situation estimation system 1 is outside the pet camera 100 (for example, outside the server 7 or the like). It may be installed in the server).
  • the pet camera 100 may be provided with an information generation unit 33 and an estimation unit 34, and the server 7 capable of communicating with the pet camera 100 may be provided with an area detection unit 32.
  • the pet camera 100 may be provided with the area detection unit 32, and the server 7 capable of communicating with the pet camera 100 may be provided with the information generation unit 33 and the estimation unit 34.
  • the "server” referred to here may be composed of one external device (may be a device installed in the house of the user 300), or may be composed of a plurality of external devices.
  • the area detection unit 32 detects a specific area A1 indicating at least a part of the appearance of the pet 5 which is the subject H1 in the image data D1 (FIGS. 3A to 6).
  • the image data D1 is an image (data) imaged (generated) by the image pickup unit 2 (see FIG. 1A) of the pet camera 100.
  • the image data D1 may be a still image or an image of one frame (frame) in a moving image. Further, the image data D1 may be a processed part of the image captured by the image pickup unit 2.
  • the type of "pet” to be estimated by the pet situation estimation system 1 is a dog (animal).
  • the type of "pet” is not particularly limited, and may be a cat or another animal.
  • the specific area A1 is an area surrounded by a rectangular frame in the image data D1 as shown in FIGS. 3A to 6, and is represented by a “bounding box” surrounding the pet 5 of the subject H1.
  • the position of the pet 5 in the image data D1 is defined by, for example, the X-axis coordinates, the Y-axis coordinates, the width of the bounding box, the height of the bounding box, and the like in the upper left corner of the bounding box.
  • the specific region A1 is not limited to being shown by the bounding box, and may be shown by, for example, segmentation that distinguishes the subject H1 from the background on a pixel-by-pixel basis.
  • the "XY coordinates" for specifying the positions of the pet 5 and the specific object 6 other than the pet 5 in the image data D1 in the present disclosure are defined in pixel units as an example.
  • the information generation unit 33 generates pet information.
  • the pet information is at least the posture of the pet 5 based on the trained model (hereinafter, may be referred to as "first model M1") learned about the posture of the pet in order to recognize the image of the posture of the pet and the image data D1. Includes attitude information about.
  • the first model M1 is a model generated by machine learning and is stored in the model storage unit P1 (see FIG. 1A) of the pet camera 100.
  • the area detection unit 32 and the information generation unit 33 constitute a pet detection unit X1 (see FIG. 1A) that detects a dog (pet 5) from the image data D1.
  • a pet detection unit X1 see FIG. 1A
  • at least a part of the function of the information generation unit 33 may be provided outside the pet detection unit X1.
  • the estimation unit 34 estimates the pet status regarding at least one of the emotions and behaviors of the pet 5 shown in the specific area A1 based on the pet information. As an example in this embodiment, the estimation unit 34 estimates the pet situation based on the pet information and the condition information 9 (see FIG. 1A) related to at least one of the specific behaviors and emotions of the pet.
  • the condition information 9 is stored in the condition storage unit P2 (see FIG. 1A) of the pet camera 100.
  • the estimation unit 34 estimates the pet situation regarding at least one of the emotions and behaviors of the pet 5 based on the pet information, and as a result, it is possible to easily grasp the situation of the pet 5. ..
  • the pet situation estimation method includes a pet detection step, an information generation step, and an estimation step.
  • the image data D1 detects a specific region A1 indicating at least a part of the appearance of the pet 5 as the subject H1.
  • Pet information is generated in the information generation step.
  • the pet information includes at least the posture information of the pet 5 based on the trained model M1 learned about the posture of the pet in order to recognize the image of the posture of the pet and the image data D1.
  • the pet status regarding at least one of the emotions and behaviors of the pet 5 shown in the specific area A1 is estimated based on the pet information.
  • the pet situation regarding at least one of the emotions and behaviors of the pet 5 is estimated based on the pet information, and as a result, the situation of the pet 5 can be easily grasped. ..
  • the pet situation estimation method is used on a computer system (pet situation estimation system 1).
  • the pet situation estimation method can also be embodied in a program.
  • the program according to the present embodiment is a program for causing one or more processors to execute the pet situation estimation method according to the present embodiment.
  • pet management system 200 the system to which the pet situation estimation system 1 according to the present embodiment is applied (hereinafter referred to as “pet management system 200”) will be described in detail with reference to FIGS. 1A to 9.
  • the pet management system 200 includes one or a plurality of pet cameras 100, one or a plurality of presentation devices 4, and a server 7.
  • a single user 300 who receives a service for managing (watching over) the pet 5 by using the pet management system 200 will be described.
  • the user 300 is, for example, the owner of the pet 5, but is not particularly limited.
  • the user 300 installs one or more pet cameras 100 at a predetermined position in a facility (for example, a residence where the pet 5 lives together). When a plurality of pet cameras 100 are installed, the user 300 may install one in each room in the house.
  • the pet camera 100 is not limited to being installed indoors, and may be installed outdoors. In the following, for convenience of explanation, one pet camera 100 will be focused on.
  • the presentation device 4 is, for example, an information terminal owned by the user 300.
  • the information terminal is assumed to be a portable information terminal such as a smartphone or a tablet terminal.
  • the presentation device 4 may be a notebook personal computer or a stationary personal computer.
  • the presentation device 4 has a communication unit 41, a processing unit 42, and a display unit 43.
  • the communication unit 41 is a communication interface for enabling communication with each of the pet camera 100 (see FIG. 2) and the server 7 (see FIG. 2).
  • the communication unit 41 may be able to communicate with only one of the pet camera 100 and the server 7.
  • the processing unit 42 can be realized by a computer system including one or more processors (microprocessors) and one or more memories. That is, one or more processors execute one or more programs (applications) stored in one or more memories, thereby functioning as the processing unit 42.
  • the program is recorded in advance in the memory of the processing unit 42 here, it may be recorded and provided through a telecommunication line such as the Internet or on a non-temporary recording medium such as a memory card.
  • the user 300 installs dedicated application software (hereinafter referred to as "pet application”) for presenting a GUI (Graphical User Interface) related to the pet 5 to be watched over, and starts this pet application. It functions as a presentation device 4.
  • GUI Graphic User Interface
  • the display unit 43 constitutes a touch panel type liquid crystal display or an organic EL (Electro-Luminescence) display.
  • a screen for presenting information about the pet 5 is displayed (output) on the display unit 43.
  • the pet management system 200 has a plurality of residents (plurality of residents).
  • a plurality of presentation devices 4 carried by each user 300) will be provided. In the following, for convenience of explanation, one presentation device 4 (smartphone) carried by one user 300 (resident) will be described.
  • the pet camera 100 is, for example, a device having an imaging function for watching over pets.
  • the pet camera 100 includes an image pickup unit 2 (camera device) as shown in FIG. 1A.
  • the area where the pet 5 is in the residence may be outside the residence
  • is mainly the place where the pet can be active for example, the place where the food is placed
  • the pet camera 100 is installed so as to fit in the.
  • the user 300 can watch the situation of the pet 5 through the image captured by the image pickup unit 2, for example, even when he / she is out.
  • FIGS. 3A to 6 image data D1 showing pets 5 of a plurality of dog breeds is exemplified, but these drawings show the “type of posture” of the dog in order to explain the pet situation estimation system 1.
  • the dog breed is not particularly limited as it is merely an example.
  • the pet situation estimation system 1 is configured to recognize, for example, the "posture" of a dog in common to some extent regardless of the breed, but the posture may be recognized individually depending on the breed.
  • the pet camera 100 further includes a communication unit 11 in addition to the image pickup unit 2.
  • the communication unit 11 is a communication interface for enabling communication with each of the presentation device 4 (see FIG. 2) and the server 7 (see FIG. 2).
  • the communication unit 11 may have a function of performing short-range wireless communication with the presentation device 4, for example, in accordance with a standard of BLE (Bluetooth (registered trademark) Low Energy).
  • BLE Bluetooth (registered trademark) Low Energy
  • the communication unit 11 may exchange data by directly communicating with the presentation device 4 by short-range wireless communication.
  • the communication unit 11 is connected to the network NT1 (see FIG. 2) such as the Internet via a router or the like installed in the house.
  • the pet camera 100 can communicate with an external server 7 via the network NT1 to acquire information from the server 7 and output information to the server 7.
  • the presentation device 4 shown in FIG. 2 may be connected to the network NT1 via a mobile phone network (carrier network) or a public wireless LAN (Local Area Network) provided by a telecommunications carrier.
  • the mobile phone network includes, for example, a 3G (third generation) line, an LTE (Long Term Evolution) line, a 4G (fourth generation) line, a 5G (fifth generation) line, and the like.
  • the presenting device 4 can be connected to the network NT1 via the mobile phone network as long as it can be connected to the mobile phone network. For example, when the user 300 carrying the presentation device 4 is outside the house, the pet camera 100 and the server 7 can be communicated with each other by being connected to the network NT1 via a mobile phone network or the like.
  • the communication between the presentation device 4 and the pet camera 100 may be performed via the network NT1 and the server 7.
  • the pet situation estimation system 1 is provided in the pet camera 100 as shown in FIG. 1A.
  • the pet camera 100 further includes a processing unit 3, a model storage unit P1, and a condition storage unit P2, which constitute the pet status estimation system 1.
  • the details of the pet situation estimation system 1 will be described in the next column.
  • the server 7 is connected to the network NT1.
  • the server 7 can communicate with each of the pet camera 100 and the presenting device 4 via the network NT1.
  • the server 7 includes, for example, user information (name, user ID, telephone number, e-mail address, etc.), information on the pet camera 100 and the presentation device 4 owned by the user 300 (identification information, etc.), and the user 300.
  • user information name, user ID, telephone number, e-mail address, etc.
  • information on the pet camera 100 and the presentation device 4 owned by the user 300 identification information, etc.
  • the user 300 manage the information of your pet 5 (dog breed information, etc.).
  • the server 7 collects and stores various image data captured by the plurality of pet cameras 100 and processing results (particularly processing errors and the like).
  • the user 300 may download the pet application by accessing the server 7 through the presentation device 4.
  • the server 7 is assumed to be composed of one server device, but may be composed of a plurality of server devices, and such a server device may construct, for example, a cloud (cloud computing). May be good. Further, at least a part of the functions of the pet situation estimation system 1 may be provided in the server 7.
  • the pet camera 100 has a processing unit 3 and a model storage unit as the pet status estimation system 1 as described above, in addition to the imaging unit 2 and the communication unit 11. It includes P1 and a condition storage unit P2.
  • the pet situation estimation system 1 executes an "estimation process" for estimating the pet situation.
  • the model storage unit P1 is configured to be able to store data including a plurality of trained models.
  • the model storage unit P1 includes a rewritable non-volatile memory such as an EEPROM (Electrically Erasable Programmable Read-Only Memory).
  • the condition storage unit P2 is configured to be able to store data including the condition information 9.
  • the condition storage unit P2 includes a rewritable non-volatile memory such as EEPROM.
  • the model storage unit P1 and the condition storage unit P2 may be composed of the same storage unit (memory). Further, the model storage unit P1 and the condition storage unit P2 may be the built-in memory of the processing unit 3.
  • the processing unit 3 can be realized by, for example, a computer system including one or more processors (microprocessors) and one or more memories. That is, by executing one or more programs (applications) stored in one or more memories by one or more processors, the processing unit 3 functions as each part to be described later.
  • the program is recorded in advance in the memory of the processing unit 3 here, it may be recorded and provided through a telecommunication line such as the Internet or on a non-temporary recording medium such as a memory card.
  • the processing unit 3 has a function as an overall control of the pet camera 100, that is, a control unit that controls the image pickup unit 2, the communication unit 11, the model storage unit P1, the condition storage unit P2, and the like.
  • the processing unit 3 includes an acquisition unit 31, a region detection unit 32, an information generation unit 33, an estimation unit 34, an output unit 35, and an object detection unit 36. ing.
  • the area detection unit 32 and the information generation unit 33 constitute a pet detection unit X1 that detects a dog (pet 5) from the image data D1.
  • the acquisition unit 31 is configured to acquire image data D1 (for example, a still image) from the image pickup unit 2.
  • the acquisition unit 31 may acquire an image of one frame (frame) in the moving image from the image pickup unit 2 as image data D1.
  • the processing unit 3 executes the estimation process.
  • the area detection unit 32 of the pet detection unit X1 is configured to detect a specific area A1 indicating at least a part of the appearance of the pet 5 which is the subject H1 in the image data D1.
  • the region detection unit 32 detects the specific region A1 based on the trained model (hereinafter, may be referred to as “second model M2”).
  • the second model M2 is (machine learning) learning the appearance factor (feature amount) of a predetermined kind of pet (here, "dog”) in order to recognize an image.
  • the second model M2 is stored in the model storage unit P1.
  • the second model M2 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network.
  • the neural network (including a multi-layer neural network) may include, for example, a CNN (Convolutional Neural Network), a BNN (Bayesian Neural Network), or the like.
  • the second model M2 is realized by mounting a trained neural network on an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array).
  • the second model M2 is not limited to the model generated by deep learning.
  • the second model M2 may be a model generated by a support vector machine, a decision tree, or the like.
  • the area detection unit 32 estimates whether or not the dog (pet 5) exists as the subject H1 in the acquired image data D1 by using the second model M2.
  • the region detection unit 32 detects the specific region A1 (see FIGS. 3A to 6) defined by the bounding box surrounding the pet 5.
  • the specific region A1 is not limited to being defined by the bounding box, and may be defined by, for example, segmentation.
  • the region detection unit 32 is a head region A2 (FIGS. 3A to 3) showing the head 50 (see FIG. 2) of the subject H1 based on the trained model (hereinafter, may be referred to as “third model M3”). 6) is detected.
  • the third model M3 learns the appearance factor (feature amount) in order to recognize an image of the head of a predetermined kind of pet (here, "dog"). That is, the region detection unit 32 further has a function as a head detection unit that detects the head region A2 including the face portion by using the third model M3. However, the area detection unit 32 and the head detection unit may be provided separately.
  • the third model M3 is stored in the model storage unit P1.
  • the third model M3 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network.
  • the third model M3 is not limited to the model generated by deep learning. Further, the third model M3 may be composed of the same model as the second model M2.
  • the region detection unit 32 estimates whether or not the head 50 of the dog (pet 5) is present in the image data D1 by using the third model M3.
  • the region detection unit 32 estimates that the head 50 of the dog (pet 5) exists in the image data D1
  • the region detection unit 32 has a head region A2 defined by a bounding box surrounding the head 50 (see FIGS. 3A to 6). Is detected.
  • the head region A2 is not limited to being defined by the bounding box, and may be defined by, for example, segmentation.
  • the detection of either the specific region A1 or the head region A2 fails ( False detection) may occur.
  • the region detection unit 32 is "dog face (head 50)". Even if the head region A2 can be detected, it may be out of the annotation of "dog (whole appearance)". As a result, the detection of the specific region A1 as a "dog” may fail.
  • the region detection unit 32 detects at least one of the “dog” and the “dog face”, it is estimated that the dog (pet 5) is present in the acquired image data D1. If only the head region A2 is detected, the region detection unit 32 sets a region substantially equal to the head region A2 as the specific region A1. If the detection of the head region A2 fails even though the specific region A1 is detected, the processing unit 3 may end the estimation processing related to the image data D1.
  • the information generation unit 33 of the pet detection unit X1 detects a trained model (first model M1) that has learned about the pet's posture in order to recognize an image of the pet's (here, “dog”) posture, and a specific region A1.
  • Pet information is generated based on the image data D1.
  • the pet information includes posture information regarding at least the posture of the pet 5 shown in the specific area A1.
  • the information generation unit 33 has a posture determination unit 331, an orientation determination unit 332, and a distance determination unit 333.
  • the posture determination unit 331 is configured to determine (estimate) the posture of the dog (pet 5) using the first model M1 and the information regarding the specific area A1.
  • the first model M1 learns the appearance factor (feature amount) in order to recognize an image of the posture of a dog.
  • the first model M1 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network, similarly to the second model M2 and the third model M3.
  • the first model M1 is not limited to the model generated by deep learning.
  • the first model M1 may be composed of the same model as the second model M2 and the third model M3.
  • 3A to 6A are all examples of image data D1 that can be the target of estimation processing by the pet situation estimation system 1.
  • FIG. 3A is an example of image data D1 showing a state in which the pet 5 stands up on four legs (first posture) and looks at the surroundings.
  • FIG. 3B is an example of image data D1 showing a state in which the pet 5 is lying down on the floor (second posture) and is looking at the surroundings while facing the front.
  • FIG. 3C is an example of image data D1 showing a state in which the pet 5 is in the second posture, facing slightly to the right and looking at the surrounding state, as in FIG. 3B.
  • FIG. 4A is an example of image data D1 showing a state in which the pet 5 is running in a posture in which the front legs are extended forward and the hind legs are extended backward (third posture). In FIG. 4A, the tail of pet 5 is facing up.
  • FIG. 4B is an example of image data D1 showing a state in which the pet 5 is walking with one forefoot and one hindfoot on the floor and the other foot bent away from the floor (fourth posture). be. In FIG. 4B, the tail of pet 5 hangs down.
  • FIG. 4C is an example of image data D1 showing a sleeping state with the eyes closed in a posture in which the pet 5 is lying down (fifth posture).
  • FIG. 5A is an example of image data D1 showing a state in which the pet 5 stands upright only on its hind legs (sixth posture) and is fond of a person (for example, a user 300).
  • FIG. 5B is an example of image data D1 showing a state in which the pet 5 is sitting (seventh posture), facing a person (for example, a user 300) and feeling nostalgic.
  • FIG. 5C is image data D1 showing a state in which the pet 5 is playing with the toy 63 (ball in the illustrated example) in a posture in which one forefoot is separated from the floor and stands up on the other foot (eighth posture). This is an example.
  • FIG. 6 is an example of image data D1 showing a state in which the pet 5 is eating food in the tableware 64 in a posture (9th posture) in which the pet 5 stands up on four legs while lowering the head 50.
  • the above 1st to 9th postures are merely examples of postures that a dog (pet 5) can take, and are not limited thereto.
  • the first model M1 is generated by machine learning about the posture of the dog, which has a high relationship with some behavior of the dog (particularly, a behavior related to some emotion).
  • machine learning is performed so that even finer states can be distinguished for specific postures that are desired to be estimated more accurately.
  • the "specific posture” here is a posture that is closely related to the behavior of the dog and is closely related to the emotion of the dog.
  • the dog's emotions that can be read from the dog's behavior are, for example, “joy”, “anger”, “sorrow”, “comfort”, “fear”, “relaxation”, etc., and the dog's specific posture. Some of the behaviors associated with may be associated with any of these emotions.
  • first posture Even if the pet 5 stands up on four legs (first posture), machine learning can be performed so that the posture can be estimated by distinguishing whether the pet 5 is showing teeth or tongue, and whether the ears are standing or hanging. Will be done.
  • the first posture showing teeth is related to the behavior of "intimidating”.
  • the first posture in which the ears are standing is related to the behavior of "being alert” looking at the surroundings.
  • the first posture in which the ears are drooping is related to the behavior of "being alert”.
  • the behavior of "intimidating” can be set as an behavior related to the dog's emotion of "anger”.
  • the behavior of "being alert” can be set as an behavior related to the dog's emotion of "fear”.
  • the behavior of "being alert” can be set as an behavior related to the dog's emotions such as “sorrow” and “cheap”. Also, even in the posture in which the pet 5 is sleeping (fifth posture), how it is sleeping, specifically, whether the back is curled or stretched, whether the eyes are closed, and whether the tongue is sticking out. Machine learning is performed so that the posture can be estimated by distinguishing the state such as whether or not.
  • a large number of image data are used in the annotation work (determination of teacher data) for tagging the image data (raw data).
  • the training dataset is selected from a large number of image data collected without restrictions on the breed, dog color, orientation of the dog, background in which the dog appears, and the like.
  • the data set for learning may include not only the image data of the actual dog but also the image data of the stuffed dog and the image data of the dog created by CG, and machine learning is performed by mixing these.
  • the posture information of the pet 5 determined by the posture determination unit 331 (including the determination result and the information regarding the specific area A1) is output to the distance determination unit 333.
  • the orientation determination unit 332 is configured to determine (estimate) the direction in which the pet 5 is facing in the image data D1 by using the image data D1 in which the specific region A1 is detected. That is, the pet information further includes the determination result of the orientation determination unit 332. Information regarding the detected specific region A1 and information regarding the head region A2 are input to the orientation determination unit 332 from the region detection unit 32. The orientation determination unit 332 may determine the orientation of the pet 5 which is the subject H1 only from the information regarding the specific region A1 detected by the region detection unit 32, but in the present embodiment, the information regarding the specific region A1 and the head may be determined. The orientation of the pet 5 is determined based on the information about the region A2.
  • the orientation determination unit 332 determines the direction in which the pet 5 is facing, at least from the relative positional relationship of the head region A2 with respect to the specific region A1. Specifically, the orientation determination unit 332 acquires information regarding the position and size of the pet 5 in the image data D1 through the specific area A1 detected by the area detection unit 32. Further, the orientation determination unit 332 acquires information regarding the position and size of the head 50 of the pet 5 in the image data D1 through the head region A2 detected by the region detection unit 32.
  • the orientation determination unit 332 determines that the pet 5 is generally facing to the right because the head region A2 is located in the upper right corner of the specific region A1. Further, in the example of FIG. 3B, in the orientation determination unit 332, since the head region A2 is located in the central portion in the left-right direction of the upper part in the specific region A1, the pet 5 faces the front substantially. judge.
  • the orientation determination unit 332 estimates a position (or a range thereof) of the pet 5's line of sight in the image data D1, and outputs the position information as a determination result.
  • the orientation determination unit 332 includes not only the relative positional relationship of the head region A2 with respect to the specific region A1, but also the ratio of the area occupied by the head region A2 to the specific region A1, the eyes and nose in the head region A2, and the like.
  • the orientation of the pet 5 may be determined in consideration of the position of the mouth and the like. In this case, the reliability of the determination is further improved.
  • the distance determination unit 333 is configured to determine (estimate) the relative distance of the pet 5 to the object region B1 (described later) (hereinafter, may be referred to as "distance between pet objects"). That is, the pet information further includes the determination result (information regarding the distance between pet objects) of the distance determination unit 333. In other words, an object (specific object 6) other than the dog (pet 5) may be reflected in the image data D1 as a part of the subject.
  • the human leg 61 is reflected as the specific object 6.
  • the entire appearance 62 of the person sitting on the floor is reflected as the specific object 6.
  • the dog toy 63 is reflected as the specific object 6.
  • the tableware 64 containing the food of the dog is reflected as the specific object 6.
  • the object detection unit 36 is configured to detect an object region B1 indicating a specific object 6 other than the pet 5 in the image data D1.
  • the object detection unit 36 may refer to a trained model (hereinafter, referred to as "fourth model M4") in which an appearance factor (feature amount) is learned in order to recognize an image of a specific object of a predetermined type. ), The object region B1 is detected.
  • the fourth model M4 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network, similarly to the first model M1 to the third model M3.
  • the fourth model M4 is not limited to the model generated by deep learning. Further, the fourth model M4 may be composed of the same model as the first model M1, the second model M2, and the third model M3.
  • the fourth model M4 is generated by machine learning about an object that has a high relationship with some behavior of the dog (particularly, an behavior related to some emotion) for a specific object.
  • some behavior of the dog particularly, an behavior related to some emotion
  • the specific object 6 is a part (for example, a leg 61) or all (for example, an overall appearance 62) of a person, it is highly possible that the pet 5 is taking some emotion-related action.
  • the specific object 6 is a toy 63 or tableware 64, there is a high possibility that the action of "playing" or the action of "eating” is taken.
  • a learning data set for generating the fourth model M4 among a large number of image data showing an object other than a dog, an object that the dog is likely to be interested in is shown as a specific object.
  • Image data is selected.
  • the data set for learning may include not only the image data of the actual object but also the image data of the object created by CG, and machine learning is performed by mixing these.
  • the specific object is defined as an object other than a dog, other kinds of animals (cats and the like) may also be included as an object that the dog is likely to be interested in.
  • the object detection unit 36 estimates whether or not the specific object 6 exists in the image data D1 by using the fourth model M4. When it is estimated that the specific object 6 exists in the image data D1, the object detection unit 36 detects the object region B1 (see FIGS. 5A to 6) defined by the bounding box surrounding the specific object 6.
  • the object area B1 is not limited to being defined by the bounding box, and may be defined by, for example, segmentation.
  • the object detection unit 36 considers an object that does not correspond to the specific object 6 as a “background”.
  • the object detection unit 36 outputs information regarding the detected object region B1 (including information regarding the type of the specific object 6) to the distance determination unit 333.
  • the object detection unit 36 outputs to that effect to the distance determination unit 333.
  • the distance determination unit 333 includes information on the head region A2 detected by the region detection unit 32, information on the object region B1 detected by the object detection unit 36, and attitude information of the pet 5 determined by the attitude determination unit 331. Based on, the distance between pet objects is determined.
  • the distance determination unit 333 is based on the distance from the position of the object region B1 (the position of the upper left corner, the position of the center of gravity, etc.) to the position of the pet 5, for example, a three-step distance relationship. It is determined which of the above is applicable.
  • the three-stage distance relationship is a first distance state (a very close distance), a second distance state (a relatively short distance), and a third distance state (a relatively long distance).
  • the first distance state to the third distance state are classified based on, for example, the number of pixels.
  • the fact that the distance relationship has three stages is just an example, and it may be two stages, four stages or more, or stepless (pixel unit).
  • the position of the head region A2 (the position of the upper left corner or the position of the center of gravity, etc.) is defined as the “position of the pet 5", but the position of the specific area A1 (the position of the upper left corner or the position of the center of gravity, etc.) is defined as the "pet”. It may be defined as "position of 5".
  • the distance determination unit 333 further determines the distance between pet objects in consideration of the degree (area) in which the object region B1 and the head region A2 (or the specific region A1) overlap each other.
  • the pet 5 and the specific object 6 may be arranged in the depth direction and may be overlapped in the image data D1. be. If the distance determination unit 333 determines the distance between pet objects based only on the distance from the position of the specific object 6 to the position of the pet 5 in the image data D1, the pet 5 does not take any action related to the specific object 6. However, there is a possibility that it is determined to be the first distance state. Therefore, the distance determination unit 333 further considers the posture information of the pet 5 determined by the attitude determination unit 331, and determines which of the first to third distance states is applicable.
  • the distance determination unit 333 does not have the posture in which the head 50 is lowered.
  • This image data D1 may be regarded as a third distance state.
  • the distance determination unit 333 may consider the image data D1 as an outlier and end the estimation process.
  • the distance determination unit 333 outputs the determination result regarding the distance between pet objects, the information regarding the head region A2, and the posture information to the estimation unit 34.
  • the distance determination unit 333 skips the determination regarding the distance between pet objects and outputs the information regarding the head region A2 and the posture information to the estimation unit 34. do.
  • the pet detection unit X1 executes the above-mentioned detection process of the specific area A1 in the area detection unit 32 and the generation process of generating pet information in the information generation unit 33 in this order.
  • the pet detection unit X1 may execute the detection process and the generation process substantially simultaneously in parallel.
  • the estimation unit 34 is configured to estimate the pet status regarding at least one of the emotions and behaviors of the pet 5 shown in the specific area A1 based on the pet information.
  • the estimation unit 34 estimates the pet situation based on the pet information and the condition information 9.
  • the pet information includes the posture information regarding the posture of the pet 5 determined by the posture determination unit 331, the information regarding the orientation of the pet 5 determined by the orientation determination unit 332, and the pet determined by the distance determination unit 333. Includes information about the distance between objects.
  • Condition information 9 is information related to at least one of a specific behavior and emotion of a pet preset as an extraction target.
  • the correspondence information hereinafter, may be referred to as “pattern” as shown in Tables 1 to 4 below is an example that can be included as the condition information 9, and many such patterns are prepared. It is stored in the condition storage unit P2 as a database.
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches the obtained pet information. At that time, the estimation unit 34 determines whether or not the pet 5 is facing the specific object 6 from the information regarding the orientation of the pet 5 and the information regarding the object region B1, for example, the object region on the line of sight of the pet 5. Whether or not B1 exists is estimated, and the estimation result is taken into consideration to search the condition information 9.
  • the pet information obtained is "first distance state", "standing on four legs and lowering the head", and "facing the tableware". It is assumed that the three results are included.
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • Table 1 there is a pattern of matching conditions, and the "behavior / emotion" of "during meal / delicious” is associated with it. Therefore, the estimation unit 34 estimates that the pet status of the pet 5 in the image data D1 is "during meal / delicious".
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • Table 2 there is a pattern of matching conditions, and the "behavior / emotion" of "nostalgia / joy" is associated with it. Therefore, the estimation unit 34 estimates that the pet status of the pet 5 in the image data D1 is "nostalgia / joy".
  • the obtained pet information includes three results: "third distance state", "standing on four legs and showing teeth", and "turning toward a person”. And.
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • Table 3 there is a pattern of matching conditions, and the "behavior / emotion" of "intimidating / angry” is associated with it. Therefore, the estimation unit 34 estimates that the pet status of the pet 5 in the image data D1 is "intimidating / angry".
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • Table 4 there is a pattern of matching conditions, and "behavior / emotion" of "playing / fun” is associated with it. Therefore, the estimation unit 34 estimates that the pet status of the pet 5 in the image data D1 is "playing / fun”.
  • each pattern both behavior and emotion are associated with the condition, but there are cases where only one of them is associated.
  • the types of conditions for each pattern are not limited to the above three types (distance to an object, pet posture, and pet orientation), at least including the conditions related to "pet posture". For example, a condition regarding an "area" in which the head region A2 and the object region B1 overlap may be included.
  • the condition information 9 of the present embodiment includes a plurality of directions in which the pet 5 is facing (directions of the tableware 64, the person, and the toy 63) and a plurality of pet situations (meal / delicious, nostalgic / joy). , And playing / fun) include orientation information associated with each other.
  • the estimation unit 34 estimates the pet situation based on the determination result of the orientation determination unit 332 and the orientation information. Therefore, the reliability of the estimation regarding the situation of the pet 5 can be improved.
  • condition information 9 in the present embodiment includes a plurality of threshold values (first distance state to third distance) relating to the distance between the plurality of types of the specific object 6 (tableware 64, the person, and the toy 63) and the pet 5 and the specific object 6.
  • the state) and the associated information are included.
  • the estimation unit 34 estimates the pet situation by comparing the determination result of the distance determination unit 333 with the plurality of threshold values. Therefore, the reliability of the estimation regarding the pet situation can be further improved.
  • the distance between the pet objects determined by the distance determination unit 333 is not the first distance state to the third distance state, but the distance between the pet 5 and the specific object 6 is quantified information (for example, the number of pixels). As long as it is a numerical value corresponding to), a plurality of threshold values may be digitized information.
  • the estimation unit 34 when the specific object 6 shown in the object area B1 detected by the object detection unit 36 is the tableware 64 and the distance determined by the distance determination unit 333 is equal to or less than a predetermined threshold value. As for the pet situation, it is estimated that the pet 5 is eating. This estimation is based on the fact that when the specific object 6 is the tableware 64, the pet 5 may be in close contact with the specific object 6 as the tip of the nose is thrust into the tableware 64. Therefore, when the pet 5 of the image data D1 is actually eating, there is a high possibility that the pet situation is also estimated to be "during eating".
  • the estimation unit 34 can estimate the pet situation even when the specific object 6 does not exist in the image data D1 and the object region B1 is not detected.
  • the condition information 9 includes a pattern in which only the posture of the pet and at least one of the specific behaviors and emotions of the pet are associated with each other. Specifically, the pet's posture of "lying with his eyes closed” is associated with "behavior / emotion" of "sleeping / peaceful". As a result, the estimation unit 34 estimates that the pet status of the pet 5 in the image data D1 is "sleeping / peaceful" only by the posture of the pet.
  • the output unit 35 is configured to output the estimation result (estimated pet status) of the estimation unit 34.
  • the output unit 35 outputs the estimation result of the estimation unit 34 in a mode in which the estimation result is associated with the image data D1 in which the specific region A1 which is the basis of the estimation result is detected.
  • the output unit 35 transmits information (hereinafter referred to as “output information”) in which the estimation result (for example, “sleeping / peaceful”) and the image data D1 are associated with the presenting device 4 through the communication unit 11. If the user 300 carrying the presentation device 4 is out of the office, the output information may be transmitted to the presentation device 4 via the server 7. It is preferable that the output information further includes information on the time when the image data D1 which is the basis of the estimation result is imaged by the image pickup unit 2.
  • the output information is stored in a memory or the like built in the pet camera 100.
  • the output information may be transmitted to and stored in the server 7 or other peripheral devices.
  • the presentation device 4 When the presentation device 4 receives the output information from the pet camera 100, the presentation device 4 replaces the pet status included in the output information with, for example, a simple expression (message), and notifies the screen by a push notification or the like with the message. You may (present). When the user 300 opens the push notification, the presentation device 4 may activate the pet application and present a detailed pet status including the image data D1 on the screen (see FIGS. 7A and 7B). Alternatively, the output information may be notified by e-mail via a mail server.
  • a simple expression messages
  • You may (present).
  • the presentation device 4 may activate the pet application and present a detailed pet status including the image data D1 on the screen (see FIGS. 7A and 7B).
  • the output information may be notified by e-mail via a mail server.
  • the presentation device 4 displays the image data D1 (see FIG. 3C: the posture of lying down on the floor) which is the basis for estimating the pet situation on the screen 430 of the display unit 43.
  • the condition information 9 includes a pattern in which the "emotion" of "loneliness” is associated with the two conditions of "there is no specific object” and "the posture of lying on the floor”.
  • “lonely” is estimated as a pet situation.
  • the presenting device 4 displays the character string data obtained by converting the emotion of the pet 5 "lonely” into a familiar expression "sadness” with a balloon superimposed on the image data D1.
  • the presentation device 4 is displayed on the screen 430 of the display unit 43 with the image data D1 (see FIG. 6: standing on four legs and lowering the head) which is the basis for estimating the pet situation. Attitude) is displayed.
  • the condition information 9 is "during meal / delicious” under the three conditions of "first distance state", "standing on four legs and lowering the head", and "facing the tableware". It includes a pattern in which "behavior / emotion" is associated. As a result, it is an example that the pet situation is estimated to be “meal / delicious”.
  • the presentation device 4 superimposes the character string data "during meal” and the character string data obtained by converting the emotion of the pet 5 "delicious” into a familiar expression "delicious” on the image data D1 with a balloon. Let me display it.
  • the presentation device 4 further displays the time (date and time) when the image data D1 is captured on the screen 430 of the display unit 43.
  • the output unit 35 is not limited to transmitting the output information including the image data D1 (raw data) that is the basis of the estimation result, and may be transmitted after processing the image data. Further, the output unit 35 may replace the image data D1 with an icon image corresponding to the estimated pet situation (for example, an icon image of a dog that looks lonely with tears) and then transmits the image data D1. The processing of the data and the replacement with the icon image may be executed on the side of the presentation device 4 or the server 7.
  • the estimation result of the estimation unit 34 is not limited to the screen output, and may be performed by voice output instead of screen output or in addition to screen output.
  • the processing unit 3 executes the estimation process every time the acquisition unit 31 acquires the image data D1. For example, when the image pickup unit 2 captures a still image at a predetermined interval (for example, an interval of several minutes or several tens of minutes), the processing unit 3 can execute the estimation process at the predetermined interval. Alternatively, when the imaging unit 2 captures a moving image at a predetermined frame rate, frames are spaced at regular intervals (for example, intervals of several minutes or tens of minutes) for a plurality of consecutive frame images in the moving image. An image can be acquired as image data D1 and an estimation process can be executed.
  • a predetermined interval for example, an interval of several minutes or several tens of minutes
  • the output unit 35 may transmit the output information to the presenting device 4 each time the estimation unit 34 estimates the pet status for one image data D1, or the output information may be transmitted to some extent to a memory or the like built in the pet camera 100. You may pool them and send them all at once.
  • the output unit 35 of the estimation unit 34 when the estimation result of the estimation unit 34 regarding the plurality of image data D1 indicates that the pet 5 is in a posture facing the same direction consecutively a predetermined number of times (for example, twice), the output unit 35 of the estimation unit 34.
  • the output of the estimation result may be limited. Specifically, the posture and orientation of the pet 5 with respect to a certain image data D1 is "standing on four legs and lowering the head" and “facing the tableware" (that is, "during meal”). It is assumed that the output information is output to the presentation device 4 by presuming that (action).
  • the output unit 35 does not have to output the estimation result. ..
  • the output unit 35 may collectively transmit the output information having the same estimation result a predetermined number of times as one estimation result. The setting regarding the "predetermined number of times" may be appropriately changed by the operation input of the user 300 to the pet camera 100 or the presentation device 4.
  • the pet camera 100 installed in the house of the user 300 captures and monitors a predetermined management area in which the pet 5 can mainly act by the image pickup unit 2.
  • the pet camera 100 may capture the management area as a still image at a predetermined cycle, or may continue to capture the control area as a moving image for a predetermined period.
  • the pet situation estimation system 1 of the pet camera 100 acquires the image data D1 (still image or one frame in the moving image) captured by the image pickup unit 2 (S1), the estimation process is performed. Is executed (S2).
  • the pet situation estimation system 1 determines whether or not the dog (pet 5) is captured as the subject H1 in the image data D1 by using the second model M2 in the area detection unit 32 (S3). If the dog (pet 5) is shown (S3: Yes), the pet situation estimation system 1 detects the specific region A1 indicating the pet 5 (S4: pet detection step), and determines the head 50 (S5). move on.
  • the pet situation estimation system 1 determines whether or not the head 50 of the dog (pet 5) is shown in the image data D1 by using the third model M3 in the area detection unit 32 (S5). If the head 50 is shown (S5: Yes), the pet situation estimation system 1 detects the head region A2 indicating the head 50 (S6). In the present embodiment, if the head 50 is not shown (S5: No), the pet situation estimation system 1 finishes the estimation process for the image data D1 and waits for the acquisition of the next image data D1 (returns to S1). ). However, as long as the specific region A1 is detected, the estimation process may be continued even if the head region A2 is not detected.
  • the process proceeds to the determination of the specific object 6 (S9: see FIG. 9).
  • the pet situation estimation system 1 sets a region substantially equivalent to the head region A2 in the specific region A1 (S7: No). S8), the process proceeds to the determination (S9) of the specific object 6.
  • the pet situation estimation system 1 determines whether or not the specific object 6 is captured in the image data D1 by using the fourth model M4 in the object detection unit 36 (S9). If the specific object 6 is captured (S9: Yes), the pet situation estimation system 1 detects the object region B1 indicating the specific object 6 (S10), and proceeds to the posture determination (S12). On the other hand, if the specific object 6 is not shown (S9: No), the result that the object area B1 is not detected is obtained (S11), and the posture determination (S12) proceeds.
  • the pet situation estimation system 1 determines the posture of the dog (pet 5) by the posture determination unit 331 using the information regarding the first model M1 and the specific area A1 (S12).
  • the pet situation estimation system 1 determines the orientation of the pet 5 by the orientation determination unit 332 based on the information regarding the specific area A1 and the information regarding the head region A2 (S13).
  • the pet situation estimation system 1 determines the distance between pet objects based on the information regarding the head region A2, the information regarding the object region B1, and the posture information by the distance determination unit 333 (S14). If the object area B1 is not detected, the process S14 is skipped.
  • the pet situation estimation system 1 generates pet information from the determination results obtained in the processes S12 to S14 (S15: information generation step).
  • the pet situation estimation system 1 estimates the pet situation based on the pet information and the condition information 9 (S16: estimation step).
  • the pet situation estimation system 1 transmits output information associated with the estimated pet situation and the image data D1 to the presenting device 4, and causes the presenting device 4 to present the output information (S17).
  • the estimation unit 34 estimates the pet situation regarding at least one of the emotions and behaviors of the pet 5 based on the pet information 8, and as a result, it is easy to grasp the pet situation. can do.
  • the orientation determination unit 332 for determining the direction in which the pet 5 is facing in the image data D1 since the orientation determination unit 332 for determining the direction in which the pet 5 is facing in the image data D1 is provided, the reliability of estimation regarding the pet situation can be improved by considering the orientation of the pet 5. Can be improved. Further, since the direction in which the pet 5 is facing is determined from the relative positional relationship of the head region A2 with respect to the specific region A1, the reliability of the determination regarding the direction in which the pet 5 is facing can be further improved.
  • the output unit 35 outputs the estimation result of the estimation unit 34 in the form of associating the estimation result of the estimation unit 34 with the image data D1 in which the specific region A1 which is the basis of the estimation result is detected, the situation of the pet can be better grasped. Can be made easier.
  • the user 300 can easily grasp the behavior / emotion of the pet 5 through the pet situation estimated by the pet situation estimation system 1, and as a result, it becomes easy to communicate with the pet 5. Further, the user 300 can easily grasp the behavior / emotion of the pet 5 in the house by the notification from the presentation device 4 even while going out, and as a result, it is easy to manage (watch over) the pet 5. In particular, for example, when the pet situation is presumed to be an urgent behavior (such as being ill or tired), it is possible to quickly know that fact.
  • the above embodiment is only one of the various embodiments of the present disclosure.
  • the above embodiment can be variously modified according to the design and the like as long as the object of the present disclosure can be achieved.
  • the same function as the pet situation estimation system 1 according to the above embodiment may be embodied by a pet situation estimation method, a computer program, a non-temporary recording medium on which a computer program is recorded, or the like.
  • the pet situation estimation system 1 in the present disclosure includes a computer system.
  • the computer system mainly consists of a processor and a memory as hardware.
  • the processor executes the program recorded in the memory of the computer system, the function as the pet situation estimation system 1 in the present disclosure is realized.
  • the program may be pre-recorded in the memory of the computer system, may be provided through a telecommunications line, and may be recorded on a non-temporary recording medium such as a memory card, optical disk, hard disk drive, etc. that can be read by the computer system. May be provided.
  • the processor of a computer system is composed of one or more electronic circuits including a semiconductor integrated circuit (IC) or a large scale integrated circuit (LSI).
  • IC semiconductor integrated circuit
  • LSI large scale integrated circuit
  • the integrated circuit such as IC or LSI referred to here has a different name depending on the degree of integration, and includes an integrated circuit called a system LSI, VLSI (Very Large Scale Integration), or ULSI (Ultra Large Scale Integration). Further, an FPGA (Field-Programmable Gate Array) programmed after the LSI is manufactured, or a logical device capable of reconfiguring the junction relationship inside the LSI or reconfiguring the circuit partition inside the LSI should also be adopted as a processor. Can be done.
  • a plurality of electronic circuits may be integrated on one chip, or may be distributed on a plurality of chips. A plurality of chips may be integrated in one device, or may be distributed in a plurality of devices.
  • the computer system referred to here includes a microcontroller having one or more processors and one or more memories. Therefore, the microcontroller is also composed of one or a plurality of electronic circuits including a semiconductor integrated circuit or a large-scale integrated circuit.
  • a plurality of functions in the pet situation estimation system 1 are integrated in one housing.
  • the components of the pet situation estimation system 1 may be distributed in a plurality of housings.
  • at least a part of the trained models of the first model M1 to the fourth model M4 of the pet situation estimation system 1 may be provided outside the pet camera 100 (for example, an external server such as a server 7). ..
  • a plurality of functions in the pet situation estimation system 1 may be integrated in one housing (housing of the pet camera 100) as in the basic example. Further, at least a part of the functions of the pet situation estimation system 1, for example, a part of the functions of the pet situation estimation system 1 may be realized by a cloud (cloud computing) or the like.
  • FIG. 10 shows the pet situation estimation system 1A of this modified example.
  • the same reference numerals may be given and the description thereof may be omitted as appropriate.
  • the pet detection unit X1 has an area detection unit 32 and an information generation unit 33, and after the area detection unit 32 detects the pet 5, the posture determination unit of the information generation unit 33
  • the posture of the pet 5 is determined by 331 and the posture information is generated. That is, first, the presence or absence of the pet 5 in the acquired image data D1 is detected, and then the posture is determined.
  • the pet situation estimation system 1A of this modification is different from the pet situation estimation system 1 of the basic example in that the area detection unit 32 has the function of the posture determination unit 331.
  • the area detection unit 32 identifies the pet 5 in a specific posture based on the first model M1 that has learned about the posture of the pet in order to recognize the image of the pet's posture in the image data D1. Region A1 is detected.
  • the area detection unit 32 uses, for example, the first model M1 to the fourth model M4 to determine whether or not the pet 5 in a specific posture is captured in the image data D1 as the subject H1 and specifies it.
  • the specific area A1 indicating the pet 5 in the posture of is detected.
  • the specific posture is a posture that is closely related to the behavior of the dog and is closely related to the emotion of the dog. Specific postures include, for example, sitting, lying down, sleeping, or standing on four legs.
  • Information about the specific area A1 indicating the pet 5 taking a specific posture is input to the information generation unit 33 and used for the orientation determination in the orientation determination unit 332 and the distance determination in the distance determination unit 333.
  • the pet detection unit X1 of this modification detects the pet 5 in a specific posture rather than determining the posture after detecting the presence of the pet 5.
  • the estimation unit 34 estimates the pet situation based on the pet information and the condition information 9.
  • the estimation unit 34 estimates the pet situation by using the pet information and the trained model (classifier) machine-learned for at least one of the specific behaviors and emotions of the pet instead of the condition information 9. May be good.
  • the classifier classifies the pet information into at least one of the pet's specific behaviors and emotions by inputting the pet information.
  • the number of dogs (pets 5) as the subject H1 in one image data D1 was one.
  • the number of dogs (pets 5) as the subject H1 in one image data D1 is two or more (for example, two dogs, a parent dog and a puppy).
  • the pet situation estimation system 1 When a plurality of specific areas A1 are detected in one image data D1, the pet situation estimation system 1 generates pet information for each specific area A1 and estimates the pet situation.
  • the number of specific objects 6 other than the pet 5 in one image data D1 was zero or one.
  • the number of the specific objects 6 in one image data D1 may be two or more.
  • the pet situation estimation system 1 determines the distance between pet objects with respect to each object area B1. In this case, the pet situation estimation system 1 may estimate the pet situation by selecting the object region B1 having the shortest distance from the pet 5 among the plurality of pet object distances.
  • the pet situation estimation system 1 has a function of determining the orientation of the pet 5 (direction determination unit 332) and a function of determining the distance between pet objects (distance determination unit 333). Is not a required feature and may be omitted.
  • At least a part of the first model M1 to the fourth model M4 in the basic example may be machine-learned by reinforcement learning.
  • the pet situation estimation system (1,1A) includes a region detection unit (32), an information generation unit (33), an estimation unit (34), and the pet status estimation system (1,1A).
  • the area detection unit (32) detects a specific area (A1) indicating at least a part of the appearance of the pet (5), which is the subject (H1), in the image data (D1).
  • the information generation unit (33) generates pet information.
  • the pet information includes at least the posture information of the pet (5) based on the trained model (first model M1) learned about the pet posture in order to recognize the image of the pet posture and the image data (D1). ..
  • the estimation unit (34) estimates the pet situation regarding at least one of the emotions and behaviors of the pet (5) shown in the specific area (A1) based on the pet information. According to the first aspect, the estimation unit (34) estimates the pet situation regarding at least one of the emotions and behaviors of the pet (5) based on the pet information, and as a result, the situation of the pet (5). Can be made easier to understand.
  • the estimation unit (34) has the pet information and the conditional information related to at least one of the specific behavior and emotion of the pet (the pet's specific behavior and emotion).
  • the pet situation is estimated based on 9).
  • the estimation unit (34) simplifies the pet situation estimation system (1,1A) as compared with the case where the pet situation is estimated using, for example, a machine-learned trained model. It is feasible in the configuration.
  • the region detection unit (32) is based on the trained model (second model M2), and the specific region (2nd model M2) is used. A1) is detected.
  • the trained model (second model M2) learns the appearance factors of a predetermined type of pet in order to recognize an image. According to the third aspect, the reliability regarding the detection of the specific region (A1) can be improved, and as a result, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the region detection unit (32) is based on the trained model (third model M3).
  • the head region (A2) indicating the head (50) of the subject (H1) is detected.
  • the trained model (third model M3) is a trained model in which the appearance factors of a predetermined type of pet's head are trained in order to recognize an image. According to the fourth aspect, the reliability regarding the detection of the head region (A2) can be improved, and as a result, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the information generation unit (33) uses the image data (D1) in which the specific region (A1) is detected to obtain an image. It has an orientation determination unit (332) for determining the direction in which the pet (5) is facing in the data (D1).
  • the pet information further includes the determination result of the orientation determination unit (332). According to the fifth aspect, the reliability of the estimation regarding the situation of the pet (5) can be improved by considering the direction in which the pet (5) is facing.
  • the orientation determination unit (332) has at least a positional relationship of the head region (A2) with respect to the specific region (A1). Therefore, the direction in which the pet (5) is facing is determined. According to the sixth aspect, the reliability of the determination regarding the direction in which the pet (5) is facing can be improved.
  • the estimation unit (34) relates to pet information and at least one of the pet's specific behaviors and emotions.
  • the pet situation is estimated based on the condition information (9).
  • the condition information (9) includes direction information in which a plurality of directions in which the pet (5) is facing and a plurality of pet situations are associated with each other.
  • the estimation unit (34) estimates the pet situation based on the determination result of the orientation determination unit (332) and the orientation information. According to the seventh aspect, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the pet situation estimation system (1,1A) further includes an output unit (35) that outputs an estimation result of the estimation unit (34) in any one of the fifth to seventh aspects. ..
  • the output unit (35) is the estimation unit.
  • the output of the estimation result of (34) is limited. According to the eighth aspect, it is possible to suppress continuous output of similar estimation results, and for example, it is possible to reduce the processing load.
  • the pet situation estimation system (1,1A) shows a specific object (6) other than the pet (5) in the image data (D1) in any one of the first to eighth aspects.
  • An object detection unit (36) for detecting an object region (B1) is further provided.
  • the information generation unit (33) has a distance determination unit (333) for determining the relative distance of the pet (5) to the object region (B1).
  • the pet information further includes the determination result of the distance determination unit (333).
  • the estimation unit (34) estimates the pet situation based on the pet information and the condition information (9) related to at least one of the pet's specific behaviors and emotions.
  • the condition information (9) includes information in which a plurality of types of specific objects and a plurality of threshold values relating to the distance between the pet and the specific objects are associated with each other.
  • the estimation unit (34) estimates the pet situation by comparing the determination result of the distance determination unit (333) with a plurality of threshold values. According to the ninth aspect, the reliability of the estimation regarding the situation of the pet (5) can be improved by considering the relative distance of the specific region (A1) to the object region (B1).
  • the object detection unit (36) learns the appearance factor for recognizing an image of a specific object of a predetermined type.
  • the object region (B1) is detected based on the completed model (fourth model M4). According to the tenth aspect, the reliability regarding the detection of the object region (B1) is improved.
  • the estimation unit (34) is in the object region (B1) detected by the object detection unit (36).
  • the specific object (6) shown is tableware (64) and the distance determined by the distance determination unit (333) is equal to or less than a predetermined threshold value, the pet (5) eats as a pet situation. Presumed to be.
  • the eleventh aspect when the pet (5) in the image data (D1) is actually eating, it is highly likely that the pet situation is also presumed to be "eating".
  • the pet situation estimation system (1,1A) further includes an output unit (35) in any one of the first to eleventh aspects.
  • the output unit (35) outputs the estimation result of the estimation unit (34) in a manner associated with the image data (D1) in which the specific region (A1) on which the estimation result is based is detected. According to the twelfth aspect, it is possible to make it easier to grasp the situation of the pet (5).
  • the area detection unit (32) describes the posture of the pet in the image data (D1). Based on the trained model (first model M1) learned about the posture of the pet for image recognition, the specific region (A1) of the pet (5) taking a specific posture is detected. According to the thirteenth aspect, it is possible to make it easier to grasp the situation of the pet (5).
  • the pet camera (100) according to the fourteenth aspect is the pet situation estimation system (1,1A) in any one of the first to thirteenth aspects, and an image pickup unit (2) that captures image data (D1). And. According to the fourteenth aspect, it is possible to provide a pet camera (100) capable of easily grasping the situation of the pet (5).
  • the server (7) according to the fifteenth aspect is provided with an information generation unit (33) and an estimation unit (34) in the pet situation estimation system (1,1A) in any one of the first to thirteenth aspects. It can communicate with the pet camera (100).
  • the server (7) is provided with an area detection unit (32). According to the fifteenth aspect, it is possible to provide a server (7) capable of easily grasping the situation of the pet (5).
  • the server (7) according to the sixteenth aspect is a pet camera (100) provided with an area detection unit (32) in the pet situation estimation system (1,1A) in any one of the first to thirteenth aspects. Can communicate with.
  • the server (7) is provided with an information generation unit (33) and an estimation unit (34). According to the sixteenth aspect, it is possible to provide a server (7) capable of easily grasping the situation of the pet (5).
  • the pet situation estimation method includes a pet detection step, an information generation step, and an estimation step.
  • a specific region (A1) showing at least a part of the appearance of the pet (5) as the subject (H1) is detected in the image data (D1).
  • Pet information is generated in the information generation step.
  • the pet information includes at least the posture information of the pet (5) based on the trained model (first model M1) learned about the pet posture in order to recognize the image of the pet posture and the image data (D1). ..
  • the estimation step the pet status regarding at least one of the emotions and behaviors of the pet (5) shown in the specific area (A1) is estimated based on the pet information.
  • the program according to the eighteenth aspect is a program for causing one or more processors to execute the pet situation estimation method according to the seventeenth aspect. According to the eighteenth aspect, it is possible to provide a function capable of making it easy to grasp the situation of the pet (5).
  • the configurations according to the second to thirteenth aspects are not essential configurations for the pet situation estimation system (1,1A) and can be omitted as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Husbandry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本発明の課題は、ペットの状況を把握しやすくすることである。ペット状況推定システム(1)は、領域検出部(32)と、情報生成部(33)と、推定部(34)と、を備える。領域検出部(32)は、画像データにおいて、被写体であるペットの容姿の少なくとも一部を示す特定領域を検出する。情報生成部(33)は、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、画像データとに基づく姿勢情報を含む。推定部(34)は、ペット情報に基づいて、ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

Description

ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
 本開示は、一般に、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。本開示は、より詳細には、画像データ内の被写体としてのペットに関するペット状況推定システム、ペット状況推定システムを備えるペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。
 特許文献1には、画像から動物と人物とをそれぞれ認識し、検出する検出装置が開示されている。この検出装置は、画像から動物を検出する動物検出部と、上記画像から人物を検出する人物検出部とを備えている。また検出装置は、動物かつ人物が検出された場合に、目的の物体が検出されたことを示す情報を検出結果として出力する検出結果出力部を更に備えている。
 この検出装置においては、動物検出部は、動物特徴量記憶部に記憶されている動物の特徴を反映した特徴量データに基づいて、入力された画像を走査する。動物検出部21は、動物の特徴量データと合致する、あるいは、類似度が高い領域を特定できた場合には、上記領域に写っている物体を、動物として検出する。
 ところで、利用者(例えばペットの飼い主等)は、画像データ内に写るペット(動物)の状況について具体的に知りたい、或いは画像データ内に写るペットが、ある特定の状況にある場合に、その旨の通知を受けたいといった要望がある。
特開2013-65110号公報
 本開示は上記事由に鑑みてなされ、ペットの状況を把握しやすくすることができる、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムを提供することを目的とする。
 本開示の一態様のペット状況推定システムは、領域検出部と、情報生成部と、推定部と、を備える。前記領域検出部は、画像データにおいて、被写体であるペットの容姿の少なくとも一部を示す特定領域を検出する。前記情報生成部は、ペット情報を生成する。前記ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含む。前記推定部は、前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。
 本開示の一態様のペットカメラは、上記のペット状況推定システムと、前記画像データを撮像する撮像部と、を備える。
 本開示の一態様のサーバは、上記のペット状況推定システムにおける前記情報生成部及び前記推定部が設けられたペットカメラと通信可能である。前記サーバには、前記領域検出部が設けられている。
 本開示の一態様のサーバは、上記のペット状況推定システムにおける前記領域検出部が設けられたペットカメラと通信可能である。前記サーバには、前記情報生成部及び前記推定部が設けられている。
 本開示の一態様のペット状況推定方法は、ペット検出ステップと、情報生成ステップと、推定ステップと、を含む。前記ペット検出ステップにて、画像データにおいて、被写体としてのペットの容姿の少なくとも一部を示す特定領域を検出する。前記情報生成ステップにて、ペット情報を生成する。前記ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含む。前記推定ステップにて、前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。
 本開示の一態様のプログラムは、1以上のプロセッサに、上記のペット状況推定方法を実行させるためのプログラムである。
図1Aは、一実施形態に係るペット状況推定システムが適用されたペットカメラの概略構成図である。図1Bは、同上のペットカメラと通信する提示装置の概略構成図である。 図2は、同上のペット状況推定システムを備えるペット管理システムの全体構成の概念図である。 図3A~図3Cは、同上のペット状況推定システムにて推定処理の対象となる画像データの一例である。 図4A~図4Cは、同上のペット状況推定システムにて推定処理の対象となる画像データの別の例である。 図5A~図5Cは、同上のペット状況推定システムにて推定処理の対象となる画像データのさらに別の例である。 図6は、同上のペット状況推定システムにて推定処理の対象となる画像データのさらに別の例である。 図7A及び図7Bは、同上のペット状況推定システムによる推定結果が画面上にて提示されている提示装置の概念図である。 図8は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。 図9は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。 図10は、同上のペット状況推定システムの変形例が適用されたペットカメラの概略構成図である。
 (1)概要
 以下の実施形態において説明する各図は、模式的な図であり、各図中の各構成要素の大きさ及び厚さそれぞれの比が、必ずしも実際の寸法比を反映しているとは限らない。
 本実施形態の一の形態に係るペット状況推定システム1は、図1Aに示すように、領域検出部32と、情報生成部33と、推定部34と、を備えている。ペット状況推定システム1は、1以上のプロセッサ及び1以上のメモリを有するコンピュータシステムを主構成とする。ここでは一例として、ペット状況推定システム1の構成要素(領域検出部32、情報生成部33、及び推定部34等)は全て、ペットカメラ100の一の筐体内に集約して設けられているものとして説明する。しかし、本開示におけるペット状況推定システム1の構成要素は分散して設けられてもよく、例えばペット状況推定システム1の構成要素の少なくとも一部が、ペットカメラ100の外部(例えばサーバ7等の外部サーバ)に設けられてもよい。例えば、ペットカメラ100に、情報生成部33及び推定部34が設けられて、ペットカメラ100と通信可能なサーバ7に、領域検出部32が設けられてもよい。或いは、ペットカメラ100に、領域検出部32が設けられて、ペットカメラ100と通信可能なサーバ7に、情報生成部33及び推定部34が設けられてもよい。ここでいう「サーバ」は、1台の外部装置(利用者300の宅内に設置される装置でもよい)から構成されてもよいし、複数の外部装置から構成されてもよい。
 領域検出部32は、画像データD1(図3A~図6)において、被写体H1であるペット5の容姿の少なくとも一部を示す特定領域A1を検出する。ここでは、画像データD1は、ペットカメラ100の撮像部2(図1A参照)で撮像(生成)された画像(データ)である。画像データD1は、静止画像、又は動画像中の1コマ(フレーム)の画像でもよい。また画像データD1は、撮像部2で撮像された画像の一部を加工したものでもよい。以下の説明では、ペット状況推定システム1の推定対象とする「ペット」の種類が、犬(動物)である場合を想定する。「ペット」の種類は、特に限定されず、猫でもよいし、その他の動物でもよい。
 また以下では、画像データD1に写っている(着目する)「犬(ペット)」については符号「5」を付与して説明し、不特定多数の「犬(ペット)」については符号を付けずに説明する場合もある。
 ここで特定領域A1は、図3A~図6に示すように、画像データD1内において矩形の枠状で囲まれた領域であり、被写体H1のペット5を囲む「バウンディングボックス」で示される。画像データD1内でのペット5の位置は、例えば、バウンディングボックスにおける左上隅のX軸座標、Y軸座標、バウンディングボックスの横幅、及びバウンディングボックスの高さ等によって定義される。しかし、特定領域A1は、バウンディングボックスで示されることに限定されず、例えば、画素単位で被写体H1と背景とを区別するセグメンテーションで示されてもよい。本開示における画像データD1内でのペット5、ペット5以外の特定物体6の位置を特定するための「X-Y座標」は、一例として画素単位で規定されているものとする。
 情報生成部33は、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル(以下、「第1モデルM1」と呼ぶことがある)と、画像データD1とに基づくペット5の少なくとも姿勢に関する姿勢情報を含む。第1モデルM1は、機械学習により生成されたモデルであり、ペットカメラ100のモデル格納部P1(図1A参照)に格納されている。
 本実施形態では、領域検出部32と情報生成部33とが、画像データD1から犬(ペット5)を検出するペット検出部X1(図1A参照)を構成する。ただし、情報生成部33の機能の少なくとも一部が、ペット検出部X1の外部に設けられてもよい。
 推定部34は、ペット情報に基づいて、特定領域A1に示されるペット5の感情及び行動の少なくとも一方に関するペット状況を推定する。本実施形態では一例として、推定部34は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報9(図1A参照)とに基づいて、ペット状況を推定する。条件情報9は、ペットカメラ100の条件格納部P2(図1A参照)に格納されている。
 この構成によれば、推定部34は、ペット情報に基づいて、ペット5の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット5の状況を把握しやすくすることができる。
 また本実施形態の別の形態に係るペット状況推定方法は、ペット検出ステップと、情報生成ステップと、推定ステップと、を含む。ペット検出ステップにて、画像データD1において、被写体H1としてのペット5の容姿の少なくとも一部を示す特定領域A1を検出する。情報生成ステップにて、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルM1と、画像データD1とに基づくペット5の少なくとも姿勢に関する姿勢情報を含む。推定ステップにて、ペット情報に基づいて、特定領域A1に示されるペット5の感情及び行動の少なくとも一方に関するペット状況を推定する。
 この構成によれば、推定ステップにて、ペット情報に基づいて、ペット5の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット5の状況を把握しやすくすることができる。
 ペット状況推定方法は、コンピュータシステム(ペット状況推定システム1)上で用いられる。つまり、ペット状況推定方法は、プログラムでも具現化可能である。本実施形態に係るプログラムは、本実施形態に係るペット状況推定方法を、1以上のプロセッサに実行させるためのプログラムである。
 (2)詳細
 以下、本実施形態に係るペット状況推定システム1が適用されたシステム(以下、「ペット管理システム200」と呼ぶ)について、図1A~図9を参照しながら詳しく説明する。
 (2.1)全体構成
 ペット管理システム200は、図2に示すように、1又は複数台のペットカメラ100と、1又は複数台の提示装置4と、サーバ7と、を備えている。以下では、ペット管理システム200を利用して、ペット5の管理(見守り)支援のサービスを受ける、ある一人の利用者300(図2参照)に着目して説明する。利用者300は、例えば、ペット5の飼い主であるが、特に限定されない。
 利用者300は、1又は複数台のペットカメラ100を、施設(例えばペット5と一緒に住む住居)の所定の位置に設置する。利用者300は、ペットカメラ100を複数台設置する場合、住居内の各部屋に1台ずつ設置してもよい。ペットカメラ100は、屋内に設置されることに限定されず、屋外に設置されてもよい。以下では、説明の便宜上、1台のペットカメラ100に着目して説明する。
 提示装置4は、例えば、利用者300が所有する情報端末であることを想定する。情報端末は、一例としてスマートフォン又はタブレット端末等の携帯型の情報端末を想定する。しかし、提示装置4は、ノートパソコン、又は据置型のパソコンでもよい。
 提示装置4は、図1Bに示すように、通信部41と、処理部42と、表示部43とを有している。
 通信部41は、ペットカメラ100(図2参照)及びサーバ7(図2参照)の各々と互いに通信可能とするための通信インタフェースである。通信部41は、ペットカメラ100及びサーバ7のうちいずれか一方のみと通信可能であってもよい。
 処理部42は、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、1以上のプロセッサが1以上のメモリに記憶された1以上のプログラム(アプリケーション)を実行することで、処理部42として機能する。プログラムは、ここでは処理部42のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。利用者300は、見守りの対象となるペット5に関するGUI(Graphical User Interface)を提示するための専用のアプリケーションソフト(以下では「ペットアプリ」と呼ぶ)をインストールし、このペットアプリを起動することにより提示装置4として機能する。
 表示部43は、タッチパネル式の液晶ディスプレイ又は有機EL(Electro-Luminescence)ディスプレイを構成する。提示装置4がペットアプリを実行することで、表示部43にはペット5に関する情報を提示する画面が表示(出力)される。
 ところで、ペット5と一緒に住む住人(家族)が複数である場合、複数の住人が、利用者300としてペット5の管理支援のサービスを受ける場合、ペット管理システム200は、複数の住人(複数の利用者300)がそれぞれ携帯する複数台の提示装置4を備えることになる。以下では、説明の便宜上、ある一人の利用者300(住人)が携帯する1台の提示装置4(スマートフォン)に着目して説明する。
 ペットカメラ100は、例えば、ペット見守り用の撮像機能を有した装置である。言い換えると、ペットカメラ100は、図1Aに示すように、撮像部2(カメラ装置)を備えている。利用者300は、飼っているペット5が居住内(居住外でもよい)で、主に活動し得る場(例えばエサが置かれている場所)となっている領域が撮像部2の視野角内に収まるように、ペットカメラ100を設置する。利用者300は、撮像部2で撮像された画像を通じて、例えば外出中であっても、ペット5の状況を見守ることができる。
 上述の通り、ここでは一例として、ペットの種類は犬であることを想定する。図3A~図6では、複数の犬種のペット5を示す画像データD1が例示されているが、これらの図面は、ペット状況推定システム1を説明するために、犬の「姿勢の種類」を例示しているにすぎず、犬種は特に限定されない。ペット状況推定システム1は、例えば犬の「姿勢」について犬種を問わずに、ある程度共通して認識するように構成されるが、犬種によって個別に姿勢を認識してもよい。
 ペットカメラ100は、図1Aに示すように、撮像部2に加えて通信部11を更に備えている。通信部11は、提示装置4(図2参照)及びサーバ7(図2参照)の各々と互いに通信可能とするための通信インタフェースである。通信部11は、提示装置4と、例えばBLE(Bluetooth(登録商標) Low Energy)の規格に準拠した近距離無線通信を行う機能を有してもよい。提示装置4を携帯する利用者300(図2参照)が宅内に居る場合、通信部11は、提示装置4と直接、近距離無線通信することでデータの授受を行ってもよい。
 また通信部11は、宅内に設置されたルータ等を介して、インターネット等のネットワークNT1(図2参照)に接続されている。ペットカメラ100は、ネットワークNT1を介して外部のサーバ7と通信を行い、サーバ7から情報を取得したりサーバ7へ情報を出力したりすることが可能である。
 図2に示す提示装置4は、通信事業者が提供する携帯電話網(キャリア網)又は公衆無線LAN(Local Area Network)等を介してネットワークNT1に接続されてもよい。携帯電話網には、例えば、3G(第3世代)回線、LTE(Long Term Evolution)回線、4G(第4世代)回線又は5G(第5世代)回線等がある。提示装置4は、携帯電話網に接続可能な環境であれば、携帯電話網を介してネットワークNT1に接続可能となる。例えば、提示装置4を携帯する利用者300が宅外に居る場合、携帯電話網等を介してネットワークNT1に接続されることで、ペットカメラ100及びサーバ7の各々と通信可能となる。
 また提示装置4及びペットカメラ100間の通信は、ネットワークNT1及びサーバ7を介して行われてもよい。
 ここで上述の通り、ペット状況推定システム1は、図1Aに示すように、ペットカメラ100に設けられている。具体的には、ペットカメラ100は、図1Aに示すように、処理部3、モデル格納部P1及び条件格納部P2を更に備えていて、これらがペット状況推定システム1を構成する。なお、ペット状況推定システム1の詳細については、次の欄で説明する。
 サーバ7は、図2に示すように、ネットワークNT1に接続されている。サーバ7は、ネットワークNT1を介して、ペットカメラ100及び提示装置4の各々と通信可能である。サーバ7は、例えば、利用者情報(氏名、利用者ID、電話番号、メールアドレス等)、利用者300が所有するペットカメラ100及び提示装置4の情報(識別情報等)、及び利用者300が飼っているペット5(犬種情報等)の情報を管理する。またサーバ7は、複数のペットカメラ100で撮像された種々の画像データ、及び処理結果(特に処理エラー等)を収集し蓄積する。利用者300は、提示装置4を通じてサーバ7にアクセスすることで、ペットアプリのダウンロードが行えてもよい。
 サーバ7は、1台のサーバ装置から構成されることを想定するが、複数台のサーバ装置から構成されてもよいし、そのようなサーバ装置が、例えばクラウド(クラウドコンピューティング)を構築してもよい。またペット状況推定システム1の少なくとも一部の機能が、サーバ7内に設けられてもよい。
 (2.2)ペット状況推定システム
 ペットカメラ100は、図1Aに示すように、撮像部2及び通信部11に加えて、上述の通り、ペット状況推定システム1として、処理部3、モデル格納部P1及び条件格納部P2を備えている。ペット状況推定システム1は、ペット状況を推定するための「推定処理」を実行する。
 モデル格納部P1は、複数の学習済みモデルを含むデータを格納可能に構成される。モデル格納部P1は、EEPROM(Electrically Erasable Programmable Read-Only Memory)のような書き換え可能な不揮発性メモリを含む。また条件格納部P2は、条件情報9を含むデータを格納可能に構成される。条件格納部P2は、EEPROMのような書き換え可能な不揮発性メモリを含む。モデル格納部P1、条件格納部P2は、同一の格納部(メモリ)から構成されてもよい。またモデル格納部P1、条件格納部P2は、処理部3の内蔵メモリであってもよい。
 処理部3は、例えば、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、1以上のプロセッサが1以上のメモリに記憶された1以上のプログラム(アプリケーション)を実行することで、処理部3の後述する各部として機能する。プログラムは、ここでは処理部3のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。
 処理部3は、ペットカメラ100の全体的な制御、すなわち、撮像部2、通信部11、モデル格納部P1及び条件格納部P2等を制御する制御部としての機能を有する。
 ここで処理部3は、図1Aに示すように、取得部31と、領域検出部32と、情報生成部33と、推定部34と、出力部35と、物体検出部36と、を有している。本実施形態では、上述の通り、領域検出部32と情報生成部33とが、画像データD1から犬(ペット5)を検出するペット検出部X1を構成する。
 取得部31は、撮像部2から画像データD1(例えば静止画像)を取得するように構成されている。取得部31は、撮像部2から動画像の中の1コマ(フレーム)の画像を、画像データD1として取得してもよい。取得部31が画像データD1を取得すると、処理部3は、推定処理を実行する。
 ペット検出部X1の領域検出部32は、画像データD1において、被写体H1であるペット5の容姿の少なくとも一部を示す特定領域A1を検出するように構成される。本実施形態では、領域検出部32は、学習済みモデル(以下、「第2モデルM2」と呼ぶことがある)に基づいて、特定領域A1を検出する。第2モデルM2は、所定の種類のペット(ここでは「犬」)について画像認識するためにその外観要因(特徴量)を(機械)学習したものである。第2モデルM2は、モデル格納部P1に格納されている。
 第2モデルM2は、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。ニューラルネットワーク(多層ニューラルネットワークを含む)は、例えばCNN(Convolutional Neural Network:畳み込みニューラルネットワーク)、又はBNN(Bayesian Neural Network:ベイズニューラルネットワーク)等を含み得る。第2モデルM2は、ASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)等の集積回路に、学習済みのニューラルネットワークを実装することで実現されている。第2モデルM2は、ディープラーニングにより生成されるモデルに限定されない。第2モデルM2は、サポートベクターマシン、又は決定木等により生成されるモデルでもよい。
 要するに、領域検出部32は、第2モデルM2を用いて、取得した画像データD1内に犬(ペット5)が被写体H1として存在するか否かを推定する。領域検出部32は、画像データD1内に犬(ペット5)が存在すると推定すると、ペット5を囲むバウンディングボックスで定義された特定領域A1(図3A~図6参照)を検出する。特定領域A1は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。
 領域検出部32は、学習済みモデル(以下、「第3モデルM3」と呼ぶことがある)に基づいて、被写体H1の頭部50(図2参照)を示す頭部領域A2(図3A~図6参照)を検出する。第3モデルM3は、所定の種類のペット(ここでは「犬」)の頭部について画像認識するためにその外観要因(特徴量)を学習したものである。つまり、領域検出部32は、第3モデルM3を用いて、顔の部分を含む頭部領域A2を検出する頭部検出部としての機能を更に有している。ただし、領域検出部32と頭部検出部とは、別々に設けられてもよい。第3モデルM3は、モデル格納部P1に格納されている。
 第3モデルM3は、第2モデルM2と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。第3モデルM3は、ディープラーニングにより生成されるモデルに限定されない。また第3モデルM3は、第2モデルM2と同一モデルから構成されてもよい。
 領域検出部32は、第3モデルM3を用いて、画像データD1内に、犬(ペット5)の頭部50が存在するか否かを推定する。領域検出部32は、画像データD1内に、犬(ペット5)の頭部50が存在すると推定すると、頭部50を囲むバウンディングボックスで定義された頭部領域A2(図3A~図6参照)を検出する。頭部領域A2は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。
 ところで、画像データD1が、犬(ペット5)の容姿の一部(例えば顔)がアップになった画像の場合、特定領域A1の検出と頭部領域A2の検出のいずれかの検出について失敗(誤検出)する可能性がある。具体的には、犬(ペット5)の顔がアップになった画像データD1は、「犬の顔」のアノテーションに近いことから、領域検出部32は、「犬の顔(頭部50)」として頭部領域A2を検出できても、「犬(容姿全体)」のアノテーションから外れ得る。その結果、「犬」として特定領域A1の検出に失敗する可能性がある。本実施形態では、領域検出部32は、「犬」及び「犬の顔」の少なくとも一方を検出すれば、取得した画像データD1内に、犬(ペット5)が存在すると推定する。もし頭部領域A2のみを検出した場合には、領域検出部32は、頭部領域A2と略等しい領域を、特定領域A1に設定する。なお、もし特定領域A1を検出したにも関わらず頭部領域A2の検出に失敗した場合には、処理部3は、その画像データD1に関する推定処理を終了してもよい。
 ペット検出部X1の情報生成部33は、ペット(ここでは「犬」)の姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル(第1モデルM1)と、特定領域A1が検出された画像データD1とに基づいて、ペット情報を生成する。ペット情報は、特定領域A1に示されるペット5の少なくとも姿勢に関する姿勢情報を含む。
 具体的には、情報生成部33は、姿勢判定部331と、向き判定部332と、距離判定部333とを有する。
 姿勢判定部331は、第1モデルM1と特定領域A1に関する情報とを用いて、犬(ペット5)の姿勢を判定(推定)するように構成される。第1モデルM1は、犬の姿勢について画像認識するためにその外観要因(特徴量)を学習したものである。
 第1モデルM1は、第2モデルM2や第3モデルM3と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。第1モデルM1は、ディープラーニングにより生成されるモデルに限定されない。第1モデルM1は、第2モデルM2や第3モデルM3と同一モデルから構成されてもよい。
 ここで犬(ペット5)の姿勢について図3A~図6を参照しながら説明する。図3A~図6は、いずれも、ペット状況推定システム1にて推定処理の対象となり得る画像データD1の一例である。
 図3Aは、ペット5が四つ足で起立した姿勢(第1姿勢)で、周囲の様子を窺がっている状態を示す画像データD1の一例である。
 図3Bは、ペット5が床に伏せている姿勢(第2姿勢)で、正面を向いて周囲の様子を窺がっている状態を示す画像データD1の一例である。
 図3Cは、図3Bと同様に、ペット5が第2姿勢で、やや右方向を向いて周囲の様子を窺がっている状態を示す画像データD1の一例である。
 図4Aは、ペット5が前足を前方に後ろ足を後方にそれぞれ伸張した姿勢(第3姿勢)で、走っている状態を示す画像データD1の一例である。図4Aでは、ペット5の尻尾は上を向いている。
 図4Bは、ペット5が片方の前足と片方の後ろ足は床に着いて他の足は床から離れて曲がっている姿勢(第4姿勢)で、歩いている状態を示す画像データD1の一例である。図4Bでは、ペット5の尻尾が下に垂れている。
 図4Cは、ペット5が寝転んでいる姿勢(第5姿勢)で、目を瞑って睡眠中の状態を示す画像データD1の一例である。
 図5Aは、ペット5が後ろ足のみで起立した姿勢(第6姿勢)で、人(例えば利用者300)に懐いている状態を示す画像データD1の一例である。
 図5Bは、ペット5が座っている姿勢(第7姿勢)で、人(例えば利用者300)と向かい合って懐いている状態を示す画像データD1の一例である。
 図5Cは、ペット5が、片方の前足を床から離して他の足で起立している姿勢(第8姿勢)で、玩具63(図示例ではボール)で遊んでいる状態を示す画像データD1の一例である。
 図6は、ペット5が頭部50を下げながら四つ足で起立した姿勢(第9姿勢)で、食器64内のエサを食べている状態を示す画像データD1の一例である。
 上記の第1姿勢~第9姿勢は、犬(ペット5)が取り得る姿勢の単なる一例であり、これらに限定されない。ただし、第1モデルM1は、犬の姿勢について、犬の何かしらの行動(特に何かしらの感情に関連する行動)と高い関係性を有した姿勢について機械学習して生成される。犬の姿勢の中で、より精度良く推定したい特定の姿勢については、更に細かい状態も区別できるように機械学習される。ここでいう「特定の姿勢」とは、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特に、犬の行動から読み取れる犬の感情は、例えば、「喜」、「怒」、「哀」、「楽」、「怖」、「安(リラックス)」、等であり、犬の特定の姿勢と関係性のある行動の幾つかは、これらの感情のどれかと関連し得る。
 例えばペット5が四つ足で起立した姿勢(第1姿勢)でも、歯や舌を見せているか否か、耳が立っているか垂れているかといった状態も区別して姿勢の推定を行えるように機械学習される。例えば、歯を見せている第1姿勢は「威嚇中」という行動と関係性がある。また耳が立っている第1姿勢は、周囲の様子を窺がっている「警戒中」という行動と関係性がある。また耳が垂れている第1姿勢は、「無警戒中」という行動と関係性がある。そして、「威嚇中」という行動は、「怒」という犬の感情に関連する行動として設定され得る。「警戒中」という行動は、「怖」という犬の感情に関連する行動として設定され得る。また「無警戒中」という行動は、「哀」や「安」という犬の感情に関連する行動として設定され得る。またペット5が寝ている姿勢(第5姿勢)でも、どのように寝ているのか、具体的には、背中が丸まっているか伸びているか、目を瞑っているか否か、舌を出しているか否かといった状態も区別して姿勢の推定を行えるように機械学習される。
 第1~第3モデルM1~M3を生成するための学習用のデータセットとして、画像データ(生データ)にタグ付けをするアノテーション作業(教師データの決定)において、多数の画像データを用いる。学習用のデータセットは、犬種、犬の色、犬の向き、犬が写っている背景等について制約なしで収集された多数の画像データから選ばれる。学習用のデータセットは、実際の犬の画像データだけでなく、犬のぬいぐるみの画像データ、及びCGで作成された犬の画像データも含んでもよく、これらを混ぜて機械学習を行う。
 姿勢判定部331で判定されたペット5の姿勢情報(判定結果、及び特定領域A1に関する情報を含む)は、距離判定部333に出力される。
 向き判定部332は、特定領域A1が検出された画像データD1を用いて、画像データD1におけるペット5が向いている方向を判定(推定)するように構成される。つまり、ペット情報は、向き判定部332の判定結果を更に含む。向き判定部332には、領域検出部32から、検出された特定領域A1に関する情報と頭部領域A2に関する情報とが入力される。向き判定部332は、領域検出部32で検出された特定領域A1に関する情報のみから被写体H1であるペット5の向きを判定してもよいが、本実施形態では、特定領域A1に関する情報と頭部領域A2に関する情報とに基づいて、ペット5の向きを判定する。
 特に本実施形態では、向き判定部332は、少なくとも特定領域A1に対する頭部領域A2の相対的な位置関係から、ペット5が向いている方向を判定する。具体的には、向き判定部332は、画像データD1内におけるペット5の位置及びサイズに関する情報を、領域検出部32で検出された特定領域A1を通じて取得する。また向き判定部332は、画像データD1内におけるペット5の頭部50の位置及びサイズに関する情報を、領域検出部32で検出された頭部領域A2を通じて取得する。
 例えば図3Aの例では、向き判定部332は、頭部領域A2が、特定領域A1内の右上隅に位置していることから、ペット5が概ね右方を向いていると判定する。また図3Bの例では、向き判定部332は、頭部領域A2が、特定領域A1内の上部の、左右方向における中央部に位置していることから、ペット5が概ね正面を向いていると判定する。向き判定部332は、画像データD1内において、ペット5の視線先となる位置(又はその範囲)を推定して、その位置情報を判定結果として出力する。
 向き判定部332は、特定領域A1に対する頭部領域A2の相対的な位置関係だけでなく、特定領域A1に対して頭部領域A2が占める面積の割合、頭部領域A2内における目や鼻、口の位置等も考慮してペット5の向きを判定してもよい。この場合、更に判定の信頼性が向上される。
 向き判定部332で判定されたペット5の向きに関する情報(判定結果)は、推定部34に出力される。
 距離判定部333は、(後述する)物体領域B1に対するペット5の相対的な距離(以下、「ペット物体間距離」と呼ぶことがある)を判定(推定)するように構成される。つまり、ペット情報は、距離判定部333の判定結果(ペット物体間距離に関する情報)を更に含む。言い換えると、画像データD1には、犬(ペット5)以外の物体(特定物体6)が被写体の一部として写り込んでいる場合がある。
 図5Aの例では、特定物体6として、人の脚61が写り込んでいる。図5Bの例では、特定物体6として、床に座っている人の全体容姿62が写り込んでいる。図5Cの例では、特定物体6として、犬の玩具63が写り込んでいる。図6の例では、特定物体6として、犬のエサが入った食器64が写り込んでいる。
 ここで物体検出部36について説明する。物体検出部36は、画像データD1においてペット5以外の特定物体6を示す物体領域B1を検出するように構成される。本実施形態では、物体検出部36は、所定の種類の特定物体について画像認識するためにその外観要因(特徴量)を学習した学習済みモデル(以下、「第4モデルM4」と呼ぶことがある)に基づいて、物体領域B1を検出する。
 第4モデルM4は、第1モデルM1~第3モデルM3と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。第4モデルM4は、ディープラーニングにより生成されるモデルに限定されない。また第4モデルM4は、第1モデルM1や、第2モデルM2、第3モデルM3と同一モデルから構成されてもよい。
 ここでは、第4モデルM4は、特定物体について、犬の何かしらの行動(特に、何かしらの感情に関連する行動)と高い関係性を有した物体について機械学習して生成される。例えば特定物体6が、人の一部(例えば脚61)又は全部(例えば全体容姿62)であれば、ペット5は、何かしらの感情に関連する行動を取っている可能性が高い。また特定物体6が、玩具63又は食器64であれば、「遊ぶ」という行動、又は「食べる」という行動を取っている可能性が高い。言い換えると、第4モデルM4を生成するための学習用のデータセットとしては、犬以外の物体が写っている多数の画像データのうち、特定物体として、犬が興味を示しやすい物体が写っている画像データが選ばれる。学習用のデータセットは、実際の物体の画像データだけでなく、CGで作成された物体の画像データも含んでもよく、これらを混ぜて機械学習を行う。ここでは、特定物体は、犬以外の物体として定義されているため、他の種類の動物(猫等)も、犬が興味を示しやすい物体として含まれてもよい。
 物体検出部36は、第4モデルM4を用いて、画像データD1内に特定物体6が存在するか否かを推定する。物体検出部36は、画像データD1内に、特定物体6が存在すると推定すると、特定物体6を囲むバウンディングボックスで定義された物体領域B1(図5A~図6参照)を検出する。物体領域B1は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。なお、物体検出部36は、特定物体6に該当しない物体については「背景」と見なす。
 物体検出部36は、検出された物体領域B1に関する情報(特定物体6の種類に関する情報も含む)を、距離判定部333に出力する。画像データD1内に特定物体6が存在せず、物体領域B1が検出されなかった場合、物体検出部36は、その旨を距離判定部333に出力する。
 距離判定部333は、領域検出部32で検出された頭部領域A2に関する情報と、物体検出部36で検出された物体領域B1に関する情報と、姿勢判定部331で判定されたペット5の姿勢情報とに基づいて、ペット物体間距離を判定する。
 具体的には、距離判定部333は、ペット物体間距離として、物体領域B1の位置(左上隅の位置、又は重心位置等)からペット5の位置までの距離に基づき、例えば三段階の距離関係のいずれに該当するかを判定する。ここでは三段階の距離関係は、第1距離状態(非常に密着した距離)、第2距離状態(比較的近い距離)、及び、第3距離状態(比較的遠い距離)とする。第1距離状態~第3距離状態は、例えば画素数に基づき区分けされている。距離関係が三段階であることは単なる一例であって、二段階でも四段階以上でもよいし、無段階(画素単位)でもよい。ここでは頭部領域A2の位置(左上隅の位置又は重心位置等)を、「ペット5の位置」として規定するが、特定領域A1の位置(左上隅の位置又は重心位置等)を、「ペット5の位置」として規定してもよい。
 距離判定部333は、さらに、物体領域B1と頭部領域A2(又は特定領域A1)とが互いに重なり合う度合い(面積)も考慮して、ペット物体間距離を判定することが好ましい。
 ところで、実際にはペット5が特定物体6に興味を示していない場合であっても、ペット5と特定物体6とが奥行方向で並んでいて、画像データD1内で重なって写っている場合がある。仮に距離判定部333が、画像データD1内における特定物体6の位置からペット5の位置までの距離だけで、ペット物体間距離を判定すると、ペット5が特定物体6に関係する行動を取っていなくても、第1距離状態と判定する可能性がある。そこで距離判定部333は、さらに、姿勢判定部331で判定されたペット5の姿勢情報も考慮して、第1~第3距離状態のいずれに該当するかを判定する。
 例えば、特定物体6が食器64であり、食器64の位置からペット5の位置までの距離が第1距離状態にあっても、頭部50を下げた姿勢でなければ、距離判定部333は、この画像データD1を第3距離状態と見なしてもよい。或いは距離判定部333は、この画像データD1を外れ値と見なして推定処理を終了してもよい。
 距離判定部333は、ペット物体間距離に関する判定結果と、頭部領域A2に関する情報と、姿勢情報とを推定部34に出力する。
 物体検出部36にて物体領域B1が検出されなかった場合、距離判定部333は、ペット物体間距離に関する判定をスキップして、頭部領域A2に関する情報と、姿勢情報とを推定部34に出力する。
 本実施形態では、ペット検出部X1は、上述した、領域検出部32における特定領域A1の検出処理と、情報生成部33におけるペット情報を生成する生成処理とを、この順で実行する。しかし、ペット検出部X1は、検出処理と生成処理とを概ね同時に並行して実行してもよい。
 推定部34は、ペット情報に基づいて、特定領域A1に示されるペット5の感情及び行動の少なくとも一方に関するペット状況を推定するように構成される。ここでは一例として、推定部34は、ペット情報と、条件情報9とに基づいて、ペット状況を推定する。
 ペット情報は、上述の通り、姿勢判定部331で判定されたペット5の姿勢に関する姿勢情報と、向き判定部332で判定されたペット5の向きに関する情報と、距離判定部333で判定されたペット物体間距離に関する情報と、を含む。
 条件情報9は、抽出対象として予め設定されたペットの特定の行動及び感情の少なくとも一方に関連する情報である。例えば、下記の表1~表4に示すような対応関係の情報(以下、「パターン」と呼ぶことがある)は、条件情報9として含まれ得る一例であり、この様なパターンが多数用意されてデータベース化されて条件格納部P2内に格納されている。
Figure JPOXMLDOC01-appb-T000001
Figure JPOXMLDOC01-appb-T000002
Figure JPOXMLDOC01-appb-T000003
Figure JPOXMLDOC01-appb-T000004
 推定部34は、条件情報9の中に、得られたペット情報と合致する条件のパターンが存在するかをサーチする。なお、その際に、推定部34は、ペット5の向きに関する情報と物体領域B1に関する情報とから、ペット5が特定物体6の方を向いているか否か、例えばペット5の視線上に物体領域B1が存在するか否かを推定し、その推定結果を加味して、条件情報9をサーチする。
 例えば(上記推定結果も加味して)得られたペット情報が、「第1距離状態」、「四つ足で起立し、頭部を下げている」、及び「食器の方を向いている」という3つの結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表1に示すように合致する条件のパターンが存在し、「食事中/美味しい」という「行動/感情」が紐づけされている。したがって、推定部34は、画像データD1内のペット5のペット状況が「食事中/美味しい」であると推定する。
 また例えば、得られたペット情報が、「第1距離状態」、「後ろ足のみで起立」、及び「人の方を向いている」という3つの結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表2に示すように合致する条件のパターンが存在し、「懐いている/喜び」という「行動/感情」が紐づけされている。したがって、推定部34は、画像データD1内のペット5のペット状況が「懐いている/喜び」であると推定する。
 また例えば、得られたペット情報が、「第3距離状態」、「四つ足で起立し、歯を見せている」、及び「人の方を向いている」という3つの結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表3に示すように合致する条件のパターンが存在し、「威嚇中/怒っている」という「行動/感情」が紐づけされている。したがって、推定部34は、画像データD1内のペット5のペット状況が「威嚇中/怒っている」であると推定する。
 さらに例えば、得られたペット情報が、「第2距離状態」、「片方の前足が浮いている」、及び「玩具の方を向いている」という3つの結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表4に示すように合致する条件のパターンが存在し、「遊んでいる/楽しい」という「行動/感情」が紐づけされている。したがって、推定部34は、画像データD1内のペット5のペット状況が「遊んでいる/楽しい」であると推定する。
 上記の表1~表4の例では、各パターンにおいて、条件に対して行動と感情の両方が紐づけされているが、何れか一方だけが紐づけされている場合もある。また各パターンの条件の種類は、少なくとも「ペットの姿勢」に関する条件を含めば、上記3種類(物体との距離、ペットの姿勢、ペットの向き)に限定されない。例えば、頭部領域A2と物体領域B1とが重なっている「面積」に関する条件が含まれてもよい。
 このように本実施形態の条件情報9は、ペット5が向いている複数の方向(食器64、人、及び玩具63の方向)と、複数のペット状況(食事中/美味しい、懐いている/喜び、及び、遊んでいる/楽しい)とがそれぞれ対応付けされた向き情報を含む。推定部34は、向き判定部332の判定結果と向き情報とに基づいて、ペット状況を推定する。そのため、ペット5の状況に関する推定の信頼性を向上できる。
 また本実施形態における条件情報9は、複数種類の特定物体6(食器64、人、及び玩具63)と、ペット5及び特定物体6間の距離に関する複数の閾値(第1距離状態~第3距離状態)とがそれぞれ対応付けされた情報を含む。推定部34は、距離判定部333の判定結果と複数の閾値との比較により、ペット状況を推定する。そのため、ペットの状況に関する推定の信頼性を更に向上できる。なお、距離判定部333で判定されたペット物体間距離が、第1距離状態~第3距離状態ではなく、ペット5と特定物体6との間の距離が、数値化された情報(例えば画素数に対応する数値)であれば、複数の閾値も数値化された情報でもよい。
 特に、推定部34は、物体検出部36にて検出された物体領域B1に示される特定物体6が食器64であり、かつ、距離判定部333にて判定された距離が所定の閾値以下の場合、ペット状況として、ペット5が食事をしていると推定する。この推定は、特定物体6が食器64である場合、ペット5は、鼻先を食器64内に突っ込むほど、特定物体6と密着した状態となり得る点に基づく。したがって、画像データD1のペット5が実際に食事をしている場合に、ペット状況も「食事中」と推定される可能性が高くなる。
 本実施形態では、推定部34は、画像データD1内に特定物体6が存在せず、物体領域B1が検出されなかった場合であっても、ペット状況を推定可能である。例えば、条件情報9は、ペットの姿勢のみとペットの特定の行動及び感情の少なくとも一方とが紐づけされたパターンを含む。具体的には、「目を瞑った状態で寝転んでいる」というペットの姿勢は、「睡眠中/安らか」という「行動/感情」と紐づけされている。結果的に、推定部34は、ペットの姿勢のみで、画像データD1内のペット5のペット状況が「睡眠中/安らか」であると推定する。
 出力部35は、推定部34の推定結果(推定されたペット状況)を出力するように構成される。特に本実施形態では、出力部35は、推定部34の推定結果を、上記推定結果の基となった特定領域A1が検出された画像データD1とを紐づけた態様で出力する。出力部35は、推定結果(例えば「睡眠中/安らか」)と画像データD1とを紐づけた情報(以下、「出力情報」と呼ぶ)を、通信部11を通じて、提示装置4に送信する。提示装置4を携帯する利用者300が外出中であれば、出力情報は、サーバ7を経由して提示装置4に送信されてもよい。出力情報は、推定結果の基となった画像データD1が撮像部2で撮像された時間に関する情報を、更に含むことが好ましい。
 出力情報は、ペットカメラ100に内蔵のメモリ等に保存されることが好ましい。出力情報は、サーバ7又はその他の周辺機器に送信されて保存されてもよい。
 提示装置4は、ペットカメラ100から出力情報を受信すると、出力情報に含まれるペット状況を、例えば簡易的な表現(メッセージ)に置き換えて、そのメッセージを添えたプッシュ通知等にて画面上に通知(提示)してもよい。利用者300がプッシュ通知を開封すると、提示装置4は、ペットアプリが起動して、画像データD1を含む詳細なペット状況を画面上で提示してもよい(図7A及び図7B参照)。或いは出力情報は、メールサーバを経由してメールにより通知されてもよい。
 図7Aの例では、提示装置4は、表示部43の画面430上に、ペット状況の推定の基となった画像データD1(図3C参照:床に伏せている姿勢)を表示している。ここでは条件情報9は、「特定物体が存在せず」及び「床に伏せている姿勢」という2つの条件に「寂しい」という「感情」が紐づけされたパターンを含んでいる。その結果、ペット状況として「寂しい」が推定された例である。提示装置4は、「寂しい」というペット5の感情を「さみしいよ~」という親しみやすい表現に変換した文字列データを吹き出し付きで、画像データD1上に重畳させて表示する。
 また図7Bの例では、提示装置4は、表示部43の画面430上に、ペット状況の推定の基となった画像データD1(図6参照:四つ足で起立し、頭部を下げている姿勢)を表示している。ここでは条件情報9は、「第1距離状態」、「四つ足で起立し、頭部を下げている」及び「食器の方を向いている」という3つの条件に「食事中/美味しい」という「行動/感情」が紐づけされたパターンを含んでいる。その結果、ペット状況として「食事中/美味しい」と推定された例である。提示装置4は、「食事中」という文字列データと、「美味しい」というペット5の感情を「おいしい~」という親しみやすい表現に変換した文字列データとを吹き出し付きで、画像データD1上に重畳させて表示する。
 なお、提示装置4は、表示部43の画面430上に、画像データD1が撮像された時間(日時)を更に表示させることが好ましい。
 出力部35は、推定結果の基となった画像データD1(生データ)を含めて出力情報を送信することに限定されず、画像のデータ加工を行った上で送信してもよい。また出力部35は、画像データD1を、推定されたペット状況に対応するアイコン画像(例えば、涙を流して寂しい様子の犬のアイコン画像)に置き換えた上で送信してもよい。データの加工処理、及びアイコン画像への置き換えは、提示装置4又はサーバ7の側で実行されてもよい。
 推定部34の推定結果は、画面出力に限られず、画面出力の代わりに又は画面出力に加えて、音声出力によって行われてもよい。
 ところで、処理部3は、取得部31が画像データD1を取得する度に推定処理を実行する。例えば撮像部2が所定の間隔(例えば、数分又は数十分等の間隔)で静止画像を撮像する場合、処理部3は、概ね上記所定の間隔で推定処理を実行し得る。或いは、撮像部2が所定のフレームレートで動画像を撮像する場合、動画像の中で連続する複数のフレーム画像について一定の間隔(例えば、数分又は数十分等の間隔)を空けてフレーム画像を画像データD1として取得して推定処理を実行し得る。出力部35は、推定部34が1つの画像データD1についてペット状況を推定する度に、出力情報を提示装置4に送信してもよいし、出力情報をある程度ペットカメラ100に内蔵のメモリ等にプールして、まとめて送信してもよい。
 また出力部35は、複数の画像データD1に関する推定部34の推定結果が、所定回数(例えば2回)連続してペット5が同じ方向を向いた姿勢であることを示す場合、推定部34の推定結果の出力を制限してもよい。具体的には、ある画像データD1に対するペット5の姿勢と向きが、「四つ足で起立し、頭部を下げている」及び「食器の方を向いている」(つまり、「食事中」という行動)と推定されて出力情報が提示装置4に出力されたとする。そして、以降に連続して取得した画像データD1に対するペット5の姿勢と向きも、上記のある画像データD1と同じに推定された場合、出力部35は、その推定結果を出力しなくてもよい。出力部35は、複数の出力情報を内蔵のメモリ等にプールする場合、所定回数連続して同じ推定結果だった出力情報については、一の推定結果としてまとめて送信してもよい。「所定回数」に関する設定は、ペットカメラ100又は提示装置4への利用者300の操作入力によって適宜変更可能でもよい。
 このように推定結果の出力を制限することで、類似する推定結果が連続して出力されることを抑制でき、例えば処理負荷や通信量の低減を図れる。また短期間に何度も同じペット状況(例えば「食事中」)が利用者300に通知されることが抑制されるため、利便性も向上する。
 (2.3)動作説明
 以下、本実施形態におけるペット管理システム200の動作について、図8及び図9を参照しながら簡単に説明する。なお、以下の動作説明における順序は、単なる一例であって特に限定されない。特に以下では、ペット検出部X1における、特定領域A1の検出処理とペット情報の生成処理とが、この順で実行される一例を説明するが、これらの処理は、概ね同時に並行して実行されてもよい。
 利用者300の宅内に設置されたペットカメラ100は、ペット5が主に活動し得る所定の管理領域を、撮像部2で撮像して監視する。ペットカメラ100は、管理領域を、静止画像として所定の周期で撮像してもよいし、動画像として所定の期間撮像し続けてもよい。
 ペットカメラ100のペット状況推定システム1は、図8に示すように、撮像部2で撮像された画像データD1(静止画像、又は動画像の中の1コマ)を取得すると(S1)、推定処理を実行する(S2)。
 ペット状況推定システム1は、領域検出部32にて、第2モデルM2を用いて画像データD1内に犬(ペット5)が被写体H1として写っているか否かを判定する(S3)。ペット状況推定システム1は、犬(ペット5)が写っていれば(S3:Yes)、ペット5を示す特定領域A1を検出し(S4:ペット検出ステップ)、頭部50の判定(S5)に進む。
 本実施形態では、仮に画像データD1内に犬(ペット5)が写っていないと判定しても(S3:No)、処理は、頭部50の判定(S5)に進む。これは、上述の通り、画像データD1が犬の顔のアップ画像の場合に、「犬」の検出に関する失敗をフォローするためである。
 ペット状況推定システム1は、領域検出部32にて、第3モデルM3を用いて画像データD1内に犬(ペット5)の頭部50が写っているか否かを判定する(S5)。ペット状況推定システム1は、頭部50が写っていれば(S5:Yes)、頭部50を示す頭部領域A2を検出する(S6)。本実施形態では、ペット状況推定システム1は、頭部50が写っていなければ(S5:No)、この画像データD1に関する推定処理を終えて、次の画像データD1の取得を待つ(S1に戻る)。ただし、特定領域A1を検出していれば、頭部領域A2を検出していなくても、推定処理を続けてもよい。
 ペット状況推定システム1は、頭部領域A2の検出後、特定領域A1を検出済みであれば(S7:Yes)、処理は、特定物体6の判定(S9:図9参照)に進む。一方、ペット状況推定システム1は、頭部領域A2の検出後、特定領域A1を検出していなければ(S7:No)、頭部領域A2と略同等の領域を特定領域A1に設定して(S8)、処理は、特定物体6の判定(S9)に進む。
 ペット状況推定システム1は、図9に示すように、物体検出部36にて、第4モデルM4を用いて画像データD1内に特定物体6が写っているか否かを判定する(S9)。ペット状況推定システム1は、特定物体6が写っていれば(S9:Yes)、特定物体6を示す物体領域B1を検出し(S10)、姿勢の判定(S12)に進む。一方、特定物体6が写っていなければ(S9:No)、物体領域B1は非検出という結果を得て(S11)、姿勢の判定(S12)に進む。
 ペット状況推定システム1は、姿勢判定部331にて、第1モデルM1と特定領域A1に関する情報とを用いて、犬(ペット5)の姿勢を判定する(S12)。
 次にペット状況推定システム1は、向き判定部332にて、特定領域A1に関する情報と頭部領域A2に関する情報とに基づいて、ペット5の向きを判定する(S13)。
 またペット状況推定システム1は、距離判定部333にて、頭部領域A2に関する情報と、物体領域B1に関する情報と、姿勢情報とに基づいて、ペット物体間距離を判定する(S14)。なお、物体領域B1が非検出の場合には、処理S14はスキップされる。
 ペット状況推定システム1は、処理S12~S14で得られた判定結果から、ペット情報を生成する(S15:情報生成ステップ)。
 そしてペット状況推定システム1は、ペット情報と条件情報9とに基づいて、ペット状況を推定する(S16:推定ステップ)。
 ペット状況推定システム1は、推定したペット状況と画像データD1とを紐づけた出力情報を提示装置4に送信して、提示装置4から提示させる(S17)。
 [利点]
 このようにペット状況推定システム1では、推定部34は、ペット情報8に基づいて、ペット5の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペットの状況を把握しやすくすることができる。
 また本実施形態では、画像データD1におけるペット5が向いている方向を判定する向き判定部332が設けられているため、ペット5の向きを考慮することで、ペットの状況に関する推定の信頼性を向上できる。また特定領域A1に対する頭部領域A2の相対的な位置関係から、ペット5が向いている方向を判定するため、ペット5が向いている方向に関する判定の信頼性をより向上できる。
 また出力部35が、推定部34の推定結果を、上記推定結果の基となった特定領域A1が検出された画像データD1とを紐づけた態様で出力するため、ペットの状況をより把握しやすくすることができる。
 特に、利用者300は、ペット状況推定システム1によって推定されたペット状況を通じて、ペット5の行動/感情を把握しやすく、その結果、ペット5とのコミュニケーションが図りやすくなる。また利用者300は、外出中においても、提示装置4からの通知によって、宅内のペット5の行動/感情を把握しやすく、その結果、ペット5を管理(見守り)しやすい。特に例えばペット状況が、緊急性を要するような行動(体調が悪く、ぐったりしている等)と推定された場合に、その旨をいち早く知ることができる。
 (3)変形例
 上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、上記実施形態に係るペット状況推定システム1と同様の機能は、ペット状況推定方法、コンピュータプログラム、又はコンピュータプログラムを記録した非一時的記録媒体等で具現化されてもよい。
 以下、上記実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。以下では、上記実施形態を「基本例」と呼ぶこともある。
 本開示におけるペット状況推定システム1は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示におけるペット状況推定システム1としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
 また、ペット状況推定システム1における複数の機能が、1つのハウジング内に集約されていることは必須の構成ではない。例えば、ペット状況推定システム1の構成要素は、複数のハウジングに分散して設けられていてもよい。具体的には、ペット状況推定システム1の第1モデルM1~第4モデルM4の少なくとも一部の学習済みモデルは、ペットカメラ100の外部(例えばサーバ7等の外部サーバ)に設けられてもよい。
 反対に、ペット状況推定システム1における複数の機能が、基本例のように、1つのハウジング(ペットカメラ100の筐体)内に集約されてもよい。さらに、ペット状況推定システム1の少なくとも一部の機能、例えば、ペット状況推定システム1の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
 (3.1)変形例1
 以下、本開示における変形例1について、図10を参照しながら説明する。図10は、本変形例のペット状況推定システム1Aを示す。以下では基本例のペット状況推定システム1と実質的に同じ構成要素については、同じ符号を付与して適宜にその説明を省略する場合がある。
 基本例のペット状況推定システム1では、ペット検出部X1は、領域検出部32及び情報生成部33を有し、領域検出部32でペット5を検出してから、情報生成部33の姿勢判定部331でペット5の姿勢を判定して姿勢情報を生成している。つまり、先ずは取得した画像データD1内におけるペット5の存否を検出してから、姿勢判定を行っている。
 本変形例のペット状況推定システム1Aは、図10に示すように、領域検出部32が、姿勢判定部331の機能を有している点で、基本例のペット状況推定システム1と相違する。
 本変形例では、領域検出部32は、画像データD1において、ペットの姿勢について画像認識するためにペットの姿勢について学習した第1モデルM1に基づいて、特定の姿勢を取っているペット5の特定領域A1を検出する。ここでは領域検出部32は、例えば第1モデルM1~第4モデルM4を用いて、特定の姿勢を取っているペット5が被写体H1として画像データD1内に写っているか否かを判定し、特定の姿勢を取っているペット5を示す特定領域A1を検出する。特定の姿勢は、上述の通り、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特定の姿勢は、例えば座っている、伏せている、寝ている、又は四つ足で起立している等である。
 特定の姿勢を取っているペット5を示す特定領域A1に関する情報は、情報生成部33に入力されて、向き判定部332における向きの判定、及び距離判定部333における距離の判定に用いられる。
 要するに、本変形例のペット検出部X1では、ペット5の存在を検出してから姿勢を判定するというよりは、特定の姿勢のペット5を検出する。
 本変形例の構成においても、ペット5の状況を把握しやすくすることができる。
 (3.2)その他の変形例
 以下、その他の変形例について列記する。
 基本例では、推定部34は、ペット情報と、条件情報9とに基づいて、ペット状況を推定している。しかし、推定部34は、条件情報9の代わりに、ペット情報と、ペットの特定の行動及び感情の少なくとも一方について機械学習した学習済みモデル(分類器)とを用いて、ペット状況が推定されてもよい。分類器は、ペット情報が入力されることで、ペット情報をペットの特定の行動及び感情の少なくとも一方に分類する。
 基本例では、1つの画像データD1内における被写体H1としての犬(ペット5)の数が1匹であった。しかし、当然ながら、1つの画像データD1内における被写体H1としての犬(ペット5)の数が2匹以上(例えば親犬と子犬の2匹)の場合もあり得る。ペット状況推定システム1は、1つの画像データD1内において、複数の特定領域A1を検出した場合には、各特定領域A1についてペット情報を生成し、ペット状況を推定する。
 基本例では、1つの画像データD1内におけるペット5以外の特定物体6の数が、ゼロ又は1つであった。しかし、当然ながら、1つの画像データD1内における特定物体6の数が、2つ以上の場合もあり得る。ペット状況推定システム1は、1つの画像データD1内において、複数の物体領域B1を検出した場合には、各物体領域B1に対するペット物体間距離を判定する。この場合、ペット状況推定システム1は、複数のペット物体間距離の中で、ペット5との距離が最も短い物体領域B1を選定して、ペット状況を推定してもよい。
 基本例では、ペット状況推定システム1は、ペット5の向きを判定する機能(向き判定部332)とペット物体間距離を判定する機能(距離判定部333)を有しているが、これらの機能は、必須の機能ではなく、省略されてもよい。
 基本例における第1モデルM1~第4モデルM4の少なくとも一部は、強化学習により機械学習されてもよい。この場合、上記一部のモデルは、強化学習のための処理負荷を考慮すると、ペットカメラ100の外部(例えばサーバ7等の外部サーバ)に設けられることが好ましい。
 (4)まとめ
 以上説明したように、第1の態様に係るペット状況推定システム(1,1A)は、領域検出部(32)と、情報生成部(33)と、推定部(34)と、を備える。領域検出部(32)は、画像データ(D1)において、被写体(H1)であるペット(5)の容姿の少なくとも一部を示す特定領域(A1)を検出する。情報生成部(33)は、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル(第1モデルM1)と、画像データ(D1)とに基づくペット(5)の少なくとも姿勢に関する姿勢情報を含む。推定部(34)は、ペット情報に基づいて、特定領域(A1)に示されるペット(5)の感情及び行動の少なくとも一方に関するペット状況を推定する。第1の態様によれば、推定部(34)は、ペット情報に基づいて、ペット(5)の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット(5)の状況を把握しやすくすることができる。
 第2の態様に係るペット状況推定システム(1,1A)に関して、第1の態様において、推定部(34)は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報(9)とに基づいて、ペット状況を推定する。第2の態様によれば、推定部(34)が、例えば、機械学習された学習済みモデルを用いて、ペット状況を推定する場合に比べて、ペット状況推定システム(1,1A)を簡単な構成で実現可能である。
 第3の態様に係るペット状況推定システム(1,1A)に関して、第1又は第2の態様において、領域検出部(32)は、学習済みモデル(第2モデルM2)に基づいて、特定領域(A1)を検出する。学習済みモデル(第2モデルM2)は、所定の種類のペットについて画像認識するためにその外観要因を学習したものである。第3の態様によれば、特定領域(A1)の検出に関する信頼性が向上され、結果的に、ペット(5)の状況に関する推定の信頼性を向上できる。
 第4の態様に係るペット状況推定システム(1,1A)に関して、第1~第3の態様のいずれか1つにおいて、領域検出部(32)は、学習済みモデル(第3モデルM3)に基づいて、被写体(H1)の頭部(50)を示す頭部領域(A2)を検出する。学習済みモデル(第3モデルM3)は、所定の種類のペットの頭部について画像認識するためにその外観要因を学習したものである。第4の態様によれば、頭部領域(A2)の検出に関する信頼性が向上され、結果的に、ペット(5)の状況に関する推定の信頼性を向上できる。
 第5の態様に係るペット状況推定システム(1,1A)に関して、第4の態様において、情報生成部(33)は、特定領域(A1)が検出された画像データ(D1)を用いて、画像データ(D1)におけるペット(5)が向いている方向を判定する向き判定部(332)を有する。ペット情報は、向き判定部(332)の判定結果を更に含む。第5の態様によれば、ペット(5)が向いている方向を考慮することで、ペット(5)の状況に関する推定の信頼性を向上できる。
 第6の態様に係るペット状況推定システム(1,1A)に関して、第5の態様において、向き判定部(332)は、少なくとも特定領域(A1)に対する頭部領域(A2)の相対的な位置関係から、ペット(5)が向いている方向を判定する。第6の態様によれば、ペット(5)が向いている方向に関する判定の信頼性を向上できる。
 第7の態様に係るペット状況推定システム(1,1A)に関して、第5又は第6の態様において、推定部(34)は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報(9)とに基づいて、ペット状況を推定する。条件情報(9)は、ペット(5)が向いている複数の方向と、複数のペット状況とがそれぞれ対応付けされた向き情報を含む。推定部(34)は、向き判定部(332)の判定結果と向き情報とに基づいて、ペット状況を推定する。第7の態様によれば、ペット(5)の状況に関する推定の信頼性を向上できる。
 第8の態様に係るペット状況推定システム(1,1A)は、第5~第7の態様のいずれか1つにおいて、推定部(34)の推定結果を出力する出力部(35)を更に備える。出力部(35)は、複数の画像データ(D1)に関する推定部(34)の推定結果が、所定回数連続してペット(5)が同じ方向を向いた姿勢であることを示す場合、推定部(34)の推定結果の出力を制限する。第8の態様によれば、類似する推定結果が連続して出力されることを抑制でき、例えば処理負荷の低減を図れる。
 第9の態様に係るペット状況推定システム(1,1A)は、第1~第8の態様のいずれか1つにおいて、画像データ(D1)においてペット(5)以外の特定物体(6)を示す物体領域(B1)を検出する物体検出部(36)を更に備える。情報生成部(33)は、物体領域(B1)に対するペット(5)の相対的な距離を判定する距離判定部(333)を有する。ペット情報は、距離判定部(333)の判定結果を更に含む。推定部(34)は、ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報(9)とに基づいて、ペット状況を推定する。条件情報(9)は、複数種類の特定物体と、ペット及び特定物体間の距離に関する複数の閾値とがそれぞれ対応付けされた情報を含む。推定部(34)は、距離判定部(333)の判定結果と複数の閾値との比較により、ペット状況を推定する。第9の態様によれば、物体領域(B1)に対する特定領域(A1)の相対的な距離を考慮することで、ペット(5)の状況に関する推定の信頼性を向上できる。
 第10の態様に係るペット状況推定システム(1,1A)に関して、第9の態様において、物体検出部(36)は、所定の種類の特定物体について画像認識するためにその外観要因を学習した学習済みモデル(第4モデルM4)に基づいて、物体領域(B1)を検出する。第10の態様によれば、物体領域(B1)の検出に関する信頼性が向上される。
 第11の態様に係るペット状況推定システム(1,1A)に関して、第9又は第10の態様において、推定部(34)は、物体検出部(36)にて検出された物体領域(B1)に示される特定物体(6)が食器(64)であり、かつ、距離判定部(333)にて判定された距離が所定の閾値以下の場合、ペット状況として、ペット(5)が食事をしていると推定する。第11の態様によれば、画像データ(D1)のペット(5)が実際に食事をしている場合に、ペット状況も「食事をしている」と推定される可能性が高くなる。
 第12の態様に係るペット状況推定システム(1,1A)は、第1~第11の態様のいずれか1つにおいて、出力部(35)を更に備える。出力部(35)は、推定部(34)の推定結果を、上記推定結果の基となった特定領域(A1)が検出された画像データ(D1)とを紐づけた態様で出力する。第12の態様によれば、ペット(5)の状況をより把握しやすくすることができる。
 第13の態様に係るペット状況推定システム(1,1A)に関して、第1~第12の態様のいずれか1つにおいて、領域検出部(32)は、画像データ(D1)において、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル(第1モデルM1)に基づいて、特定の姿勢を取っているペット(5)の特定領域(A1)を検出する。第13の態様によれば、ペット(5)の状況をより把握しやすくすることができる。
 第14の態様に係るペットカメラ(100)は、第1~第13の態様のいずれか1つにおけるペット状況推定システム(1,1A)と、画像データ(D1)を撮像する撮像部(2)と、を備える。第14の態様によれば、ペット(5)の状況を把握しやすくすることが可能なペットカメラ(100)を提供できる。
 第15の態様に係るサーバ(7)は、第1~第13の態様のいずれか1つにおけるペット状況推定システム(1,1A)における情報生成部(33)及び推定部(34)が設けられたペットカメラ(100)と通信可能である。サーバ(7)には、領域検出部(32)が設けられている。第15の態様によれば、ペット(5)の状況を把握しやすくすることが可能なサーバ(7)を提供できる。
 第16の態様に係るサーバ(7)は、第1~第13の態様のいずれか1つにおけるペット状況推定システム(1,1A)における領域検出部(32)が設けられたペットカメラ(100)と通信可能である。サーバ(7)には、情報生成部(33)及び推定部(34)が設けられている。第16の態様によれば、ペット(5)の状況を把握しやすくすることが可能なサーバ(7)を提供できる。
 第17の態様に係るペット状況推定方法は、ペット検出ステップと、情報生成ステップと、推定ステップと、を含む。ペット検出ステップにて、画像データ(D1)において、被写体(H1)としてのペット(5)の容姿の少なくとも一部を示す特定領域(A1)を検出する。情報生成ステップにて、ペット情報を生成する。ペット情報は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル(第1モデルM1)と、画像データ(D1)とに基づくペット(5)の少なくとも姿勢に関する姿勢情報を含む。推定ステップにて、ペット情報に基づいて、特定領域(A1)に示されるペット(5)の感情及び行動の少なくとも一方に関するペット状況を推定する。第17の態様によれば、ペット(5)の状況を把握しやすくすることが可能なペット状況推定方法を提供できる。
 第18の態様に係るプログラムは、1以上のプロセッサに、第17の態様におけるペット状況推定方法を実行させるためのプログラムである。第18の態様によれば、ペット(5)の状況を把握しやすくすることが可能な機能を提供できる。
 第2~13の態様に係る構成については、ペット状況推定システム(1,1A)に必須の構成ではなく、適宜省略可能である。
 100 ペットカメラ
 1,1A ペット状況推定システム
 2 撮像部
 32 領域検出部
 33 情報生成部
 332 向き判定部
 333 距離判定部
 34 推定部
 35 出力部
 36 物体検出部
 5 ペット
 50 頭部
 6 特定物体
 7 サーバ
 64 食器
 9 条件情報
 A1 特定領域
 A2 頭部領域
 B1 物体領域
 D1 画像データ
 H1 被写体
 M1~M4 第1モデル~第4モデル(学習済みモデル)

Claims (18)

  1.  画像データにおいて、被写体であるペットの容姿の少なくとも一部を示す特定領域を検出する領域検出部と、
     ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含むペット情報を生成する情報生成部と、
     前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定部と、
    を備える、
     ペット状況推定システム。
  2.  前記推定部は、前記ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定する、
     請求項1に記載のペット状況推定システム。
  3.  前記領域検出部は、所定の種類のペットについて画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記特定領域を検出する、
     請求項1又は2に記載のペット状況推定システム。
  4.  前記領域検出部は、所定の種類のペットの頭部について画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記被写体の頭部を示す頭部領域を検出する、
     請求項1~3のいずれか1項に記載のペット状況推定システム。
  5.  前記情報生成部は、前記特定領域が検出された前記画像データを用いて、前記画像データにおける前記ペットが向いている方向を判定する向き判定部を有し、
     前記ペット情報は、前記向き判定部の判定結果を更に含む、
     請求項4に記載のペット状況推定システム。
  6.  前記向き判定部は、少なくとも前記特定領域に対する前記頭部領域の相対的な位置関係から、前記ペットが向いている方向を判定する、
     請求項5に記載のペット状況推定システム。
  7.  前記推定部は、前記ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定し、
     前記条件情報は、ペットが向いている複数の方向と、複数のペット状況とがそれぞれ対応付けされた向き情報を含み、
     前記推定部は、前記向き判定部の判定結果と前記向き情報とに基づいて、前記ペット状況を推定する、
     請求項5又は6に記載のペット状況推定システム。
  8.  前記推定部の推定結果を出力する出力部を更に備え、
     前記出力部は、複数の前記画像データに関する前記推定部の推定結果が、所定回数連続して前記ペットが同じ方向を向いた姿勢であることを示す場合、前記推定部の推定結果の出力を制限する、
     請求項5~7のいずれか1項に記載のペット状況推定システム。
  9.  前記画像データにおいて前記ペット以外の特定物体を示す物体領域を検出する物体検出部を更に備え、
     前記情報生成部は、前記物体領域に対する前記ペットの相対的な距離を判定する距離判定部を有し、
     前記ペット情報は、前記距離判定部の判定結果を更に含み、
     前記推定部は、前記ペット情報と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定し、
     前記条件情報は、複数種類の特定物体と、ペット及び特定物体間の距離に関する複数の閾値とがそれぞれ対応付けされた情報を含み、
     前記推定部は、前記距離判定部の判定結果と前記複数の閾値との比較により、前記ペット状況を推定する、
     請求項1~8のいずれか1項に記載のペット状況推定システム。
  10.  前記物体検出部は、所定の種類の特定物体について画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記物体領域を検出する、
     請求項9に記載のペット状況推定システム。
  11.  前記推定部は、前記物体検出部にて検出された前記物体領域に示される前記特定物体が食器であり、かつ、前記距離判定部にて判定された前記距離が所定の閾値以下の場合、前記ペット状況として、前記ペットが食事をしていると推定する、
     請求項9又は10に記載のペット状況推定システム。
  12.  前記推定部の推定結果を、上記推定結果の基となった前記特定領域が検出された前記画像データと紐づけた態様で出力する出力部を更に備える、
     請求項1~11のいずれか1項に記載のペット状況推定システム。
  13.  前記領域検出部は、前記画像データにおいて、ペットの姿勢について画像認識するためにペットの姿勢について学習した前記学習済みモデルに基づいて、特定の姿勢を取っている前記ペットの前記特定領域を検出する、
     請求項1~12のいずれか1項に記載のペット状況推定システム。
  14.  請求項1~13のいずれか1項に記載のペット状況推定システムと、
     前記画像データを撮像する撮像部と、
    を備える、
     ペットカメラ。
  15.  請求項1~13のいずれか1項に記載のペット状況推定システムにおける前記情報生成部及び前記推定部が設けられたペットカメラと通信可能なサーバであって、
     前記領域検出部が設けられている、
     サーバ。
  16.  請求項1~13のいずれか1項に記載のペット状況推定システムにおける前記領域検出部が設けられたペットカメラと通信可能なサーバであって、
     前記情報生成部及び前記推定部が設けられている、
     サーバ。
  17.  画像データにおいて、被写体としてのペットの容姿の少なくとも一部を示す特定領域を検出するペット検出ステップと、
     ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記画像データとに基づく前記ペットの少なくとも姿勢に関する姿勢情報を含むペット情報を生成する情報生成ステップと、
     前記ペット情報に基づいて、前記特定領域に示される前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定ステップと、
    を含む、
     ペット状況推定方法。
  18.  1以上のプロセッサに、請求項17に記載のペット状況推定方法を実行させるためのプログラム。
PCT/JP2021/030654 2020-09-01 2021-08-20 ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム WO2022050093A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180050178.5A CN115885313A (zh) 2020-09-01 2021-08-20 宠物状态评估系统、宠物相机、服务器、宠物状态评估方法和程序
JP2022546235A JP7479019B2 (ja) 2020-09-01 2021-08-20 ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
US18/022,074 US20230320328A1 (en) 2020-09-01 2021-08-20 Pet status assessment system, pet camera, server, pet status assessment method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020147129 2020-09-01
JP2020-147129 2020-09-01

Publications (1)

Publication Number Publication Date
WO2022050093A1 true WO2022050093A1 (ja) 2022-03-10

Family

ID=80490861

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/030654 WO2022050093A1 (ja) 2020-09-01 2021-08-20 ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム

Country Status (4)

Country Link
US (1) US20230320328A1 (ja)
JP (1) JP7479019B2 (ja)
CN (1) CN115885313A (ja)
WO (1) WO2022050093A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175931A1 (ja) * 2022-03-18 2023-09-21 日本電気株式会社 画像分類装置、画像分類方法、及び、記録媒体
JP7410607B1 (ja) 2023-07-24 2024-01-10 株式会社Eco‐Pork 飼養管理システム、および飼養管理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021359652A1 (en) * 2020-10-14 2023-06-22 One Cup Productions Ltd. Animal visual identification, tracking, monitoring and assessment systems and methods thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091233A (ja) * 2017-11-14 2019-06-13 株式会社Jvcケンウッド 通知制御システム、通知制御方法およびプログラム
JP2019122368A (ja) * 2018-01-12 2019-07-25 デザミス株式会社 牛の健康状態管理システム及び管理方法並びに健康状態管理プログラム
JP2020005558A (ja) * 2018-07-06 2020-01-16 ユニ・チャーム株式会社 動物撮影装置、健康判定システム及びプログラム
JP2020014421A (ja) * 2018-07-26 2020-01-30 日本ユニシス株式会社 家畜出産予測システム
US20200205382A1 (en) * 2018-12-28 2020-07-02 Acer Incorporated Pet monitoring method and pet monitoring system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091233A (ja) * 2017-11-14 2019-06-13 株式会社Jvcケンウッド 通知制御システム、通知制御方法およびプログラム
JP2019122368A (ja) * 2018-01-12 2019-07-25 デザミス株式会社 牛の健康状態管理システム及び管理方法並びに健康状態管理プログラム
JP2020005558A (ja) * 2018-07-06 2020-01-16 ユニ・チャーム株式会社 動物撮影装置、健康判定システム及びプログラム
JP2020014421A (ja) * 2018-07-26 2020-01-30 日本ユニシス株式会社 家畜出産予測システム
US20200205382A1 (en) * 2018-12-28 2020-07-02 Acer Incorporated Pet monitoring method and pet monitoring system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175931A1 (ja) * 2022-03-18 2023-09-21 日本電気株式会社 画像分類装置、画像分類方法、及び、記録媒体
JP7410607B1 (ja) 2023-07-24 2024-01-10 株式会社Eco‐Pork 飼養管理システム、および飼養管理方法

Also Published As

Publication number Publication date
CN115885313A (zh) 2023-03-31
JP7479019B2 (ja) 2024-05-08
JPWO2022050093A1 (ja) 2022-03-10
US20230320328A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
WO2022050093A1 (ja) ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
WO2022050092A1 (ja) ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
JP6893606B2 (ja) 画像のタグ付け方法、装置及び電子機器
US11238374B2 (en) Method for verifying training data, training system, and computer readable medium
KR102022883B1 (ko) 애완동물의 행태와 감정을 보여주는 그래픽 사용자 인터페이스 제공 방법 및 장치
US20140281975A1 (en) System for adaptive selection and presentation of context-based media in communications
US11010609B2 (en) Mobile image pickup system, learning method, mobile image pickup apparatus, information acquisition control apparatus, information acquisition control method and recording medium storing information acquisition control program
US11910784B2 (en) Animal visual identification, tracking, monitoring and assessment systems and methods thereof
CA3042762A1 (en) Apparatuses and methods for smart pet alert,and storage medium thereof
WO2023279697A1 (zh) 宠物看护方法、装置、电子设备及存储介质
KR101714976B1 (ko) 증강현실 기반의 축사 모니터링 장치
JP2009265827A (ja) 対象物検出装置及び方法、対象物検出システム、プログラム
KR20130007079A (ko) 동물 상태 원격 관리 방법 및 시스템
Chen et al. Monitoring the behaviours of pet cat based on YOLO model and raspberry Pi
CN111191066A (zh) 一种基于图像识别的宠物身份识别方法和装置
US20210279273A1 (en) System and method for using an image to obtain search results
KR102481445B1 (ko) 디스플레이장치 및 그 제어방법
JP2023015924A (ja) 生産管理システム、生産管理方法及びプログラム
JP2023056040A (ja) 活動検証のためのシステム及び方法
KR102464539B1 (ko) 영역별 개체 모니터링을 위한 유저 인터페이스 장치
WO2022181131A1 (ja) 体重推定システム、及び、体重推定方法
WO2023008571A1 (ja) 個体識別システム及び個体識別方法
US20230186624A1 (en) Method and electronic device for providing augmented reality recommendations
US20230401810A1 (en) Artificial intelligence (ai)-based system and method for monitoring health conditions
US20240242414A1 (en) Electronic device and method for creating avatar in virtual space

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21864151

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022546235

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21864151

Country of ref document: EP

Kind code of ref document: A1