WO2022050092A1 - ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム - Google Patents

ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム Download PDF

Info

Publication number
WO2022050092A1
WO2022050092A1 PCT/JP2021/030653 JP2021030653W WO2022050092A1 WO 2022050092 A1 WO2022050092 A1 WO 2022050092A1 JP 2021030653 W JP2021030653 W JP 2021030653W WO 2022050092 A1 WO2022050092 A1 WO 2022050092A1
Authority
WO
WIPO (PCT)
Prior art keywords
pet
unit
posture
detection unit
estimation
Prior art date
Application number
PCT/JP2021/030653
Other languages
English (en)
French (fr)
Inventor
宏彰 大眉
靖 上坂
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2022050092A1 publication Critical patent/WO2022050092A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K29/00Other apparatus for animal husbandry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • This disclosure generally relates to pet status estimation systems, pet cameras, servers, pet status estimation methods, and programs. More specifically, the present disclosure relates to a pet situation estimation system for a pet as a subject in moving image data, a pet camera provided with the pet situation estimation system, a server, a pet situation estimation method, and a program.
  • Patent Document 1 discloses a detection device that recognizes and detects an animal and a person from an image, respectively.
  • This detection device includes an animal detection unit that detects an animal from an image and a person detection unit that detects a person from the image. Further, the detection device further includes a detection result output unit that outputs information indicating that the target object has been detected as a detection result when an animal and a person are detected.
  • the animal detection unit scans the input image based on the feature amount data that reflects the characteristics of the animal stored in the animal feature amount storage unit.
  • the animal detection unit 21 can identify a region that matches the feature amount data of the animal or has a high degree of similarity, the animal detection unit 21 detects the object in the region as an animal.
  • a user wants to know specifically about the situation of a pet (animal) shown in the image data, or when the pet shown in the image data is in a specific situation. There is a request to receive a notification to that effect.
  • an object of the present invention is to provide a pet situation estimation system, a pet camera, a server, a pet situation estimation method, and a program that can easily grasp the pet situation.
  • the pet situation estimation system of one aspect of the present disclosure includes a frame extraction unit, a region detection unit, a posture determination unit, a motion detection unit, and an estimation unit.
  • the frame extraction unit extracts a plurality of image frames, each of which is a still image in which a pet can exist as a subject and is arranged in the direction of the time axis, from the moving image data.
  • the region detection unit detects a specific region showing at least a part of the appearance of the pet in the plurality of image frames.
  • the posture determination unit determines the posture of the pet based on the trained model learned about the posture of the pet in order to recognize the image of the pet's posture and at least one of the plurality of image frames. ..
  • the motion detection unit detects one or a plurality of pixel regions corresponding to the movement of the whole body or a part of the pet based on the change of the pixel value in the plurality of specific regions arranged in the direction of the time axis. Based on the determination result of the posture determination unit and the detection result of the motion detection unit, the estimation unit estimates the pet status regarding at least one of the emotions and behaviors of the pet reflected in the moving image data.
  • the pet camera of one aspect of the present disclosure includes the above-mentioned pet situation estimation system and an imaging unit for capturing the moving image data.
  • the server of one aspect of the present disclosure can communicate with the pet camera provided with the posture determination unit, the motion detection unit, and the estimation unit in the pet situation estimation system.
  • the server is provided with the frame extraction unit and the area detection unit.
  • the server of one aspect of the present disclosure can communicate with the frame extraction unit in the pet situation estimation system and the pet camera provided with the area detection unit.
  • the server is provided with the posture determination unit, the motion detection unit, and the estimation unit.
  • the pet situation estimation method of one aspect of the present disclosure includes a frame extraction step, a pet detection step, a posture determination step, a motion detection step, and an estimation step.
  • the frame extraction step a plurality of image frames, each of which is a still image in which a pet can exist as a subject and are arranged in the direction of the time axis, are extracted from the moving image data.
  • the pet detection step a specific region showing at least a part of the appearance of the pet is detected in the plurality of image frames.
  • the posture determination step the posture of the pet is determined based on the trained model learned about the posture of the pet in order to recognize the image of the pet's posture and at least one image frame among the plurality of image frames. ..
  • the motion detection step one or a plurality of pixel regions corresponding to the movements of the whole body or a part of the pet are detected based on the changes in the pixel values in the plurality of specific regions arranged in the direction of the time axis.
  • the estimation step based on the determination result of the posture determination step and the detection result of the motion detection step, the pet state regarding at least one of the emotion and the behavior of the pet reflected in the moving image data is estimated.
  • the program of one aspect of the present disclosure is a program for causing one or more processors to execute the above-mentioned pet situation estimation method.
  • FIG. 1A is a schematic configuration diagram of a pet camera to which the pet situation estimation system according to the embodiment is applied.
  • FIG. 1B is a schematic configuration diagram of a presentation device that communicates with the pet camera of the above.
  • FIG. 2 is a conceptual diagram of the overall configuration of a pet management system including the pet situation estimation system of the above.
  • FIG. 3 is a conceptual diagram for explaining a plurality of image frames extracted from the moving image data by the pet situation estimation system of the above.
  • 4A and 4B are diagrams for explaining a feature amount relating to a pixel region having "movement" detected by the pet situation estimation system of the same.
  • 5A to 5C are examples of image frame data to be estimated by the pet situation estimation system of the same.
  • FIG. 6A to 6C are other examples of image frame data to be estimated by the pet situation estimation system of the same.
  • FIG. 7 is a conceptual diagram of a presentation device in which the estimation result by the pet situation estimation system of the above is presented on the screen.
  • FIG. 8 is a flowchart for explaining an operation example of the pet situation estimation system of the above.
  • FIG. 9 is a flowchart for explaining an operation example of the pet situation estimation system as described above.
  • FIG. 10 is a schematic configuration diagram of a pet camera to which a modified example of the pet situation estimation system described above is applied.
  • the pet situation estimation system 1 includes a frame extraction unit 31, a region detection unit 32, a posture determination unit 331, a motion detection unit 330, and an estimation unit 34. And have.
  • the pet situation estimation system 1 mainly comprises a computer system having one or more processors and one or more memories.
  • all the components (frame extraction unit 31, area detection unit 32, posture determination unit 331, motion detection unit 330, estimation unit 34, etc.) of the pet situation estimation system 1 are all included in one of the pet camera 100. It will be explained as if it is centrally provided in the body. However, the components of the pet situation estimation system 1 in the present disclosure may be provided in a distributed manner.
  • the pet camera 100 is provided with a posture determination unit 331, a motion detection unit 330, and an estimation unit 34, and a server 7 capable of communicating with the pet camera 100 is provided with a frame extraction unit 31 and an area detection unit 32. You may.
  • the pet camera 100 is provided with a frame extraction unit 31 and an area detection unit 32, and the server 7 capable of communicating with the pet camera 100 is provided with a posture determination unit 331, a motion detection unit 330, and an estimation unit 34.
  • the "server” referred to here may be composed of one external device (may be a device installed in the house of the user 300), or may be composed of a plurality of external devices.
  • the frame extraction unit 31 extracts a plurality of (five in the illustrated example) image frames F0 (frames) from the moving image data G1 (see FIG. 3).
  • Each of the plurality of image frames F0 is a still image in which the pet 5 may exist as the subject H1.
  • the plurality of image frames F0 are arranged in the direction Y1 of the time axis.
  • the moving image data G1 is a moving image (data) imaged (generated) by the imaging unit 2 (see FIG. 1A) of the pet camera 100.
  • the moving image data G1 may be a processed part of a moving image captured by the imaging unit 2.
  • the frame rate of the moving image data G1 is 60 fps as an example.
  • the frame rate is not particularly limited, and the moving image data G1 includes one in which the interval between one frame (frame) and one frame is relatively long (frame advance).
  • the "plurality of image frames arranged in the direction of the time axis" referred to here may be image frames arranged at predetermined intervals (for example, 0.5 second intervals), or may be continuous image frames.
  • the "moving image data G1" is a moving image captured by the imaging unit 2 or a moving image obtained by processing a part of the moving image captured by the imaging unit 2.
  • five image frames F0 are arranged along the direction Y1 of the time axis, and in the following, the first frame F1, the second frame F2, the third frame F3, the fourth frame F4, and the first frame F0 are arranged.
  • Five frames F5 are arranged in this order. That is, among the five image frames F0, the first frame F1 is the earliest (oldest) imaged, and the fifth frame F5 is the latest (newest) imaged.
  • the type of "pet” to be estimated by the pet situation estimation system 1 is a dog (animal).
  • the type of "pet” is not particularly limited, and may be a cat or another animal.
  • the "dog (pet)” shown (attention) in the image frame F0 will be described with the reference numeral "5", and the unspecified number of “dogs (pets)” will not be labeled. It may be explained to.
  • the area detection unit 32 detects a specific area A1 indicating at least a part of the appearance of the pet 5 in a plurality of image frames F0.
  • the specific area A1 is an area surrounded by a rectangular frame in the image frame F0, and is represented by a “bounding box” surrounding the pet 5 of the subject H1.
  • the position of the pet 5 in the image frame F0 is defined by, for example, the X-axis coordinates, the Y-axis coordinates, the width of the bounding box, the height of the bounding box, and the like in the upper left corner of the bounding box.
  • the specific region A1 is not limited to being shown by the bounding box, and may be shown by, for example, segmentation that distinguishes the subject H1 from the background on a pixel-by-pixel basis.
  • the "XY coordinates" for specifying the position of the pet 5 in the image frame F0 in the present disclosure are defined in pixel units as an example.
  • the posture determination unit 331 determines the posture of the pet 5 based on the trained model (hereinafter, may be referred to as “first model M1”) and at least one image frame F0 among the plurality of image frames F0. do.
  • the first model M1 has learned about the posture of a pet in order to recognize an image of the posture of the pet.
  • the first model M1 is a model generated by machine learning and is stored in the model storage unit P1 (see FIG. 1A) of the pet camera 100.
  • the motion detection unit 330 detects one or a plurality of pixel regions Px1 corresponding to the movement of the whole body or a part of the pet 5 based on the change of the pixel value in the plurality of specific regions A1 arranged in the direction Y1 of the time axis.
  • the specific region A1 when the specific region A1 is detected in any one of the plurality of image frames F0 (for example, the first frame F1 at the beginning), the specific region A1 is specified among the plurality of image frames F0.
  • the position of the area A1 will be standardized. That is, instead of detecting the specific area A1 indicating each pet in each image frame F0, for example, when the specific area A1 is detected in the first first frame F1 at the beginning, the specific area A1 of the other image frame F0 is detected. Is fixed at the same position as the specific area A1 of the first frame F1.
  • the motion detection unit 330 and the posture determination unit 331 form the information generation unit 33 (see FIG. 1A).
  • the area detection unit 32 and the information generation unit 33 constitute a pet detection unit X1 (see FIG. 1A) that detects a dog (pet 5) from a plurality of image frames F0.
  • the function of the information generation unit 33 may be provided outside the pet detection unit X1.
  • the estimation unit 34 estimates the pet status regarding at least one of the emotions and behaviors of the pet 5 shown in the moving image data G1 based on the determination result of the posture determination unit 331 and the detection result of the motion detection unit 330.
  • the estimation unit 34 has condition information 9 related to at least one of the determination result of the posture determination unit 331, the detection result of the motion detection unit 330, and the specific behavior and emotion of the pet (see FIG. 1A). ) And the pet situation is estimated.
  • the condition information 9 is stored in the condition storage unit P2 (see FIG. 1A) of the pet camera 100.
  • the "pet 5 shown in the moving image data G1" means the pet 5 shown in the moving image composed of the moving image data G1.
  • the estimation unit 34 estimates the pet status regarding at least one of the emotions and behaviors of the pet 5 based on the determination result of the posture determination unit 331 and the detection result of the motion detection unit 330. Therefore, it is possible to easily grasp the situation of the pet 5.
  • the pet situation estimation method includes a frame extraction step, a pet detection step, a posture determination step, a motion detection step, and an estimation step.
  • the frame extraction step a plurality of image frames F0 are extracted from the moving image data G1.
  • Each of the plurality of image frames F0 is a still image in which the pet 5 may exist as the subject H1.
  • the plurality of image frames F0 are arranged in the direction Y1 of the time axis.
  • a specific region A1 showing at least a part of the appearance of the pet 5 is detected in a plurality of image frames F0.
  • the posture of the pet 5 is determined based on the trained model M1 and at least one image frame F0 out of the plurality of image frames F0.
  • the trained model M1 has learned the posture of the pet in order to recognize the image of the posture of the pet.
  • the motion detection step one or a plurality of pixel regions Px1 corresponding to the motion of the whole body or a part of the pet 5 are detected based on the change of the pixel value in the plurality of specific regions A1 arranged in the direction Y1 of the time axis.
  • the pet situation regarding at least one of the emotions and behaviors of the pet 5 shown in the moving image data G1 is estimated based on the determination result of the posture determination step and the detection result of the motion detection step.
  • the pet situation regarding at least one of the emotions and behaviors of the pet 5 is estimated based on the determination result of the posture determination step and the detection result of the motion detection step. Therefore, as a result, the situation of the pet 5 Can be made easier to understand.
  • the pet situation estimation method is used on a computer system (pet situation estimation system 1).
  • the pet situation estimation method can also be embodied in a program.
  • the program according to the present embodiment is a program for causing one or more processors to execute the pet situation estimation method according to the present embodiment.
  • pet management system 200 the system to which the pet situation estimation system 1 according to the present embodiment is applied (hereinafter referred to as “pet management system 200”) will be described in detail with reference to FIGS. 1A to 9.
  • the pet management system 200 includes one or a plurality of pet cameras 100, one or a plurality of presentation devices 4, and a server 7.
  • a single user 300 who receives a service for managing (watching over) the pet 5 by using the pet management system 200 will be described.
  • the user 300 is, for example, the owner of the pet 5, but is not particularly limited.
  • the user 300 installs one or more pet cameras 100 at a predetermined position in a facility (for example, a residence where the pet 5 lives together). When a plurality of pet cameras 100 are installed, the user 300 may install one in each room in the house.
  • the pet camera 100 is not limited to being installed indoors, and may be installed outdoors. In the following, for convenience of explanation, one pet camera 100 will be focused on.
  • the presentation device 4 is, for example, an information terminal owned by the user 300.
  • the information terminal is assumed to be a portable information terminal such as a smartphone or a tablet terminal.
  • the presentation device 4 may be a notebook personal computer or a stationary personal computer.
  • the presentation device 4 has a communication unit 41, a processing unit 42, and a display unit 43.
  • the communication unit 41 is a communication interface for enabling communication with each of the pet camera 100 (see FIG. 2) and the server 7 (see FIG. 2).
  • the communication unit 41 may be able to communicate with only one of the pet camera 100 and the server 7.
  • the processing unit 42 can be realized by a computer system including one or more processors (microprocessors) and one or more memories. That is, one or more processors execute one or more programs (applications) stored in one or more memories, thereby functioning as the processing unit 42.
  • the program is recorded in advance in the memory of the processing unit 42 here, it may be recorded and provided through a telecommunication line such as the Internet or on a non-temporary recording medium such as a memory card.
  • the user 300 installs dedicated application software (hereinafter referred to as "pet application”) for presenting a GUI (Graphical User Interface) related to the pet 5 to be watched over, and starts this pet application. It functions as a presentation device 4.
  • GUI Graphic User Interface
  • the display unit 43 constitutes a touch panel type liquid crystal display or an organic EL (Electro-Luminescence) display.
  • a screen for presenting information about the pet 5 is displayed (output) on the display unit 43.
  • the pet management system 200 has a plurality of residents (plurality of residents).
  • a plurality of presentation devices 4 carried by each user 300) will be provided. In the following, for convenience of explanation, one presentation device 4 (smartphone) carried by one user 300 (resident) will be described.
  • the pet camera 100 is, for example, a device having an imaging function for watching over pets.
  • the pet camera 100 includes an image pickup unit 2 (camera device) as shown in FIG. 1A.
  • the area where the pet 5 is in the residence may be outside the residence
  • is mainly the place where the pet can be active for example, the place where the food is placed
  • the pet camera 100 is installed so as to fit in the.
  • the user 300 can watch the situation of the pet 5 through the image captured by the image pickup unit 2, for example, even when he / she is out.
  • FIGS. 5A to 6C data of an image frame F0 (for example, the first frame F1) showing pets 5 of a plurality of dog breeds are exemplified, but these drawings are for explaining the pet situation estimation system 1.
  • the dog breed is not particularly limited, only exemplifying the "type of posture" of the dog.
  • the pet situation estimation system 1 is configured to recognize, for example, the "posture” of a dog in common to some extent regardless of the breed, but the posture may be recognized individually depending on the breed.
  • the pet camera 100 further includes a communication unit 11 in addition to the image pickup unit 2.
  • the communication unit 11 is a communication interface for enabling communication with each of the presentation device 4 (see FIG. 2) and the server 7 (see FIG. 2).
  • the communication unit 11 may have a function of performing short-range wireless communication with the presentation device 4, for example, in accordance with a standard of BLE (Bluetooth (registered trademark) Low Energy).
  • BLE Bluetooth (registered trademark) Low Energy
  • the communication unit 11 may exchange data by directly communicating with the presentation device 4 by short-range wireless communication.
  • the communication unit 11 is connected to the network NT1 (see FIG. 2) such as the Internet via a router or the like installed in the house.
  • the pet camera 100 can communicate with an external server 7 via the network NT1 to acquire information from the server 7 and output information to the server 7.
  • the presentation device 4 shown in FIG. 2 may be connected to the network NT1 via a mobile phone network (carrier network) or a public wireless LAN (Local Area Network) provided by a telecommunications carrier.
  • the mobile phone network includes, for example, a 3G (third generation) line, an LTE (Long Term Evolution) line, a 4G (fourth generation) line, a 5G (fifth generation) line, and the like.
  • the presenting device 4 can be connected to the network NT1 via the mobile phone network as long as it can be connected to the mobile phone network. For example, when the user 300 carrying the presentation device 4 is outside the house, the pet camera 100 and the server 7 can be communicated with each other by being connected to the network NT1 via a mobile phone network or the like.
  • the communication between the presentation device 4 and the pet camera 100 may be performed via the network NT1 and the server 7.
  • the pet situation estimation system 1 is provided in the pet camera 100 as shown in FIG. 1A.
  • the pet camera 100 further includes a processing unit 3, a model storage unit P1, a condition storage unit P2, and a storage unit 37, which constitute the pet situation estimation system 1. do.
  • the details of the pet situation estimation system 1 will be described in the next column.
  • the server 7 is connected to the network NT1.
  • the server 7 can communicate with each of the pet camera 100 and the presenting device 4 via the network NT1.
  • the server 7 includes, for example, user information (name, user ID, telephone number, e-mail address, etc.), information on the pet camera 100 and the presentation device 4 owned by the user 300 (identification information, etc.), and the user 300.
  • user information name, user ID, telephone number, e-mail address, etc.
  • information on the pet camera 100 and the presentation device 4 owned by the user 300 identification information, etc.
  • the user 300 manage the information of your pet 5 (dog breed information, etc.).
  • the server 7 collects and stores various image data captured by the plurality of pet cameras 100 and processing results (particularly processing errors and the like).
  • the user 300 may download the pet application by accessing the server 7 through the presentation device 4.
  • the server 7 is assumed to be composed of one server device, but may be composed of a plurality of server devices, and such a server device may construct, for example, a cloud (cloud computing). May be good. Further, at least a part of the functions of the pet situation estimation system 1 may be provided in the server 7.
  • the pet camera 100 has a pet situation estimation system 1 as described above, in addition to an imaging unit 2 for capturing moving image data G1 and a communication unit 11. It includes a processing unit 3, a model storage unit P1, a condition storage unit P2, and a storage unit 37.
  • the pet situation estimation system 1 executes an "estimation process" for estimating the pet situation.
  • the model storage unit P1 is configured to be able to store data including a plurality of trained models.
  • the model storage unit P1 includes a rewritable non-volatile memory such as an EEPROM (Electrically Erasable Programmable Read-Only Memory).
  • the condition storage unit P2 is configured to be able to store data including the condition information 9.
  • the condition storage unit P2 includes a rewritable non-volatile memory such as EEPROM.
  • the storage unit 37 stores event information and digest information, which will be described later.
  • the model storage unit P1, the condition storage unit P2, and the storage unit 37 may be composed of the same storage unit (memory). Further, the model storage unit P1, the condition storage unit P2, and the storage unit 37 may be the built-in memory of the processing unit 3.
  • the processing unit 3 can be realized by, for example, a computer system including one or more processors (microprocessors) and one or more memories. That is, by executing one or more programs (applications) stored in one or more memories by one or more processors, the processing unit 3 functions as each part to be described later.
  • the program is recorded in advance in the memory of the processing unit 3 here, it may be recorded and provided through a telecommunication line such as the Internet or on a non-temporary recording medium such as a memory card.
  • the processing unit 3 has a function as an overall control of the pet camera 100, that is, a control unit that controls the image pickup unit 2, the communication unit 11, the model storage unit P1, the condition storage unit P2, the storage unit 37, and the like.
  • the processing unit 3 includes an acquisition unit 30, a frame extraction unit 31, a region detection unit 32, an information generation unit 33, an estimation unit 34, an output unit 35, and a digest creation unit. 38 and.
  • the area detection unit 32 and the information generation unit 33 constitute a pet detection unit X1 that detects a dog (pet 5) from a plurality of image frames F0.
  • the acquisition unit 30 is configured to acquire the moving image data G1 from the image pickup unit 2.
  • the acquisition unit 30 acquires the moving image data G1 (see FIG. 3).
  • the frame extraction unit 31 is configured to extract a plurality of image frames F0 (for one set) from the moving image data G1.
  • Each of the plurality of image frames F0 is a still image in which the pet 5 may exist as the subject H1.
  • the plurality of image frames F0 are a plurality of image frames for one set arranged in the direction Y1 of the time axis.
  • the processing unit 3 executes the estimation process. At the time of this extraction, it is possible that the pet 5 is not shown in the extracted image frame F0.
  • the area detection unit 32 of the pet detection unit X1 is configured to detect a specific area A1 indicating at least a part of the appearance of the pet 5 in a plurality of image frames F0.
  • the region detection unit 32 detects the specific region A1 based on the trained model (hereinafter, may be referred to as “second model M2”).
  • the second model M2 is (machine learning) learning the appearance factor (feature amount) of a predetermined kind of pet (here, "dog") in order to recognize an image.
  • the second model M2 is stored in the model storage unit P1.
  • the number of image frames F0 is five (first frame F1 to fifth frame F5).
  • the second model M2 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network.
  • the neural network (including a multi-layer neural network) may include, for example, a CNN (Convolutional Neural Network), a BNN (Bayesian Neural Network), or the like.
  • the second model M2 is realized by mounting a trained neural network on an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field-Programmable Gate Array).
  • the second model M2 is not limited to the model generated by deep learning.
  • the second model M2 may be a model generated by a support vector machine, a decision tree, or the like.
  • the region detection unit 32 estimates whether or not the dog (pet 5) exists as the subject H1 in the extracted first frame F1 to fifth frame F5 using the second model M2. Assuming that the dog (pet 5) is present in the first frame F1 to the fifth frame F5, the region detection unit 32 detects the specific region A1 (see FIG. 3) defined by the bounding box surrounding the pet 5.
  • the specific region A1 is not limited to being defined by the bounding box, and may be defined by, for example, segmentation.
  • the area detection unit 32 does not individually detect the specific area A1 indicating the pet 5 in each image frame F0.
  • the area detection unit 32 detects the specific area A1 in the first frame F1 at the beginning, the position of the specific area A1 in the other second frame F2 to the fifth frame F5 is the same as the position of the specific area A1 in the first frame F1. To fix.
  • Information about all the specific areas A1 of the first frame F1 to the fifth frame F5 is input to the motion detection unit 330 (described later) of the information generation unit 33.
  • the posture determination unit 331 (described later) of the information generation unit 33 only the information regarding the specific area A1 of the first frame F1 is input among the first frame F1 to the fifth frame F5.
  • the region detection unit 32 is a head region A2 (see FIG. 3) showing the head 50 (see FIG. 2) of the subject H1 based on the trained model (hereinafter, may be referred to as “third model M3”). Is detected.
  • the third model M3 learns the appearance factor (feature amount) in order to recognize an image of the head of a predetermined kind of pet (here, "dog"). That is, the region detection unit 32 further has a function as a head detection unit that detects the head region A2 including the face portion by using the third model M3. However, the area detection unit 32 and the head detection unit may be provided separately.
  • the third model M3 is stored in the model storage unit P1.
  • the third model M3 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network.
  • the third model M3 is not limited to the model generated by deep learning. Further, the third model M3 may be composed of the same model as the second model M2.
  • the region detection unit 32 estimates whether or not the head 50 of the dog (pet 5) is present in the extracted first frame F1 to fifth frame F5 using the third model M3.
  • the region detection unit 32 estimates that the head 50 of the dog (pet 5) exists in the first frame F1 to the fifth frame F5
  • the head region A2 defined by the bounding box surrounding the head 50 (FIG. FIG. 3) is detected.
  • the head region A2 is not limited to being defined by the bounding box, and may be defined by, for example, segmentation.
  • the area detection unit 32 individually detects the head area A2 in each image frame F0.
  • the detection of either the specific region A1 or the head region A2 fails ( False detection) may occur.
  • the region detection unit 32 is "dog face (head 50)". Even if the head region A2 can be detected, it may be out of the annotation of "dog (whole appearance)". As a result, the detection of the specific region A1 as a "dog” may fail.
  • the region detection unit 32 detects at least one of the “dog” and the “dog face”, it is estimated that the dog (pet 5) is present in the acquired image frame F0. If only the head region A2 is detected, the region detection unit 32 sets a region substantially equal to the head region A2 as the specific region A1. If the detection of the head region A2 fails even though the specific region A1 is detected, the processing unit 3 may end the estimation processing regarding the acquired image frame F0.
  • Information about all the head regions A2 of the first frame F1 to the fifth frame F5 is input to the motion detection unit 330 of the information generation unit 33.
  • the information generation unit 33 of the pet detection unit X1 has a motion detection unit 330 and a posture determination unit 331.
  • the posture determination unit 331 specifies the trained model (first model M1) based on the information regarding the specific region A1 of at least one image frame F0 (here, the first frame F1) among the plurality of image frames F0.
  • the posture of the pet 5 shown in the area A1 is determined (estimated).
  • the first model M1 learns about the posture of a pet in order to recognize an image of the posture of the pet (here, "dog"). That is, the first model M1 has learned the appearance factor (feature amount) in order to recognize the image of the dog's posture.
  • the first model M1 may include, for example, a model using a neural network or a model generated by deep learning using a multi-layer neural network, similarly to the second model M2 and the third model M3.
  • the first model M1 is not limited to the model generated by deep learning.
  • the first model M1 may be composed of the same model as the second model M2 and the third model M3.
  • 5A to 6C are all examples of the image frame F0 (here, the first frame F1) that can be the target of the estimation process in the pet situation estimation system 1.
  • FIG. 5A is an example of an image frame F0 showing a state in which the pet 5 stands up on four legs (first posture) and looks at the surroundings.
  • FIG. 5B is an example of an image frame F0 showing a state in which the pet 5 is lying down on the floor (second posture) and is looking at the surroundings while facing the front.
  • FIG. 5C is an example of an image frame F0 showing a state in which the pet 5 is in the second posture, facing slightly to the right and looking at the surroundings, as in FIG. 5B.
  • FIG. 6A is an example of an image frame F0 showing a running state in which the pet 5 is in a posture in which the front legs are extended forward and the hind legs are extended backward (third posture). In FIG. 6A, the tail of pet 5 is facing up.
  • FIG. 6B is an example of an image frame F0 showing a state in which the pet 5 is walking with one forefoot and one hindfoot on the floor and the other foot bent away from the floor (fourth posture). be. In FIG. 6B, the tail of pet 5 hangs down.
  • FIG. 6C is an example of the image frame F0 showing the sleeping state with the eyes closed in the posture in which the pet 5 is lying down (fifth posture).
  • the above posture is just an example of the posture that a dog (pet 5) can take, and is not limited to these.
  • the first model M1 is generated by machine learning about the posture of the dog, which has a high relationship with some behavior of the dog (particularly, a behavior related to some emotion).
  • machine learning is performed so that even finer states can be distinguished for specific postures that are desired to be estimated more accurately.
  • the "specific posture” here is a posture that is closely related to the behavior of the dog and is closely related to the emotion of the dog.
  • the dog's emotions that can be read from the dog's behavior are, for example, “joy”, “anger”, “sorrow”, “comfort”, “fear”, “relaxation”, etc., and the dog's specific posture. Some of the behaviors associated with may be associated with any of these emotions.
  • first posture Even if the pet 5 stands up on four legs (first posture), machine learning can be performed so that the posture can be estimated by distinguishing whether the pet 5 is showing teeth or tongue, and whether the ears are standing or hanging. Will be done.
  • the first posture showing teeth is related to the behavior of "intimidating”.
  • the first posture in which the ears are standing is related to the behavior of "being alert” looking at the surroundings.
  • the first posture in which the ears are drooping is related to the behavior of "being alert”.
  • the behavior of "intimidating” can be set as an behavior related to the dog's emotion of "anger”.
  • the behavior of "being alert” can be set as an behavior related to the dog's emotion of "fear”.
  • the behavior of "being alert” can be set as an behavior related to the dog's emotions such as “sorrow” and “cheap”. Also, even in the posture in which the pet 5 is sleeping (fifth posture), how it is sleeping, specifically, whether the back is curled or stretched, whether the eyes are closed, and whether the tongue is sticking out. Machine learning is performed so that the posture can be estimated by distinguishing the state such as whether or not.
  • a large number of image data are used in the annotation work (determination of teacher data) for tagging the image data (raw data).
  • the training dataset is selected from a large number of image data collected without restrictions on the breed, dog color, orientation of the dog, background in which the dog appears, and the like.
  • the data set for learning may include not only the image data of the actual dog but also the image data of the stuffed dog and the image data of the dog created by CG, and machine learning is performed by mixing these.
  • the posture information of the pet 5 determined by the posture determination unit 331 (including the determination result and the information regarding the specific area A1) is input to the estimation unit 34.
  • the motion detection unit 330 corresponds to the movement of the whole body or a part of the pet 5 based on the change of the pixel value (the brightness value of the pixel) in the first frame F1 to the fifth frame F5 arranged in the direction Y1 of the time axis. It is configured to detect a plurality of pixel regions Px1. Hereinafter, the detection of "movement" will be described with reference to FIGS. 4A and 4B.
  • the motion detection unit 330 of the present embodiment compares a feature amount relating to one or a plurality of pixel regions Px1 with a predetermined feature amount (threshold value) corresponding to the movement of a predetermined portion of the pet, and thereby a plurality of specific regions A1. It is presumed that the movement in is the movement of a predetermined part.
  • the motion detection unit 330 determines one specific region A1 from the plurality of specific regions A1 as the reference region R1 for determination.
  • Information about a predetermined feature amount for comparison is stored in advance in the memory of the processing unit 3, the storage unit 37, or the like.
  • the motion detection unit 330 sets the specific region A1 of the first frame F1 at the head as the reference region R1.
  • the "predetermined part” here is assumed to be the "tail" of the pet.
  • the predetermined portion is not limited to the tail and may be a foot or a torso.
  • FIGS. 4A and 4B for convenience of explanation, it is assumed that the specific region A1 (reference region R1) in the image frame F0 is schematically composed of a 16 ⁇ 16 pixel region Px1.
  • FIG. 4A is a scaled-down representation of the specific region A1 of FIG. 3, which shows the posture in which the pet 5 stands up on four legs, schematically as a 16 ⁇ 16 pixel region Px1.
  • Each pixel area Px1 assumes an area composed of a plurality of actual pixels of the image frame F0, but may correspond to one pixel area.
  • the pixel value of each pixel area Px1 may be an average value of the pixel values of a plurality of pixels constituting each pixel area Px1.
  • the motion detection unit 330 executes image analysis processing for the specific area A1 in the first frame F1 to the fifth frame F5. Specifically, the motion detection unit 330 pays attention to the direction Y1 on the time axis, compares the pixel value in the reference region R1 with the pixel value in the other four specific regions A1, and the pixel value is equal to or higher than a certain value. Select one or more pixel regions Px1 where is changing. In other words, the motion detection unit 330 determines whether or not there is motion in the specific region A1 based on the change in the pixel value.
  • the specific region A1 (reference region R1) on the left side of FIG. 4A is an example in which the motion detection unit 330 selects the pixel region Px1 whose pixel value changes more than a certain value.
  • the specific region A1 is a first region T1 (shown in white in the illustrated example) composed of 11 pixel regions Px1 in the upper left corner, and a second region T2 (dots in the illustrated example) composed of a plurality of other pixel regions Px1. (Indicated by hatching) is included.
  • the motion detection unit 330 determines that the first region T1 is a collection of pixel regions Px1 having "movement", and the second region T2 is determined to be a collection of pixel regions Px1 having no "movement".
  • the motion detection unit 330 obtains, for example, "average” and “dispersion” regarding the position coordinates (coordinate values) of the plurality of pixels constituting the first region T1.
  • Point C1 in FIG. 4A indicates an "average position” as an average value of the position coordinates of a plurality of pixels constituting the first region T1.
  • the motion detection unit 330 obtains the variation (dispersion) of the position of the entire first region T1 with respect to the point C1 (average position), and when the "variance" is smaller than a certain threshold value (predetermined feature amount corresponding to the tail). , It is estimated that the tail 51 (see FIG. 3) of the pet 5 is moving.
  • the circle J1 centered on the point C1 in FIG. 4A is shown for visualizing the degree of variation in the first region T1, and the size (radius) of the circle J1 is determined in proportion to the value of the variance. Compared to the above threshold.
  • the motion detection unit 330 has a feature amount (dispersion) related to one or a plurality of pixel regions Px1 whose pixel value changes more than a certain value, and a predetermined feature amount (dispersion) corresponding to the movement of the tail. By comparison, it is estimated that the movement in the plurality of specific regions A1 is the movement of the tail 51. In other words, the motion detection unit 330 estimates that the first region T1 is a region where the tail 51 is moving when the first region T1 is a local region in the specific region A1 (reference region R1). do.
  • FIG. 4B when the whole body of the dog (pet 5) is moving over the first frame F1 to the fifth frame F5, the specific region A1 (reference region R1) is reduced and schematically 16 ⁇ 16 pixels. It is shown in the region Px1.
  • the four first regions T1 are discretely present at the four corners.
  • Point C2 in FIG. 4B indicates the "average position" of the four first regions T1.
  • the circle J2 centered on the point C2 in FIG. 4B is shown for visualizing the degree of variation in the first region T1, and the size (radius) of the circle J2 is determined in proportion to the value of the variance.
  • the motion detection unit 330 of the present embodiment estimates the motion of the tail 51 from the variation (dispersion) of the first region T1 rather than directly estimating the position of the tail 51. Therefore, if a part of the pet 5 other than the predetermined portion (tail) moves locally over the first frame F1 to the fifth frame F5, it may be erroneously recognized as the tail 51.
  • An example of "a part other than the tail” here is the head of a pet.
  • the motion detection unit 330 "moves" the head region A2 (even if there is “movement") indicating the head 50 (see FIG. 2) detected by the region detection unit 32. It is processed so that it is included in the second region T2 where there is no such. That is, in the plurality of specific regions A1 arranged in the direction Y1 of the time axis of the plurality of image frames F0, the motion detection unit 330 determines the whole body or a part of the pet 5 from the change of the pixel value in the regions other than the head region A2. One or a plurality of pixel regions Px1 corresponding to the movement of (tail 51) are detected.
  • the motion detection unit 330 outputs the motion information of the pet 5 (here, information indicating whether or not the tail 51 is moving) as the detected detection result to the estimation unit 34.
  • the pet detection unit X1 executes the above-mentioned detection process of the specific area A1 in the area detection unit 32 and the generation process of generating the posture information and the motion information in the information generation unit 33 in this order. ..
  • the pet detection unit X1 may execute the detection process and the generation process substantially simultaneously in parallel.
  • the estimation unit 34 is configured to estimate the pet situation based on the determination result (posture information) of the posture determination unit 331 and the detection result (motion information) of the motion detection unit 330.
  • the "pet situation” here refers to at least one of the emotions and behaviors of the pet 5 shown in the moving image data G1.
  • the estimation unit 34 estimates the pet situation based on the posture information, the movement information, and the condition information 9.
  • Condition information 9 is information related to at least one of a specific behavior and emotion of a pet preset as an extraction target.
  • the correspondence information hereinafter, may be referred to as “pattern” as shown in Tables 1 to 3 below is an example that can be included as the condition information 9, and many such patterns are prepared. It is stored in the condition storage unit P2 as a database.
  • the estimation unit 34 searches for a pattern of conditions that matches the obtained posture information and movement information (presence or absence of tail movement) in the condition information 9.
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • the estimation unit 34 estimates that the pet status of the pet 5 in the plurality of image frames F0 is "nostalgia / joy”.
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • Table 2 there is a pattern of matching conditions, and the "behavior" of "running” is associated with it. Therefore, the estimation unit 34 estimates that the pet status of the pet 5 in the plurality of image frames F0 is “running”. That is, the estimation unit 34 estimates that the movement of the tail 51 is not due to emotions, but that the dog (pet 5) is running, so that the tail 51 also swings up and down according to the vertical movement of the torso. ..
  • the estimation unit 34 searches the condition information 9 for a pattern of conditions that matches these results.
  • the estimation unit 34 estimates that the pet status of the pet 5 in the plurality of image frames F0 is "indifferent".
  • the types of conditions for each of the above patterns are not limited to the conditions related to "pet posture” and “presence or absence of tail movement”, and may include other conditions.
  • the motion detection unit 330 may have a function of estimating the motion speed of the tail 51 from the change of the pixel value over the first frame F1 to the fifth frame F5.
  • each pattern may include a condition regarding "speed of tail movement" in addition to or instead of "presence or absence of tail movement".
  • speed of tail movement in addition to or instead of "presence or absence of tail movement.
  • the condition of slowly shaking the tail (left and right) may be associated with feelings of "anxiety” or “curiosity”.
  • the condition of swiftly shaking the tail (left and right) may be associated with the feeling of "joy”.
  • the pet situation estimation system 1 has a function (object detection unit) for detecting an object (a person such as an owner, a tableware, or a toy) other than a dog (pet 5) in the moving image data G1, it is other than a dog. It may further include a condition regarding the existence or nonexistence of the object.
  • object detection unit for detecting an object (a person such as an owner, a tableware, or a toy) other than a dog (pet 5) in the moving image data G1, it is other than a dog. It may further include a condition regarding the existence or nonexistence of the object.
  • the output unit 35 is configured to output "event information" including the estimation result (estimated pet status) of the estimation unit 34.
  • the output unit 35 generates event information each time the processing unit 3 executes the estimation process, and stores the event information in the storage unit 37.
  • the event information may be transmitted to and stored in the server 7 or other peripheral devices.
  • the event information is captured by capturing the estimation result of the estimation unit 34 and at least one image frame F0 (for example, the first frame F1 at the beginning) of the plurality of image frames F0 on which the estimation result is based. Information linked to time. It is preferable that the output unit 35 generates event information in a manner in which the estimation result and the imaging time are further associated with the image data (first frame F1).
  • the output unit 35 transmits the event information (output information) to the presentation device 4 through the communication unit 11. If the user 300 carrying the presentation device 4 is out of the office, the event information may be transmitted to the presentation device 4 via the server 7.
  • the pet situation estimation system 1 further includes a digest creation unit 38 as described above.
  • the digest creation unit 38 creates digest information regarding the moving image data G1 based on one or a plurality of event information stored in the storage unit 37. That is, the processing unit 3 executes estimation processing a plurality of times for one acquired moving image data G1, and a plurality of event information can be stored in the storage unit 37.
  • the digest information is a collection of a plurality of event information collectively so that it can be easily used externally (here, the presentation device 4).
  • One moving image data G1 may include an image frame F0 in a time zone in which the pet 5 is not shown, and an image frame F0 in a time zone in which the pet 5 not under a specific pet situation is shown.
  • the digest information created by the digest creation unit 38 does not include information about the image frame F0 in these time zones.
  • Digest information is stored in the storage unit 37.
  • the digest information may be transmitted to and stored in the server 7 or other peripheral devices.
  • the output unit 35 transmits the digest information (output information) to the presentation device 4 through the communication unit 11. If the user 300 carrying the presentation device 4 is out of the office, the digest information may be transmitted to the presentation device 4 via the server 7.
  • the pet status included in the output information may be replaced with, for example, a simple expression (message). Then, the presentation device 4 may notify (present) on the screen by a push notification or the like accompanied by the message.
  • the presentation device 4 may activate the pet application and present the detailed pet status included in the output information on the screen (see FIG. 7). Alternatively, the output information may be notified by e-mail via a mail server.
  • the presenting device 4 has a plurality of image frames F0 (posture lying on the floor: swinging the tail to the left and right) on the screen 430 of the display unit 43, which is the basis for estimating the pet situation. Is displayed.
  • the condition information 9 includes a pattern in which the "emotion" of "joy” is associated with the two conditions of “lying down” and “with movement of the tail". As a result, "joy” is estimated as a pet situation.
  • the presenting device 4 displays the character string data obtained by converting the pet 5's emotion of "joy” into a familiar expression of "happy” with a balloon superimposed on the image frame F0.
  • the presenting device 4 may superimpose character string data "patter", an arrow indicating the direction in which the tail is moving, or the like in the vicinity of the image area for displaying the tail, and in this case, the user 300 may display the data. Makes it easier to intuitively understand that the pet 5 is waving the tail 51.
  • the presentation device 4 may display a plurality of image frames F0 as moving images, or may display only one of the plurality of image frames F0 (for example, the first frame F1) as a still image.
  • the presenting device 4 further displays the time (date and time) when the image frame F0 (for example, the first frame F1), which is the basis for estimating the pet situation, is imaged on the screen 430 of the display unit 43.
  • the output unit 35 is not limited to transmitting output information including a plurality of image frames F0 (raw data) that are the basis of the estimation result, and may be transmitted after processing the image data. Further, the output unit 35 may transmit after replacing the plurality of image frames F0 with an icon image corresponding to the estimated pet situation (for example, an icon image of a dog who is happy to shake his tail). ..
  • the processing of the data and the replacement with the icon image may be executed on the side of the presentation device 4 or the server 7.
  • the estimation result of the estimation unit 34 is not limited to the screen output, and may be performed by voice output instead of screen output or in addition to screen output.
  • the processing unit 3 executes the estimation process every time the acquisition unit 30 acquires a plurality of (five here) image frames F0 (1 set). For example, when the image pickup unit 2 captures a moving image at a predetermined frame rate, the processing unit 3 acquires a plurality of sets of image frames F0 from a large number of continuous image frames F0 in the moving image data G1. , The estimation process can be performed for each set.
  • the output unit 35 may transmit output information to the presentation device 4 each time the estimation unit 34 estimates the pet status for each set of image frames F0, or may store output information for a plurality of sets to some extent in the storage unit 37. You may pool them in the same place and send them all at once.
  • the output unit 35 may limit the output of the estimation result of the estimation unit 34 when the estimation result of the estimation unit 34 for a plurality of sets shows the same result consecutively a predetermined number of times (for example, twice). Specifically, it is estimated that the posture of the pet 5 and the movement of the tail with respect to a certain set of image frames F0 are "down" and "there is movement of the tail", and the output information is output to the presentation device 4. do. Then, when the posture and the movement of the tail of the pet 5 with respect to the image frame F0 for one set acquired thereafter are estimated to be the same as the image frame F0 for one set described above, the output unit 35 outputs the estimation result. It is not necessary to output.
  • the output unit 35 may collectively transmit the output information having the same estimation result a predetermined number of times as one estimation result. ..
  • the setting regarding the "predetermined number of times" may be appropriately changed by the operation input of the user 300 to the pet camera 100 or the presentation device 4.
  • the pet camera 100 installed in the house of the user 300 captures and monitors a predetermined management area in which the pet 5 can mainly act by the image pickup unit 2.
  • the pet camera 100 continues to capture the management area as a moving image for a predetermined period of time.
  • the pet situation estimation system 1 of the pet camera 100 acquires the moving image data G1 captured by the imaging unit 2 by the acquisition unit 30 (S1). Then, the pet situation estimation system 1 extracts a plurality of image frames F0 (for example, for one set) arranged in the direction Y1 of the time axis by the frame extraction unit 31 (S2: frame extraction step). The pet situation estimation system 1 executes estimation processing for a plurality of extracted image frames F0 (S3).
  • the pet situation estimation system 1 determines whether or not the dog (pet 5) is captured as the subject H1 in the plurality of image frames F0 by using the second model M2 in the area detection unit 32 (S4). If the dog (pet 5) is shown (S4: Yes), the pet situation estimation system 1 detects the specific region A1 indicating the pet 5 (S5: pet detection step), and determines the head 50 (S6). move on.
  • the pet situation estimation system 1 determines whether or not the head 50 of the dog (pet 5) is captured in the image frame F0 by using the third model M3 in the area detection unit 32 (S6). If the head 50 is shown (S6: Yes), the pet situation estimation system 1 detects the head region A2 indicating the head 50 (S7). In the present embodiment, if the head 50 is not shown (S6: No), the pet situation estimation system 1 finishes the estimation process for the plurality of image frames F0 for this set, and the plurality of images for the next set. Wait for the acquisition of frame F0 (return to S2). However, as long as the specific region A1 is detected, the estimation process may be continued even if the head region A2 is not detected.
  • the processing is to determine the posture of the dog (pet 5) (S10: see FIG. 9). move on.
  • the pet situation estimation system 1 sets a region substantially equivalent to the head region A2 in the specific region A1 (S8: No). S9), the process proceeds to the determination of the posture of the dog (pet 5) (S10).
  • the pet situation estimation system 1 determines the posture of the dog (pet 5) by the posture determination unit 331 using the information regarding the specific region A1 of the first model M1 and the first frame F1 (S10: posture determination step). ).
  • the pet situation estimation system 1 detects the pixel region Px1 (first region T1) having "movement” based on the change of the pixel value in the first frame F1 to the fifth frame F5 by the motion detection unit 330 (1st region T1). S11: Motion detection step). However, the pet situation estimation system 1 determines changes in pixel values in regions other than the head region A2. If there is no pixel region Px1 with "movement" (S11: No), the pet situation estimation system 1 estimates that the pet 5 does not move (swing) the tail 51 (S12).
  • the pet situation estimation system 1 If there is a pixel region Px1 with "movement", the pet situation estimation system 1 has a feature amount (dispersion) related to the pixel region Px1 with "movement” and a predetermined feature amount (dispersion) corresponding to the movement of the tail. Are compared (S13). When the pet situation estimation system 1 determines that the detected feature amount (dispersion) with respect to the pixel region Px1 is smaller than the predetermined feature amount (dispersion) (S13: Yes), it is estimated that the pet 5 is moving the tail 51. (S14).
  • the pet situation estimation system 1 determines that the detected feature amount (dispersion) with respect to the pixel region Px1 is equal to or greater than the predetermined feature amount (dispersion) (S13: No), the pet 5 does not move the tail 51. Is estimated (S12).
  • the pet situation estimation system 1 generates posture information and movement information from the results obtained in the processes S10 to S14 (S15).
  • the pet situation estimation system 1 estimates the pet situation based on the posture information, the movement information, and the condition information 9 (S16: estimation step).
  • the pet situation estimation system 1 transmits output information such as event information and digest information related to the estimated pet situation to the presenting device 4, and causes the presenting device 4 to present the output information (S17).
  • the estimation unit 34 estimates the pet situation regarding at least one of the emotions and behaviors of the pet 5 based on the posture information and the movement information, and as a result, the pet situation is estimated. It can be made easier to understand.
  • the estimation unit 34 estimates the pet situation based on the condition information 9 in addition to the posture information and the movement information. Therefore, for example, the pet situation estimation system 1 can be realized with a simple configuration as compared with the case of estimating the pet situation by using a machine-learned trained model.
  • the motion detection unit 330 compares the feature amount related to the pixel region Px1 with "movement" with the predetermined feature amount corresponding to the motion of the predetermined portion of the pet, so that the motion is predetermined. It is presumed to be the movement of the part. Therefore, the reliability of detecting the movement of the predetermined portion is improved, and as a result, the reliability of the estimation regarding the situation of the pet 5 can be improved. In particular, in the present embodiment, since the predetermined portion is set to the tail which is closely related to the emotion of the pet, the reliability of the estimation regarding the situation of the pet 5 can be further improved.
  • the motion detection unit 330 detects the pixel region (Px1) having "movement” from the change in the pixel value in the region other than the head region A2 showing the head 50 of the pet 5 (subject H1). do. Therefore, the reliability regarding the detection of the movement of the predetermined portion (tail) is improved, and as a result, the reliability of the estimation regarding the situation of the pet 5 can be improved.
  • the estimation result of the estimation unit 34 is associated with the imaging time at which at least one image frame F0 out of the plurality of image frames F0 on which the estimation unit 34 is imaged is captured, and is stored in the storage unit 37 as event information. Therefore, when the event information is presented from, for example, the presentation device 4, the situation of the pet 5 can be more easily grasped. Further, in the present embodiment, since the digest information regarding the moving image data G1 is created based on the event information of one or a plurality of events, the situation of the pet 5 can be more easily grasped through the digest information.
  • the user 300 can easily grasp the behavior / emotion of the pet 5 through the pet situation estimated by the pet situation estimation system 1, and as a result, it becomes easy to communicate with the pet 5. Further, the user 300 can easily grasp the behavior / emotion of the pet 5 in the house by the notification from the presentation device 4 even while going out, and as a result, it is easy to manage (watch over) the pet 5. In particular, for example, when the pet situation is presumed to be an urgent behavior (such as being ill or tired), it is possible to quickly know that fact.
  • the above embodiment is only one of the various embodiments of the present disclosure.
  • the above embodiment can be variously modified according to the design and the like as long as the object of the present disclosure can be achieved.
  • the same function as the pet situation estimation system 1 according to the above embodiment may be embodied by a pet situation estimation method, a computer program, a non-temporary recording medium on which a computer program is recorded, or the like.
  • the pet situation estimation system 1 in the present disclosure includes a computer system.
  • the computer system mainly consists of a processor and a memory as hardware.
  • the processor executes the program recorded in the memory of the computer system, the function as the pet situation estimation system 1 in the present disclosure is realized.
  • the program may be pre-recorded in the memory of the computer system, may be provided through a telecommunications line, and may be recorded on a non-temporary recording medium such as a memory card, optical disk, hard disk drive, etc. that can be read by the computer system. May be provided.
  • the processor of a computer system is composed of one or more electronic circuits including a semiconductor integrated circuit (IC) or a large scale integrated circuit (LSI).
  • IC semiconductor integrated circuit
  • LSI large scale integrated circuit
  • the integrated circuit such as IC or LSI referred to here has a different name depending on the degree of integration, and includes an integrated circuit called a system LSI, VLSI (Very Large Scale Integration), or ULSI (Ultra Large Scale Integration). Further, an FPGA (Field-Programmable Gate Array) programmed after the LSI is manufactured, or a logical device capable of reconfiguring the junction relationship inside the LSI or reconfiguring the circuit partition inside the LSI should also be adopted as a processor. Can be done.
  • a plurality of electronic circuits may be integrated on one chip, or may be distributed on a plurality of chips. A plurality of chips may be integrated in one device, or may be distributed in a plurality of devices.
  • the computer system referred to here includes a microcontroller having one or more processors and one or more memories. Therefore, the microcontroller is also composed of one or a plurality of electronic circuits including a semiconductor integrated circuit or a large-scale integrated circuit.
  • a plurality of functions in the pet situation estimation system 1 are integrated in one housing.
  • the components of the pet situation estimation system 1 may be distributed in a plurality of housings.
  • at least a part of the trained models of the first model M1 to the third model M3 of the pet situation estimation system 1 may be provided outside the pet camera 100 (for example, an external server such as a server 7). ..
  • a plurality of functions in the pet situation estimation system 1 may be integrated in one housing (housing of the pet camera 100) as in the basic example. Further, at least a part of the functions of the pet situation estimation system 1, for example, a part of the functions of the pet situation estimation system 1 may be realized by a cloud (cloud computing) or the like.
  • FIG. 10 shows the pet situation estimation system 1A of this modified example.
  • the same reference numerals may be given and the description thereof may be omitted as appropriate.
  • the pet detection unit X1 has an area detection unit 32 and an information generation unit 33, and after the area detection unit 32 detects the pet 5, the posture determination unit of the information generation unit 33 The posture of the pet 5 is determined by 331 and the posture information is generated. That is, first, the presence or absence of the pet 5 in the acquired plurality of image frames F0 is detected, and then the posture determination is performed.
  • the pet situation estimation system 1A of this modification is different from the pet situation estimation system 1 of the basic example in that the area detection unit 32 has the function of the posture determination unit 331.
  • the area detection unit 32 takes a specific posture in the plurality of image frames F0 based on the first model M1 that has learned about the posture of the pet in order to recognize the image of the pet's posture.
  • Specific area A1 is detected.
  • the area detection unit 32 uses, for example, the first model M1 to the third model M3 to determine whether or not the pet 5 in a specific posture is captured in the image frame F0 as the subject H1 and specifies it.
  • the specific area A1 indicating the pet 5 in the posture of is detected.
  • the specific posture is a posture that is closely related to the behavior of the dog and is closely related to the emotion of the dog. Specific postures include, for example, sitting, lying down, sleeping, or standing on four legs.
  • Information about the specific area A1 indicating the pet 5 taking a specific posture is input to the information generation unit 33 and used by the motion detection unit 330 to detect "movement”.
  • the pet detection unit X1 of this modification detects the pet 5 in a specific posture rather than determining the posture after detecting the presence of the pet 5.
  • the frame extraction unit 31 may have the function of the posture determination unit 331, for example, the pet 5 taking a specific posture using the first model M1 to the third model M3.
  • a plurality of image frames F0 in the image may be extracted from the moving image data G1.
  • the estimation unit 34 estimates the pet situation based on the posture information, the movement information, and the condition information 9.
  • the estimation unit 34 uses the posture information, the movement information, and the trained model (classifier) machine-learned for at least one of the specific behaviors and emotions of the pet, and uses the pet situation. May be estimated.
  • the classifier classifies the posture information and the movement information into at least one of the specific behaviors and emotions of the pet by inputting the posture information and the movement information.
  • the number of dogs (pets 5) as the subject H1 in the plurality of image frames F0 was one.
  • the number of dogs (pets 5) as the subject H1 in the plurality of image frames F0 is two or more (for example, two dogs, a parent dog and a puppy).
  • the pet situation estimation system 1 detects a plurality of specific areas A1 in the image frame F0, the pet situation estimation system 1 generates posture information and motion information for each specific area A1 and estimates the pet situation.
  • At least a part of the first model M1 to the third model M3 in the basic example may be machine-learned by reinforcement learning.
  • the pet situation estimation system (1,1A) includes a frame extraction unit (31), an area detection unit (32), and a posture determination unit (331). , A motion detection unit (330) and an estimation unit (34) are provided.
  • the frame extraction unit (31) is a still image from the moving image data (G1) in which a pet (5) can exist as a subject (H1), and a plurality of image frames (F0) arranged in the direction of the time axis (Y1). To extract.
  • the region detection unit (32) detects a specific region (A1) showing at least a part of the appearance of the pet (5) in a plurality of image frames (F0).
  • the posture determination unit (331) determines the posture of the pet (5) based on the trained model (first model M1) and at least one image frame (F0) among the plurality of image frames (F0). ..
  • the trained model (first model M1) learns the posture of the pet in order to recognize the image of the posture of the pet.
  • the motion detection unit (330) is one or more corresponding to the motion of the whole body or a part of the pet (5) based on the change of the pixel value in the plurality of specific regions (A1) arranged in the direction of the time axis (Y1). The pixel area (Px1) is detected.
  • the estimation unit (34) is based on the determination result of the posture determination unit (331) and the detection result of the motion detection unit (330), and at least the emotions and behaviors of the pet (5) reflected in the moving image data (G1). Estimate the pet situation for one. According to the first aspect, since the estimation unit (34) estimates the pet situation regarding at least one of the emotion and the behavior of the pet (5), as a result, it is easy to grasp the situation of the pet (5). Can be done.
  • the estimation unit (34) has a determination result of the posture determination unit (331) and a detection result of the motion detection unit (330). And the condition information (9) related to at least one of the pet's specific behaviors and emotions, the pet situation is estimated.
  • the estimation unit (34) simplifies the pet situation estimation system (1,1A) as compared with the case where the pet situation is estimated using, for example, a machine-learned trained model. It is feasible in the configuration.
  • the motion detection unit (330) has a feature amount related to one or a plurality of pixel regions (Px1) and a pet. By comparing with a predetermined feature amount corresponding to the movement of the predetermined part, it is estimated that the movement in the plurality of specific regions (A1) is the movement of the predetermined part. According to the third aspect, the reliability regarding the detection of motion is improved, and as a result, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the predetermined part is the tail of the pet. According to the fourth aspect, the reliability of the estimation regarding the situation of the pet (5) is further improved.
  • the region detection unit (32) is based on the trained model (second model M2).
  • the specific area (A1) is detected.
  • the trained model (second model M2) learns the appearance factors of a predetermined type of pet in order to recognize an image. According to the fifth aspect, the reliability regarding the detection of the specific region (A1) can be improved, and as a result, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the motion detection unit (330) is a time axis of a plurality of image frames (F0).
  • the whole body of the pet (5) is found from the change in the pixel value in the region other than the head region (A2) indicating the head (50) of the subject (H1).
  • one or a plurality of pixel regions (Px1) corresponding to a part of the movement are detected.
  • the reliability regarding the detection of motion is improved, and as a result, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the region detection unit (32) is based on the trained model (third model M3).
  • the head region (A2) indicating the head (50) of the subject (H1) is detected.
  • the trained model (third model M3) learns the appearance factors of the head (50) of a predetermined type of pet (5) in order to recognize the image.
  • the reliability regarding the detection of the head region (A2) can be improved, and as a result, the reliability of the estimation regarding the situation of the pet (5) can be improved.
  • the pet situation estimation system (1,1A) further includes a storage unit (37) in any one of the first to seventh aspects.
  • the storage unit (37) determines the estimation result of the estimation unit (34) and the imaging time at which at least one image frame (F0) of the plurality of image frames (F0) on which the estimation result is based is captured. Memorize the associated event information. According to the eighth aspect, it is possible to make it easier to grasp the situation of the pet (5).
  • the pet situation estimation system (1,1A) further includes a digest creation unit (38) in the eighth aspect.
  • the digest creation unit (38) creates digest information regarding the moving image data (G1) based on one or a plurality of event information stored in the storage unit (37). According to the ninth aspect, the situation of the pet (5) can be more easily grasped through the digest information.
  • the area detection unit (32) includes a posture determination unit (331) and a plurality of them.
  • a specific area (5) of the pet (5) taking a specific posture based on the trained model (first model M1) learned about the pet posture in order to recognize the image of the pet posture. A1) is detected.
  • the pet camera (100) according to the eleventh aspect is the pet situation estimation system (1,1A) in any one of the first to tenth aspects, and an imaging unit (2) that captures moving image data (G1). And prepare. According to the eleventh aspect, it is possible to provide a pet camera (100) capable of easily grasping the situation of the pet (5).
  • the server (7) has a posture determination unit (331), a motion detection unit (330), and a motion detection unit (330) in the pet situation estimation system (1,1A) in any one of the first to tenth aspects. It can communicate with a pet camera (100) provided with an estimation unit (34).
  • the server (7) is provided with a frame extraction unit (31) and an area detection unit (32). According to the twelfth aspect, it is possible to provide a server (7) capable of easily grasping the situation of the pet (5).
  • the server (7) according to the thirteenth aspect is provided with a frame extraction unit (31) and an area detection unit (32) in the pet situation estimation system (1,1A) in any one of the first to tenth aspects. It is possible to communicate with the pet camera (100).
  • the server (7) is provided with a posture determination unit (331), a motion detection unit (330), and an estimation unit (34). According to the thirteenth aspect, it is possible to provide a server (7) capable of easily grasping the situation of the pet (5).
  • the pet situation estimation method includes a frame extraction step, a pet detection step, a posture determination step, a motion detection step, and an estimation step.
  • a frame extraction step a plurality of image frames (F0), each of which is a still image in which a pet (5) can exist as a subject (H1) and is arranged in the direction of the time axis (Y1), are extracted from the moving image data (G1). ..
  • a specific region (A1) showing at least a part of the appearance of the pet (5) is detected in a plurality of image frames (F0).
  • the posture of the pet (5) is determined based on the trained model (first model M1) and at least one image frame (F0) among the plurality of image frames (F0).
  • the trained model (first model M1) learns the posture of the pet in order to recognize the image of the posture of the pet.
  • the motion detection step one or a plurality of pixel regions corresponding to the motion of the whole body or a part of the pet (5) based on the change of the pixel value in the plurality of specific regions (A1) arranged in the direction of the time axis (Y1). Px1) is detected.
  • the pet situation regarding at least one of the emotions and behaviors of the pet (5) shown in the moving image data (G1) is estimated based on the determination result of the posture determination step and the detection result of the motion detection step. According to the fourteenth aspect, it is possible to provide a pet situation estimation method capable of making it easy to grasp the situation of the pet (5).
  • the program according to the fifteenth aspect is a program for causing one or more processors to execute the pet situation estimation method according to the fourteenth aspect. According to the fifteenth aspect, it is possible to provide a function capable of easily grasping the situation of the pet (5).
  • the configurations according to the second to tenth aspects are not essential configurations for the pet situation estimation system (1,1A) and can be omitted as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Environmental Sciences (AREA)
  • Animal Husbandry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明の課題は、ペットの状況を把握しやすくすることである。ペット状況推定システム(1)は、フレーム抽出部(31)と領域検出部(32)と姿勢判定部(331)と動き検出部(330)と推定部(34)とを備える。フレーム抽出部(31)は、動画データから、各々が被写体としてペットが存在し得る静止画である複数の画像フレームを抽出する。領域検出部(32)は、複数の画像フレームにおいて、ペットの容姿の少なくとも一部を示す特定領域を検出する。姿勢判定部(331)は、ペットの姿勢を判定する。動き検出部(330)は、複数の特定領域における画素値の変化に基づき、ペットの全身又は一部の動きに対応する1又は複数の画素領域を検出する。推定部(34)は、姿勢判定部(331)の判定結果と、動き検出部(330)の検出結果とに基づいて、動画データ内に写るペットの感情及び行動の少なくとも一方に関するペット状況を推定する。

Description

ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
 本開示は、一般に、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。本開示は、より詳細には、動画データ内の被写体としてのペットに関するペット状況推定システム、ペット状況推定システムを備えるペットカメラ、サーバ、ペット状況推定方法、及びプログラムに関する。
 特許文献1には、画像から動物と人物とをそれぞれ認識し、検出する検出装置が開示されている。この検出装置は、画像から動物を検出する動物検出部と、上記画像から人物を検出する人物検出部とを備えている。また検出装置は、動物かつ人物が検出された場合に、目的の物体が検出されたことを示す情報を検出結果として出力する検出結果出力部を更に備えている。
 この検出装置においては、動物検出部は、動物特徴量記憶部に記憶されている動物の特徴を反映した特徴量データに基づいて、入力された画像を走査する。動物検出部21は、動物の特徴量データと合致する、あるいは、類似度が高い領域を特定できた場合には、上記領域に写っている物体を、動物として検出する。
 ところで、利用者(例えばペットの飼い主等)は、画像データ内に写るペット(動物)の状況について具体的に知りたい、或いは画像データ内に写るペットが、ある特定の状況にある場合に、その旨の通知を受けたいといった要望がある。
特開2013-65110号公報
 本開示は上記事由に鑑みてなされ、ペットの状況を把握しやすくすることができる、ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラムを提供することを目的とする。
 本開示の一態様のペット状況推定システムは、フレーム抽出部と、領域検出部と、姿勢判定部と、動き検出部と、推定部と、を備える。前記フレーム抽出部は、動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出する。前記領域検出部は、前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出する。前記姿勢判定部は、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも1つの画像フレームとに基づいて、前記ペットの姿勢を判定する。前記動き検出部は、前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する1又は複数の画素領域を検出する。前記推定部は、前記姿勢判定部の判定結果と、前記動き検出部の検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。
 本開示の一態様のペットカメラは、上記のペット状況推定システムと、前記動画データを撮像する撮像部と、を備える。
 本開示の一態様のサーバは、上記のペット状況推定システムにおける前記姿勢判定部、前記動き検出部及び前記推定部が設けられたペットカメラと通信可能である。前記サーバには、前記フレーム抽出部、及び前記領域検出部が設けられている。
 本開示の一態様のサーバは、上記のペット状況推定システムにおける前記フレーム抽出部、及び前記領域検出部が設けられたペットカメラと通信可能である。前記サーバには、前記姿勢判定部、前記動き検出部及び前記推定部が設けられている。
 本開示の一態様のペット状況推定方法は、フレーム抽出ステップと、ペット検出ステップと、姿勢判定ステップと、動き検出ステップと、推定ステップと、を含む。前記フレーム抽出ステップでは、動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出する。前記ペット検出ステップでは、前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出する。前記姿勢判定ステップでは、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも1つの画像フレームとに基づいて、前記ペットの姿勢を判定する。前記動き検出ステップでは、前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する1又は複数の画素領域を検出する。前記推定ステップでは、前記姿勢判定ステップの判定結果と、前記動き検出ステップの検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する。
 本開示の一態様のプログラムは、1以上のプロセッサに、上記のペット状況推定方法を実行させるためのプログラムである。
図1Aは、一実施形態に係るペット状況推定システムが適用されたペットカメラの概略構成図である。図1Bは、同上のペットカメラと通信する提示装置の概略構成図である。 図2は、同上のペット状況推定システムを備えるペット管理システムの全体構成の概念図である。 図3は、同上のペット状況推定システムにて動画データから抽出された複数の画像フレームを説明するための概念図である。 図4A及び図4Bは、同上のペット状況推定システムにて検出された「動き」のある画素領域に関する特徴量を説明するための図である。 図5A~図5Cは、同上のペット状況推定システムにて推定処理の対象となる画像フレームのデータの一例である。 図6A~図6Cは、同上のペット状況推定システムにて推定処理の対象となる画像フレームのデータの別の例である。 図7は、同上のペット状況推定システムによる推定結果が画面上にて提示されている提示装置の概念図である。 図8は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。 図9は、同上のペット状況推定システムの動作例を説明するためのフローチャートである。 図10は、同上のペット状況推定システムの変形例が適用されたペットカメラの概略構成図である。
 (1)概要
 以下の実施形態において説明する各図は、模式的な図であり、各図中の各構成要素の大きさ及び厚さそれぞれの比が、必ずしも実際の寸法比を反映しているとは限らない。
 本実施形態の一の形態に係るペット状況推定システム1は、図1Aに示すように、フレーム抽出部31と、領域検出部32と、姿勢判定部331と、動き検出部330と、推定部34と、を備えている。ペット状況推定システム1は、1以上のプロセッサ及び1以上のメモリを有するコンピュータシステムを主構成とする。ここでは一例として、ペット状況推定システム1の構成要素(フレーム抽出部31、領域検出部32、姿勢判定部331、動き検出部330、及び推定部34等)は全て、ペットカメラ100の一の筐体内に集約して設けられているものとして説明する。しかし、本開示におけるペット状況推定システム1の構成要素は分散して設けられてもよく、例えばペット状況推定システム1の構成要素の少なくとも一部が、ペットカメラ100の外部(例えばサーバ7等の外部サーバ)に設けられてもよい。例えば、ペットカメラ100に、姿勢判定部331、動き検出部330、及び推定部34が設けられて、ペットカメラ100と通信可能なサーバ7に、フレーム抽出部31、及び領域検出部32が設けられてもよい。或いは、ペットカメラ100に、フレーム抽出部31、及び領域検出部32が設けられて、ペットカメラ100と通信可能なサーバ7に、姿勢判定部331、動き検出部330、及び推定部34が設けられてもよい。ここでいう「サーバ」は、1台の外部装置(利用者300の宅内に設置される装置でもよい)から構成されてもよいし、複数の外部装置から構成されてもよい。
 フレーム抽出部31は、動画データG1から複数(図示例では5つ)の画像フレームF0(コマ)を抽出する(図3参照)。複数の画像フレームF0の各々は、被写体H1としてペット5が存在し得る静止画である。複数の画像フレームF0は、時間軸の方向Y1に並ぶ。ここでは動画データG1は、ペットカメラ100の撮像部2(図1A参照)で撮像(生成)された動画像(データ)である。動画データG1は、撮像部2で撮像された動画像の一部を加工したものでもよい。動画データG1のフレームレートは、一例として60fpsである。しかし、そのフレームレートについて特に限定されず、動画データG1は、1コマ(フレーム)と1コマの間隔が比較的長い(コマ送り)ものも含む。ここでいう「時間軸の方向に並ぶ複数の画像フレーム」は、所定の間隔(例えば0.5秒間隔)を空けて並ぶ画像フレームでもよいし、連続する画像フレームでもよい。本明細書において、「動画データG1」は、撮像部2で撮像された動画像、又は、撮像部2で撮像された動画像の一部が加工されることによって得られる動画像である。
 図3の例では、5つの画像フレームF0が、時間軸の方向Y1に沿って並んでおり、以下では、第1フレームF1、第2フレームF2、第3フレームF3、第4フレームF4、及び第5フレームF5が、この順で並んでいる。すなわち、5つの画像フレームF0の中で第1フレームF1が最も早く(古く)撮像されたもので、第5フレームF5が最も遅く(新しく)撮像されたものである。
 以下の説明では、ペット状況推定システム1の推定対象とする「ペット」の種類が、犬(動物)である場合を想定する。「ペット」の種類は、特に限定されず、猫でもよいし、その他の動物でもよい。また以下では、画像フレームF0に写っている(着目する)「犬(ペット)」については符号「5」を付与して説明し、不特定多数の「犬(ペット)」については符号を付けずに説明する場合もある。
 領域検出部32は、複数の画像フレームF0において、ペット5の容姿の少なくとも一部を示す特定領域A1を検出する。
 ここで特定領域A1は、図3に示すように、画像フレームF0内において矩形の枠状で囲まれた領域であり、被写体H1のペット5を囲む「バウンディングボックス」で示される。画像フレームF0内でのペット5の位置は、例えば、バウンディングボックスにおける左上隅のX軸座標、Y軸座標、バウンディングボックスの横幅、及びバウンディングボックスの高さ等によって定義される。しかし、特定領域A1は、バウンディングボックスで示されることに限定されず、例えば、画素単位で被写体H1と背景とを区別するセグメンテーションで示されてもよい。本開示における画像フレームF0内でのペット5の位置を特定するための「X-Y座標」は、一例として画素単位で規定されているものとする。
 姿勢判定部331は、学習済みモデル(以下、「第1モデルM1」と呼ぶことがある)と、複数の画像フレームF0のうち少なくとも1つの画像フレームF0とに基づいて、ペット5の姿勢を判定する。第1モデルM1は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。第1モデルM1は、機械学習により生成されたモデルであり、ペットカメラ100のモデル格納部P1(図1A参照)に格納されている。
 動き検出部330は、時間軸の方向Y1に並ぶ複数の特定領域A1における画素値の変化に基づき、ペット5の全身又は一部の動きに対応する1又は複数の画素領域Px1を検出する。
 本実施形態では一例として、複数の画像フレームF0のうちのいずれか1つの画像フレームF0(例えば先頭の第1フレームF1)で特定領域A1を検出すると、複数の画像フレームF0の間で、その特定領域A1の位置の共通化を図る。つまり、各画像フレームF0で1つ1つペットを示す特定領域A1を検出するのではなく、例えば先頭の第1フレームF1で特定領域A1が検出されると、その他の画像フレームF0の特定領域A1は、第1フレームF1の特定領域A1と同じ位置に固定される。
 本実施形態では、動き検出部330と姿勢判定部331とが、情報生成部33(図1A参照)を構成する。また領域検出部32と情報生成部33とが、複数の画像フレームF0から犬(ペット5)を検出するペット検出部X1(図1A参照)を構成する。ただし、情報生成部33の機能の少なくとも一部が、ペット検出部X1の外部に設けられてもよい。
 推定部34は、姿勢判定部331の判定結果と、動き検出部330の検出結果とに基づいて、動画データG1内に写るペット5の感情及び行動の少なくとも一方に関するペット状況を推定する。本実施形態では一例として、推定部34は、姿勢判定部331の判定結果と、動き検出部330の検出結果と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報9(図1A参照)とに基づいて、ペット状況を推定する。条件情報9は、ペットカメラ100の条件格納部P2(図1A参照)に格納されている。本明細書において、「動画データG1内に写るペット5」とは、動画データG1で構成されている動画像に写るペット5をいう。
 この構成によれば、推定部34は、姿勢判定部331の判定結果と、動き検出部330の検出結果とに基づいて、ペット5の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット5の状況を把握しやすくすることができる。
 また本実施形態の別の形態に係るペット状況推定方法は、フレーム抽出ステップと、ペット検出ステップと、姿勢判定ステップと、動き検出ステップと、推定ステップと、を含む。フレーム抽出ステップでは、動画データG1から複数の画像フレームF0を抽出する。複数の画像フレームF0の各々は、被写体H1としてペット5が存在し得る静止画である。複数の画像フレームF0は、時間軸の方向Y1に並ぶ。ペット検出ステップでは、複数の画像フレームF0において、ペット5の容姿の少なくとも一部を示す特定領域A1を検出する。姿勢判定ステップでは、学習済みモデルM1と、複数の画像フレームF0のうち少なくとも1つの画像フレームF0とに基づいて、ペット5の姿勢を判定する。学習済みモデルM1は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。動き検出ステップでは、時間軸の方向Y1に並ぶ複数の特定領域A1における画素値の変化に基づき、ペット5の全身又は一部の動きに対応する1又は複数の画素領域Px1を検出する。推定ステップでは、姿勢判定ステップの判定結果と、動き検出ステップの検出結果とに基づいて、動画データG1内に写るペット5の感情及び行動の少なくとも一方に関するペット状況を推定する。
 この構成によれば、姿勢判定ステップの判定結果と、動き検出ステップの検出結果とに基づいて、ペット5の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット5の状況を把握しやすくすることができる。
 ペット状況推定方法は、コンピュータシステム(ペット状況推定システム1)上で用いられる。つまり、ペット状況推定方法は、プログラムでも具現化可能である。本実施形態に係るプログラムは、本実施形態に係るペット状況推定方法を、1以上のプロセッサに実行させるためのプログラムである。
 (2)詳細
 以下、本実施形態に係るペット状況推定システム1が適用されたシステム(以下、「ペット管理システム200」と呼ぶ)について、図1A~図9を参照しながら詳しく説明する。
 (2.1)全体構成
 ペット管理システム200は、図2に示すように、1又は複数台のペットカメラ100と、1又は複数台の提示装置4と、サーバ7と、を備えている。以下では、ペット管理システム200を利用して、ペット5の管理(見守り)支援のサービスを受ける、ある一人の利用者300(図2参照)に着目して説明する。利用者300は、例えば、ペット5の飼い主であるが、特に限定されない。
 利用者300は、1又は複数台のペットカメラ100を、施設(例えばペット5と一緒に住む住居)の所定の位置に設置する。利用者300は、ペットカメラ100を複数台設置する場合、住居内の各部屋に1台ずつ設置してもよい。ペットカメラ100は、屋内に設置されることに限定されず、屋外に設置されてもよい。以下では、説明の便宜上、1台のペットカメラ100に着目して説明する。
 提示装置4は、例えば、利用者300が所有する情報端末であることを想定する。情報端末は、一例としてスマートフォン又はタブレット端末等の携帯型の情報端末を想定する。しかし、提示装置4は、ノートパソコン、又は据置型のパソコンでもよい。
 提示装置4は、図1Bに示すように、通信部41と、処理部42と、表示部43とを有している。
 通信部41は、ペットカメラ100(図2参照)及びサーバ7(図2参照)の各々と互いに通信可能とするための通信インタフェースである。通信部41は、ペットカメラ100及びサーバ7のうちいずれか一方のみと通信可能であってもよい。
 処理部42は、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、1以上のプロセッサが1以上のメモリに記憶された1以上のプログラム(アプリケーション)を実行することで、処理部42として機能する。プログラムは、ここでは処理部42のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。利用者300は、見守りの対象となるペット5に関するGUI(Graphical User Interface)を提示するための専用のアプリケーションソフト(以下では「ペットアプリ」と呼ぶ)をインストールし、このペットアプリを起動することにより提示装置4として機能する。
 表示部43は、タッチパネル式の液晶ディスプレイ又は有機EL(Electro-Luminescence)ディスプレイを構成する。提示装置4がペットアプリを実行することで、表示部43にはペット5に関する情報を提示する画面が表示(出力)される。
 ところで、ペット5と一緒に住む住人(家族)が複数である場合、複数の住人が、利用者300としてペット5の管理支援のサービスを受ける場合、ペット管理システム200は、複数の住人(複数の利用者300)がそれぞれ携帯する複数台の提示装置4を備えることになる。以下では、説明の便宜上、ある一人の利用者300(住人)が携帯する1台の提示装置4(スマートフォン)に着目して説明する。
 ペットカメラ100は、例えば、ペット見守り用の撮像機能を有した装置である。言い換えると、ペットカメラ100は、図1Aに示すように、撮像部2(カメラ装置)を備えている。利用者300は、飼っているペット5が居住内(居住外でもよい)で、主に活動し得る場(例えばエサが置かれている場所)となっている領域が撮像部2の視野角内に収まるように、ペットカメラ100を設置する。利用者300は、撮像部2で撮像された画像を通じて、例えば外出中であっても、ペット5の状況を見守ることができる。
 上述の通り、ここでは一例として、ペットの種類は犬であることを想定する。図5A~図6Cでは、複数の犬種のペット5を示す画像フレームF0(例えば第1フレームF1)のデータが例示されているが、これらの図面は、ペット状況推定システム1を説明するために、犬の「姿勢の種類」を例示しているにすぎず、犬種は特に限定されない。ペット状況推定システム1は、例えば犬の「姿勢」について犬種を問わずに、ある程度共通して認識するように構成されるが、犬種によって個別に姿勢を認識してもよい。
 ペットカメラ100は、図1Aに示すように、撮像部2に加えて通信部11を更に備えている。通信部11は、提示装置4(図2参照)及びサーバ7(図2参照)の各々と互いに通信可能とするための通信インタフェースである。通信部11は、提示装置4と、例えばBLE(Bluetooth(登録商標) Low Energy)の規格に準拠した近距離無線通信を行う機能を有してもよい。提示装置4を携帯する利用者300(図2参照)が宅内に居る場合、通信部11は、提示装置4と直接、近距離無線通信することでデータの授受を行ってもよい。
 また通信部11は、宅内に設置されたルータ等を介して、インターネット等のネットワークNT1(図2参照)に接続されている。ペットカメラ100は、ネットワークNT1を介して外部のサーバ7と通信を行い、サーバ7から情報を取得したりサーバ7へ情報を出力したりすることが可能である。
 図2に示す提示装置4は、通信事業者が提供する携帯電話網(キャリア網)又は公衆無線LAN(Local Area Network)等を介してネットワークNT1に接続されてもよい。携帯電話網には、例えば、3G(第3世代)回線、LTE(Long Term Evolution)回線、4G(第4世代)回線又は5G(第5世代)回線等がある。提示装置4は、携帯電話網に接続可能な環境であれば、携帯電話網を介してネットワークNT1に接続可能となる。例えば、提示装置4を携帯する利用者300が宅外に居る場合、携帯電話網等を介してネットワークNT1に接続されることで、ペットカメラ100及びサーバ7の各々と通信可能となる。
 また提示装置4及びペットカメラ100間の通信は、ネットワークNT1及びサーバ7を介して行われてもよい。
 ここで上述の通り、ペット状況推定システム1は、図1Aに示すように、ペットカメラ100に設けられている。具体的には、ペットカメラ100は、図1Aに示すように、処理部3、モデル格納部P1、条件格納部P2、及び記憶部37を更に備えていて、これらがペット状況推定システム1を構成する。なお、ペット状況推定システム1の詳細については、次の欄で説明する。
 サーバ7は、図2に示すように、ネットワークNT1に接続されている。サーバ7は、ネットワークNT1を介して、ペットカメラ100及び提示装置4の各々と通信可能である。サーバ7は、例えば、利用者情報(氏名、利用者ID、電話番号、メールアドレス等)、利用者300が所有するペットカメラ100及び提示装置4の情報(識別情報等)、及び利用者300が飼っているペット5(犬種情報等)の情報を管理する。またサーバ7は、複数のペットカメラ100で撮像された種々の画像データ、及び処理結果(特に処理エラー等)を収集し蓄積する。利用者300は、提示装置4を通じてサーバ7にアクセスすることで、ペットアプリのダウンロードが行えてもよい。
 サーバ7は、1台のサーバ装置から構成されることを想定するが、複数台のサーバ装置から構成されてもよいし、そのようなサーバ装置が、例えばクラウド(クラウドコンピューティング)を構築してもよい。またペット状況推定システム1の少なくとも一部の機能が、サーバ7内に設けられてもよい。
 (2.2)ペット状況推定システム
 ペットカメラ100は、図1Aに示すように、動画データG1を撮像する撮像部2、及び通信部11に加えて、上述の通り、ペット状況推定システム1として、処理部3、モデル格納部P1、条件格納部P2及び記憶部37を備えている。ペット状況推定システム1は、ペット状況を推定するための「推定処理」を実行する。
 モデル格納部P1は、複数の学習済みモデルを含むデータを格納可能に構成される。モデル格納部P1は、EEPROM(Electrically Erasable Programmable Read-Only Memory)のような書き換え可能な不揮発性メモリを含む。また条件格納部P2は、条件情報9を含むデータを格納可能に構成される。条件格納部P2は、EEPROMのような書き換え可能な不揮発性メモリを含む。記憶部37は、後述するイベント情報やダイジェスト情報を記憶する。モデル格納部P1、条件格納部P2、及び記憶部37は、同一の格納部(メモリ)から構成されてもよい。またモデル格納部P1、条件格納部P2、及び記憶部37は、処理部3の内蔵メモリであってもよい。
 処理部3は、例えば、1以上のプロセッサ(マイクロプロセッサ)と1以上のメモリとを含むコンピュータシステムにより実現され得る。つまり、1以上のプロセッサが1以上のメモリに記憶された1以上のプログラム(アプリケーション)を実行することで、処理部3の後述する各部として機能する。プログラムは、ここでは処理部3のメモリに予め記録されているが、インターネット等の電気通信回線を通じて、又はメモリカード等の非一時的な記録媒体に記録されて提供されてもよい。
 処理部3は、ペットカメラ100の全体的な制御、すなわち、撮像部2、通信部11、モデル格納部P1、条件格納部P2及び記憶部37等を制御する制御部としての機能を有する。
 ここで処理部3は、図1Aに示すように、取得部30と、フレーム抽出部31と、領域検出部32と、情報生成部33と、推定部34と、出力部35と、ダイジェスト作成部38と、を有している。本実施形態では、上述の通り、領域検出部32と情報生成部33とが、複数の画像フレームF0から犬(ペット5)を検出するペット検出部X1を構成する。
 取得部30は、撮像部2から動画データG1を取得するように構成されている。取得部30が動画データG1(図3参照)を取得する。
 フレーム抽出部31は、動画データG1から、(1セット分の)複数の画像フレームF0を抽出するように構成される。複数の画像フレームF0の各々は、被写体H1としてペット5が存在し得る静止画である。複数の画像フレームF0は、時間軸の方向Y1に並ぶ1セット分の複数の画像フレームである。複数の画像フレームF0が抽出されると、処理部3は、推定処理を実行する。なお、この抽出時点では、抽出された画像フレームF0内にペット5が写っていない可能性もあり得る。
 ペット検出部X1の領域検出部32は、複数の画像フレームF0において、ペット5の容姿の少なくとも一部を示す特定領域A1を検出するように構成される。本実施形態では、領域検出部32は、学習済みモデル(以下、「第2モデルM2」と呼ぶことがある)に基づいて、特定領域A1を検出する。第2モデルM2は、所定の種類のペット(ここでは「犬」)について画像認識するためにその外観要因(特徴量)を(機械)学習したものである。第2モデルM2は、モデル格納部P1に格納されている。ここでは一例として、画像フレームF0の数は5つ(第1フレームF1~第5フレームF5)である。
 第2モデルM2は、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。ニューラルネットワーク(多層ニューラルネットワークを含む)は、例えばCNN(Convolutional Neural Network:畳み込みニューラルネットワーク)、又はBNN(Bayesian Neural Network:ベイズニューラルネットワーク)等を含み得る。第2モデルM2は、ASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)等の集積回路に、学習済みのニューラルネットワークを実装することで実現されている。第2モデルM2は、ディープラーニングにより生成されるモデルに限定されない。第2モデルM2は、サポートベクターマシン、又は決定木等により生成されるモデルでもよい。
 要するに、領域検出部32は、第2モデルM2を用いて、抽出した第1フレームF1~第5フレームF5内に犬(ペット5)が被写体H1として存在するか否かを推定する。領域検出部32は、第1フレームF1~第5フレームF5内に犬(ペット5)が存在すると推定すると、ペット5を囲むバウンディングボックスで定義された特定領域A1(図3参照)を検出する。特定領域A1は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。
 また上述の通り、領域検出部32は、各画像フレームF0で、個別にペット5を示す特定領域A1を検出しない。領域検出部32は、先頭の第1フレームF1で特定領域A1を検出すると、その他の第2フレームF2~第5フレームF5の特定領域A1の位置は、第1フレームF1の特定領域A1と同じ位置に固定する。
 情報生成部33の(後述する)動き検出部330には、第1フレームF1~第5フレームF5の全ての特定領域A1に関する情報が入力される。一方、情報生成部33の(後述する)姿勢判定部331には、第1フレームF1~第5フレームF5のうち、第1フレームF1の特定領域A1に関する情報のみが入力される。
 領域検出部32は、学習済みモデル(以下、「第3モデルM3」と呼ぶことがある)に基づいて、被写体H1の頭部50(図2参照)を示す頭部領域A2(図3参照)を検出する。第3モデルM3は、所定の種類のペット(ここでは「犬」)の頭部について画像認識するためにその外観要因(特徴量)を学習したものである。つまり、領域検出部32は、第3モデルM3を用いて、顔の部分を含む頭部領域A2を検出する頭部検出部としての機能を更に有している。ただし、領域検出部32と頭部検出部とは、別々に設けられてもよい。第3モデルM3は、モデル格納部P1に格納されている。
 第3モデルM3は、第2モデルM2と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。第3モデルM3は、ディープラーニングにより生成されるモデルに限定されない。また第3モデルM3は、第2モデルM2と同一モデルから構成されてもよい。
 領域検出部32は、第3モデルM3を用いて、抽出した第1フレームF1~第5フレームF5内に、犬(ペット5)の頭部50が存在するか否かを推定する。領域検出部32は、第1フレームF1~第5フレームF5内に、犬(ペット5)の頭部50が存在すると推定すると、頭部50を囲むバウンディングボックスで定義された頭部領域A2(図3参照)を検出する。頭部領域A2は、バウンディングボックスで定義されることに限定されず、例えばセグメンテーションで定義されてもよい。
 なお、領域検出部32は、頭部領域A2については、各画像フレームF0で、個別に検出する。
 ところで、画像フレームF0が、犬(ペット5)の容姿の一部(例えば顔)がアップになった画像の場合、特定領域A1の検出と頭部領域A2の検出のいずれかの検出について失敗(誤検出)する可能性がある。具体的には、犬(ペット5)の顔がアップになった画像フレームF0は、「犬の顔」のアノテーションに近いことから、領域検出部32は、「犬の顔(頭部50)」として頭部領域A2を検出できても、「犬(容姿全体)」のアノテーションから外れ得る。その結果、「犬」として特定領域A1の検出に失敗する可能性がある。本実施形態では、領域検出部32は、「犬」及び「犬の顔」の少なくとも一方を検出すれば、取得した画像フレームF0内に、犬(ペット5)が存在すると推定する。もし頭部領域A2のみを検出した場合には、領域検出部32は、頭部領域A2と略等しい領域を、特定領域A1に設定する。なお、もし特定領域A1を検出したにも関わらず頭部領域A2の検出に失敗した場合には、処理部3は、その取得した画像フレームF0に関する推定処理を終了してもよい。
 情報生成部33の動き検出部330には、第1フレームF1~第5フレームF5の全ての頭部領域A2に関する情報が入力される。
 ペット検出部X1の情報生成部33は、図1Aに示すように、動き検出部330と、姿勢判定部331とを有する。
 姿勢判定部331は、学習済みモデル(第1モデルM1)と、複数の画像フレームF0のうち少なくとも1つの画像フレームF0(ここでは第1フレームF1)の特定領域A1に関する情報とに基づいて、特定領域A1に示されるペット5の姿勢を判定(推定)する。第1モデルM1は、ペット(ここでは「犬」)の姿勢について画像認識するためにペットの姿勢について学習したものである。すなわち、第1モデルM1は、犬の姿勢について画像認識するためにその外観要因(特徴量)を学習したものである。
 第1モデルM1は、第2モデルM2や第3モデルM3と同様に、例えばニューラルネットワークを用いたモデル、又は多層ニューラルネットワークを用いた深層学習(ディープラーニング)により生成されるモデルを含み得る。第1モデルM1は、ディープラーニングにより生成されるモデルに限定されない。第1モデルM1は、第2モデルM2や第3モデルM3と同一モデルから構成されてもよい。
 ここで犬(ペット5)の姿勢について図5A~図6Cを参照しながら説明する。図5A~図6Cは、いずれも、ペット状況推定システム1にて推定処理の対象となり得る画像フレームF0(ここでは第1フレームF1)の一例である。
 図5Aは、ペット5が四つ足で起立した姿勢(第1姿勢)で、周囲の様子を窺がっている状態を示す画像フレームF0の一例である。
 図5Bは、ペット5が床に伏せている姿勢(第2姿勢)で、正面を向いて周囲の様子を窺がっている状態を示す画像フレームF0の一例である。
 図5Cは、図5Bと同様に、ペット5が第2姿勢で、やや右方向を向いて周囲の様子を窺がっている状態を示す画像フレームF0の一例である。
 図6Aは、ペット5が前足を前方に後ろ足を後方にそれぞれ伸張した姿勢(第3姿勢)で、走っている状態を示す画像フレームF0の一例である。図6Aでは、ペット5の尻尾は上を向いている。
 図6Bは、ペット5が片方の前足と片方の後ろ足は床に着いて他の足は床から離れて曲がっている姿勢(第4姿勢)で、歩いている状態を示す画像フレームF0の一例である。図6Bでは、ペット5の尻尾が下に垂れている。
 図6Cは、ペット5が寝転んでいる姿勢(第5姿勢)で、目を瞑って睡眠中の状態を示す画像フレームF0の一例である。
 上記の姿勢は、犬(ペット5)が取り得る姿勢の単なる一例であり、これらに限定されない。ただし、第1モデルM1は、犬の姿勢について、犬の何かしらの行動(特に何かしらの感情に関連する行動)と高い関係性を有した姿勢について機械学習して生成される。犬の姿勢の中で、より精度良く推定したい特定の姿勢については、更に細かい状態も区別できるように機械学習される。ここでいう「特定の姿勢」とは、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特に、犬の行動から読み取れる犬の感情は、例えば、「喜」、「怒」、「哀」、「楽」、「怖」、「安(リラックス)」、等であり、犬の特定の姿勢と関係性のある行動の幾つかは、これらの感情のどれかと関連し得る。
 例えばペット5が四つ足で起立した姿勢(第1姿勢)でも、歯や舌を見せているか否か、耳が立っているか垂れているかといった状態も区別して姿勢の推定を行えるように機械学習される。例えば、歯を見せている第1姿勢は「威嚇中」という行動と関係性がある。また耳が立っている第1姿勢は、周囲の様子を窺がっている「警戒中」という行動と関係性がある。また耳が垂れている第1姿勢は、「無警戒中」という行動と関係性がある。そして、「威嚇中」という行動は、「怒」という犬の感情に関連する行動として設定され得る。「警戒中」という行動は、「怖」という犬の感情に関連する行動として設定され得る。また「無警戒中」という行動は、「哀」や「安」という犬の感情に関連する行動として設定され得る。またペット5が寝ている姿勢(第5姿勢)でも、どのように寝ているのか、具体的には、背中が丸まっているか伸びているか、目を瞑っているか否か、舌を出しているか否かといった状態も区別して姿勢の推定を行えるように機械学習される。
 第1~第3モデルM1~M3を生成するための学習用のデータセットとして、画像データ(生データ)にタグ付けをするアノテーション作業(教師データの決定)において、多数の画像データを用いる。学習用のデータセットは、犬種、犬の色、犬の向き、犬が写っている背景等について制約なしで収集された多数の画像データから選ばれる。学習用のデータセットは、実際の犬の画像データだけでなく、犬のぬいぐるみの画像データ、及びCGで作成された犬の画像データも含んでもよく、これらを混ぜて機械学習を行う。
 姿勢判定部331で判定されたペット5の姿勢情報(判定結果、及び特定領域A1に関する情報を含む)は、推定部34に入力される。
 動き検出部330は、時間軸の方向Y1に並ぶ第1フレームF1~第5フレームF5における画素値(画素の輝度値)の変化に基づき、ペット5の全身又は一部の動きに対応する1又は複数の画素領域Px1を検出するように構成される。以下、「動き」の検出について図4A及び図4Bを参照しながら説明する。
 本実施形態の動き検出部330は、1又は複数の画素領域Px1に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量(閾値)とを比較することで、複数の特定領域A1における動きが、所定部位の動きであると推定する。ここでは動き検出部330は、複数の特定領域A1の中から1つの特定領域A1を、判定用の基準領域R1として決定する。比較用の所定の特徴量に関する情報は、処理部3のメモリ又は記憶部37等に予め記憶される。一例として、動き検出部330は、先頭の第1フレームF1の特定領域A1を、基準領域R1とする。またここでの「所定部位」は、ペットの「尻尾」であるとする。ただし、所定部位は、尻尾に限定されず足や胴でもよい。
 図4A及び図4Bでは、説明の便宜上、画像フレームF0における特定領域A1(基準領域R1)が、模式的に16×16の画素領域Px1で構成されているものとする。特に図4Aは、ペット5が四つ足で起立した姿勢を示す図3の特定領域A1について、縮小して模式的に16×16の画素領域Px1で示したものである。各画素領域Px1は、画像フレームF0の実際の画素の複数分から構成される領域を想定するが、1画素分に相当してもよい。各画素領域Px1の画素値は、各画素領域Px1を構成する複数画素の画素値の平均値でもよい。
 動き検出部330は、第1フレームF1~第5フレームF5における特定領域A1に対して、画像解析処理を実行する。具体的には、動き検出部330は、時間軸の方向Y1に注目し、基準領域R1における画素値と、他の4つの特定領域A1における画素値とを比較して、一定値以上に画素値が変化している1又は複数の画素領域Px1を選択する。言い換えると、動き検出部330は、画素値の変化に基づき、特定領域A1内に動きがあるか否かを判定する。
 図4Aの左側の特定領域A1(基準領域R1)は、一定値以上に画素値が変化している画素領域Px1を動き検出部330が選択した一例である。この特定領域A1は、左上隅に11個の画素領域Px1からなる第1領域T1(図示例では白色で示す)と、それ以外の複数の画素領域Px1からなる第2領域T2(図示例ではドットハッチングで示す)を含む。動き検出部330は、第1領域T1を「動き」のある画素領域Px1の集まりと判断し、第2領域T2を「動き」がない画素領域Px1の集まりと判断している。
 ここで動き検出部330は、例えば、第1領域T1を構成する複数画素の位置座標(座標値)に関する「平均」と「分散」とを求める。図4A中の点C1は、第1領域T1を構成する複数画素の位置座標の平均値としての「平均位置」を示す。動き検出部330は、点C1(平均位置)に対する第1領域T1全体の位置のばらつき(分散)を求め、その「分散」がある閾値(尻尾に対応する所定の特徴量)よりも小さい場合に、ペット5の尻尾51(図3参照)が動いていると推定する。図4A中の点C1を中心とした円J1は、第1領域T1のばらつき度合いを可視化するために図示しており、円J1の大きさ(半径)が、分散の値に比例して決まり、上記閾値と比較される。
 言い換えると、動き検出部330は、一定値以上に画素値が変化している1又は複数の画素領域Px1に関する特徴量(分散)と、尻尾の動きに対応する所定の特徴量(分散)とを比較することで、複数の特定領域A1における動きが、尻尾51の動きであると推定する。さらに言い換えると、動き検出部330は、特定領域A1(基準領域R1)の中で、第1領域T1が局所的な領域である場合に、第1領域T1を尻尾51が動いている領域と推定する。
 図4Bは、犬(ペット5)の全身が、第1フレームF1~第5フレームF5にわたって動いている場合の、特定領域A1(基準領域R1)について、縮小して模式的に16×16の画素領域Px1で示したものである。図4Bでは、4つの第1領域T1が、四隅に離散して存在している。図4Bの点C2は、4つの第1領域T1の「平均位置」を示す。この例では、犬(ペット5)の全身が動いているため、点C2(平均位置)に対する4つの第1領域T1全体のばらつき(分散)が大きい。図4B中の点C2を中心とした円J2は、第1領域T1のばらつき度合いを可視化するために図示しており、円J2の大きさ(半径)が、分散の値に比例して決まる。
 ところで、ペット5が犬の場合、犬の尻尾の動きは、犬の感情と深い関係性を有しており、後述する推定部34で犬(ペット5)のペット状況を推定するために、上述の通り、所定部位をペットの尻尾に設定している。ここで本実施形態の動き検出部330は、尻尾51の位置を直接的に推定しているというより、第1領域T1のばらつき(分散)から尻尾51の動きを推定している。そのため、ペット5の所定部位(尻尾)以外のある一部位が第1フレームF1~第5フレームF5にわたって局所的に動いている場合、尻尾51と誤認識する可能性がある。ここでいう「尻尾以外のある一部位」の一例としては、ペットの頭部である。
 そこで、本実施形態では、動き検出部330は、領域検出部32で検出された頭部50(図2参照)を示す頭部領域A2を(たとえ「動き」があっても)、「動き」がない第2領域T2に含めるように処理する。つまり、動き検出部330は、複数の画像フレームF0の、時間軸の方向Y1に並ぶ複数の特定領域A1において、頭部領域A2以外の領域における画素値の変化から、ペット5の全身又は一部(尻尾51)の動きに対応する1又は複数の画素領域Px1を検出する。
 動き検出部330は、検出された検出結果として、ペット5の動き情報(ここでは尻尾51が動いているか否かという情報を含み得る)を、推定部34に出力する。
 本実施形態では、ペット検出部X1は、上述した、領域検出部32における特定領域A1の検出処理と、情報生成部33における姿勢情報及び動き情報を生成する生成処理とを、この順で実行する。しかし、ペット検出部X1は、検出処理と生成処理とを概ね同時に並行して実行してもよい。
 推定部34は、姿勢判定部331の判定結果(姿勢情報)と、動き検出部330の検出結果(動き情報)とに基づいて、ペット状況を推定するように構成される。ここでいう「ペット状況」とは、動画データG1内に写るペット5の感情及び行動の少なくとも一方に関する。ここでは一例として、推定部34は、姿勢情報と、動き情報と、条件情報9とに基づいて、ペット状況を推定する。
 条件情報9は、抽出対象として予め設定されたペットの特定の行動及び感情の少なくとも一方に関連する情報である。例えば、下記の表1~表3に示すような対応関係の情報(以下、「パターン」と呼ぶことがある)は、条件情報9として含まれ得る一例であり、この様なパターンが多数用意されてデータベース化されて条件格納部P2内に格納されている。
Figure JPOXMLDOC01-appb-T000001
Figure JPOXMLDOC01-appb-T000002
Figure JPOXMLDOC01-appb-T000003
 推定部34は、条件情報9の中に、得られた姿勢情報及び動き情報(尻尾の動きの有無)と合致する条件のパターンが存在するかをサーチする。
 例えば得られた姿勢情報及び動き情報が、「四つ足で起立」及び「尻尾の動き有り」という結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表1に示すように合致する条件のパターンが存在し、「懐いている/喜び」という「行動/感情」が紐づけされている。したがって、推定部34は、複数の画像フレームF0内のペット5のペット状況が「懐いている/喜び」であると推定する。
 また例えば、得られた姿勢情報及び動き情報が、「前足を前方に後ろ足を後方に伸張している」及び「尻尾の動き有り」という結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表2に示すように合致する条件のパターンが存在し、「走っている」という「行動」が紐づけされている。したがって、推定部34は、複数の画像フレームF0内のペット5のペット状況が「走っている」であると推定する。つまり、推定部34は、尻尾51の動きが感情によるものではなく、犬(ペット5)が走っているため、胴体の上下の動きに応じて尻尾51も上下に揺れていると推定している。
 また例えば、得られた姿勢情報及び動き情報が、「尻尾が垂れている」及び「尻尾の動き無し」という結果を含んでいるとする。推定部34は、条件情報9の中に、これらの結果に合致する条件のパターンが存在するかをサーチする。ここでは表3に示すように合致する条件のパターンが存在し、「無関心」という「感情」が紐づけされている。したがって、推定部34は、複数の画像フレームF0内のペット5のペット状況が「無関心」であると推定する。
 上記の各パターンの条件の種類は、「ペットの姿勢」及び「尻尾の動きの有無」に関する条件に限定されず、他の条件を含んでもよい。
 例えば、動き検出部330は、第1フレームF1~第5フレームF5にわたる画素値の変化から、尻尾51の動きの速度を推定する機能を有してもよい。この場合、各パターンは、「尻尾の動きの有無」に加えて又はその代わりに、「尻尾の動きの速度」に関する条件を含んでもよい。例えば、尻尾を(左右に)ゆっくりと振っているという条件には、「不安」又は「好奇心」という感情が紐づけされてもよい。また、尻尾を(左右に)素早く振っているという条件には、「喜び」という感情が紐づけされてもよい。
 またペット状況推定システム1が、動画データG1内において犬(ペット5)以外の物体(飼い主等の人、食器、又は玩具)を検出する機能(物体検出部)を有していれば、犬以外の物体の存否に関する条件を更に含んでもよい。
 出力部35は、推定部34の推定結果(推定されたペット状況)を含む「イベント情報」を出力するように構成される。出力部35は、処理部3が推定処理を実行する度にイベント情報を生成し、記憶部37に記憶させる。イベント情報は、サーバ7又はその他の周辺機器に送信されて保存されてもよい。ここでは、イベント情報は、推定部34の推定結果と、上記推定結果の基となった複数の画像フレームF0のうち少なくとも1つの画像フレームF0(例えば先頭の第1フレームF1)が撮像された撮像時間とを紐づけた情報である。出力部35は、推定結果と撮像時間に対して、さらに画像データ(第1フレームF1)とも紐づけた態様で、イベント情報を生成することが好ましい。
 出力部35は、イベント情報(出力情報)を、通信部11を通じて、提示装置4に送信する。提示装置4を携帯する利用者300が外出中であれば、イベント情報は、サーバ7を経由して提示装置4に送信されてもよい。
 ところで、ペット状況推定システム1は、上述の通り、ダイジェスト作成部38を更に備える。ダイジェスト作成部38は、記憶部37に記憶される1又は複数のイベント情報に基づいて、動画データG1に関するダイジェスト情報を作成する。つまり、処理部3は、取得した一の動画データG1に対して、複数回推定処理を実行し、複数のイベント情報が記憶部37に記憶され得る。ダイジェスト情報は、複数のイベント情報を外部(ここでは提示装置4)で利用しやすいように一括りにまとめたものである。一の動画データG1の中には、ペット5が写っていない時間帯の画像フレームF0、及び特定のペット状況下でないペット5が写っている時間帯の画像フレームF0が含まれ得る。ダイジェスト作成部38で作成されるダイジェスト情報は、これらの時間帯の画像フレームF0に関する情報を含まない。
 ダイジェスト情報は、記憶部37に記憶される。ダイジェスト情報は、サーバ7又はその他の周辺機器に送信されて保存されてもよい。
 出力部35は、ダイジェスト情報(出力情報)を、通信部11を通じて、提示装置4に送信する。提示装置4を携帯する利用者300が外出中であれば、ダイジェスト情報は、サーバ7を経由して提示装置4に送信されてもよい。
 提示装置4は、ペットカメラ100からイベント情報又はダイジェスト情報等の出力情報を受信すると、出力情報に含まれるペット状況を、例えば簡易的な表現(メッセージ)に置き換えてもよい。そして、提示装置4は、そのメッセージを添えたプッシュ通知等にて画面上に通知(提示)してもよい。利用者300がプッシュ通知を開封すると、提示装置4は、ペットアプリが起動して、出力情報に含まれる詳細なペット状況を画面上で提示してもよい(図7参照)。或いは出力情報は、メールサーバを経由してメールにより通知されてもよい。
 図7の例では、提示装置4は、表示部43の画面430上に、ペット状況の推定の基となった複数の画像フレームF0(床に伏せている姿勢:尻尾を左右に振っている)を表示している。ここでは条件情報9は、「伏せている」及び「尻尾の動き有り」という2つの条件に「喜び」という「感情」が紐づけされたパターンを含んでいる。その結果、ペット状況として「喜び」が推定された例である。提示装置4は、「喜び」というペット5の感情を「うれしいな~」という親しみやすい表現に変換した文字列データを吹き出し付きで、画像フレームF0上に重畳させて表示する。また提示装置4は、尻尾を表示する画像領域の近傍に「パタパタ」という文字列データや、尻尾が動いている方向を示す矢印等を重畳させて表示させてもよく、この場合、利用者300は、ペット5が尻尾51を振っていることを直感的に理解しやすくなる。
 提示装置4は、複数の画像フレームF0を動画として表示させてもよいし、複数の画像フレームF0のうちの1つ(例えば第1フレームF1)のみを、静止画として表示させてもよい。
 提示装置4は、表示部43の画面430上に、ペット状況の推定の基となった画像フレームF0(例えば第1フレームF1)が撮像された時間(日時)を更に表示させることが好ましい。
 出力部35は、推定結果の基となった複数の画像フレームF0(生データ)を含めて出力情報を送信することに限定されず、画像のデータ加工を行った上で送信してもよい。また出力部35は、複数の画像フレームF0を、推定されたペット状況に対応するアイコン画像(例えば、尻尾を振って喜んでいる様子の犬のアイコン画像)に置き換えた上で送信してもよい。データの加工処理、及びアイコン画像への置き換えは、提示装置4又はサーバ7の側で実行されてもよい。
 推定部34の推定結果は、画面出力に限られず、画面出力の代わりに又は画面出力に加えて、音声出力によって行われてもよい。
 ところで、処理部3は、取得部30が複数(ここでは5つ)の画像フレームF0(1セット)を取得する度に推定処理を実行する。例えば、撮像部2が所定のフレームレートで動画を撮像する場合、処理部3は、動画データG1の中で連続する多数の画像フレームF0の中から、複数セット分の画像フレームF0を取得して、各セットについて推定処理を実行し得る。出力部35は、推定部34が各セット分の画像フレームF0についてペット状況を推定する度に、出力情報を提示装置4に送信してもよいし、複数セット分の出力情報をある程度記憶部37等にプールして、まとめて送信してもよい。
 また出力部35は、複数セットに関する推定部34の推定結果が、所定回数(例えば2回)連続して同じ結果を示す場合、推定部34の推定結果の出力を制限してもよい。具体的には、ある1セット分の画像フレームF0に対するペット5の姿勢と尻尾の動きが、「伏せている」及び「尻尾の動き有り」と推定されて出力情報が提示装置4に出力されたとする。そして、以降に取得したセット分の画像フレームF0に対するペット5の姿勢と尻尾の動きも、上記のある1セット分の画像フレームF0と同じに推定された場合、出力部35は、その推定結果を出力しなくてもよい。
 出力部35は、複数セット分の複数の出力情報を記憶部37等にプールする場合、所定回数連続して同じ推定結果だった出力情報については、一の推定結果としてまとめて送信してもよい。「所定回数」に関する設定は、ペットカメラ100又は提示装置4への利用者300の操作入力によって適宜変更可能でもよい。
 このように推定結果の出力を制限することで、類似する推定結果が連続して出力されることを抑制でき、例えば処理負荷や通信量の低減を図れる。また短期間に何度も同じペット状況が利用者300に通知されることが抑制されるため、利便性も向上する。
 (2.3)動作説明
 以下、本実施形態におけるペット管理システム200の動作について、図8及び図9を参照しながら簡単に説明する。なお、以下の動作説明における順序は、単なる一例であって特に限定されない。特に以下では、ペット検出部X1における、特定領域A1の検出処理と、姿勢情報及び動き情報の生成処理とが、この順で実行される一例を説明するが、これらの処理は、概ね同時に並行して実行されてもよい。
 利用者300の宅内に設置されたペットカメラ100は、ペット5が主に活動し得る所定の管理領域を、撮像部2で撮像して監視する。ペットカメラ100は、管理領域を動画像として所定の期間撮像し続ける。
 ペットカメラ100のペット状況推定システム1は、図8に示すように、撮像部2で撮像された動画データG1を取得部30にて取得する(S1)。そして、ペット状況推定システム1は、フレーム抽出部31にて時間軸の方向Y1に並ぶ(例えば1セット分の)複数の画像フレームF0を抽出する(S2:フレーム抽出ステップ)。ペット状況推定システム1は、抽出された複数の画像フレームF0について、推定処理を実行する(S3)。
 ペット状況推定システム1は、領域検出部32にて、第2モデルM2を用いて複数の画像フレームF0内に犬(ペット5)が被写体H1として写っているか否かを判定する(S4)。ペット状況推定システム1は、犬(ペット5)が写っていれば(S4:Yes)、ペット5を示す特定領域A1を検出し(S5:ペット検出ステップ)、頭部50の判定(S6)に進む。
 本実施形態では、仮に画像フレームF0内に犬(ペット5)が写っていないと判定しても(S4:No)、処理は、頭部50の判定(S6)に進む。これは、上述の通り、画像フレームF0が犬の顔のアップ画像の場合に、「犬」の検出に関する失敗をフォローするためである。
 ペット状況推定システム1は、領域検出部32にて、第3モデルM3を用いて画像フレームF0内に犬(ペット5)の頭部50が写っているか否かを判定する(S6)。ペット状況推定システム1は、頭部50が写っていれば(S6:Yes)、頭部50を示す頭部領域A2を検出する(S7)。本実施形態では、ペット状況推定システム1は、頭部50が写っていなければ(S6:No)、このセット分の複数の画像フレームF0に関する推定処理を終えて、次のセット分の複数の画像フレームF0の取得を待つ(S2に戻る)。ただし、特定領域A1を検出していれば、頭部領域A2を検出していなくても、推定処理を続けてもよい。
 ペット状況推定システム1は、頭部領域A2の検出後、特定領域A1を検出済みであれば(S8:Yes)、処理は、犬(ペット5)の姿勢の判定(S10:図9参照)に進む。一方、ペット状況推定システム1は、頭部領域A2の検出後、特定領域A1を検出していなければ(S8:No)、頭部領域A2と略同等の領域を特定領域A1に設定して(S9)、処理は、犬(ペット5)の姿勢の判定(S10)に進む。
 ペット状況推定システム1は、姿勢判定部331にて、第1モデルM1と第1フレームF1の特定領域A1に関する情報とを用いて、犬(ペット5)の姿勢を判定する(S10:姿勢判定ステップ)。
 またペット状況推定システム1は、動き検出部330にて、第1フレームF1~第5フレームF5における画素値の変化に基づき、「動き」のある画素領域Px1(第1領域T1)を検出する(S11:動き検出ステップ)。ただし、ペット状況推定システム1は、頭部領域A2以外の領域の画素値の変化について判定する。「動き」のある画素領域Px1が無ければ(S11:No)、ペット状況推定システム1は、ペット5は尻尾51を動かしていない(振っていない)と推定する(S12)。
 「動き」のある画素領域Px1が有れば、ペット状況推定システム1は、「動き」のある画素領域Px1に関する特徴量(分散)と、尻尾の動きに対応する所定の特徴量(分散)とを比較する(S13)。ペット状況推定システム1は、検出した画素領域Px1に関する特徴量(分散)が、所定の特徴量(分散)よりも小さいと判定すると(S13:Yes)、ペット5は尻尾51を動かしていると推定する(S14)。なお、ペット状況推定システム1は、検出した画素領域Px1に関する特徴量(分散)が、所定の特徴量(分散)以上であると判定すると(S13:No)、ペット5は尻尾51を動かしていないと推定する(S12)。
 ペット状況推定システム1は、処理S10~S14で得られた結果から、姿勢情報及び動き情報を生成する(S15)。
 そしてペット状況推定システム1は、姿勢情報、動き情報、及び条件情報9に基づいて、ペット状況を推定する(S16:推定ステップ)。
 ペット状況推定システム1は、推定したペット状況に関するイベント情報やダイジェスト情報等の出力情報を提示装置4に送信して、提示装置4から提示させる(S17)。
 [利点]
 このようにペット状況推定システム1では、推定部34は、姿勢情報、及び動き情報に基づいて、ペット5の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペットの状況を把握しやすくすることができる。
 また本実施形態では、推定部34は、姿勢情報、及び動き情報に加えて、条件情報9に基づいて、ペット状況を推定する。そのため、例えば、機械学習された学習済みモデルを用いて、ペット状況を推定する場合に比べて、ペット状況推定システム1を簡単な構成で実現可能である。
 また本実施形態では、動き検出部330は、「動き」のある画素領域Px1に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量とを比較することで、その動きが、所定部位の動きであると推定する。そのため、所定部位の動きの検出に関する信頼性が向上され、結果的に、ペット5の状況に関する推定の信頼性を向上できる。特に本実施形態では、所定部位を、ペットの感情と深い関係性のある尻尾に設定しているため、ペット5の状況に関する推定の信頼性をさらに向上できる。
 また本実施形態では、動き検出部330は、ペット5(被写体H1)の頭部50を示す頭部領域A2以外の領域における画素値の変化から、「動き」のある画素領域(Px1)を検出する。そのため、所定部位(尻尾)の動きの検出に関する信頼性が向上され、結果的に、ペット5の状況に関する推定の信頼性を向上できる。
 また推定部34の推定結果が、その基となった複数の画像フレームF0のうち少なくとも1つの画像フレームF0が撮像された撮像時間と紐づけられて、イベント情報として記憶部37に記憶される。そのため、イベント情報を、例えば提示装置4から提示させる場合に、ペット5の状況をより把握しやすくすることができる。さらに本実施形態では、1又は複数のイベント情報に基づいて、動画データG1に関するダイジェスト情報が作成されるため、ダイジェスト情報を通じてより簡単にペット5の状況を把握できる。
 特に、利用者300は、ペット状況推定システム1によって推定されたペット状況を通じて、ペット5の行動/感情を把握しやすく、その結果、ペット5とのコミュニケーションが図りやすくなる。また利用者300は、外出中においても、提示装置4からの通知によって、宅内のペット5の行動/感情を把握しやすく、その結果、ペット5を管理(見守り)しやすい。特に例えばペット状況が、緊急性を要するような行動(体調が悪く、ぐったりしている等)と推定された場合に、その旨をいち早く知ることができる。
 (3)変形例
 上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、上記実施形態に係るペット状況推定システム1と同様の機能は、ペット状況推定方法、コンピュータプログラム、又はコンピュータプログラムを記録した非一時的記録媒体等で具現化されてもよい。
 以下、上記実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。以下では、上記実施形態を「基本例」と呼ぶこともある。
 本開示におけるペット状況推定システム1は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示におけるペット状況推定システム1としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
 また、ペット状況推定システム1における複数の機能が、1つのハウジング内に集約されていることは必須の構成ではない。例えば、ペット状況推定システム1の構成要素は、複数のハウジングに分散して設けられていてもよい。具体的には、ペット状況推定システム1の第1モデルM1~第3モデルM3の少なくとも一部の学習済みモデルは、ペットカメラ100の外部(例えばサーバ7等の外部サーバ)に設けられてもよい。
 反対に、ペット状況推定システム1における複数の機能が、基本例のように、1つのハウジング(ペットカメラ100の筐体)内に集約されてもよい。さらに、ペット状況推定システム1の少なくとも一部の機能、例えば、ペット状況推定システム1の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
 (3.1)変形例1
 以下、本開示における変形例1について、図10を参照しながら説明する。図10は、本変形例のペット状況推定システム1Aを示す。以下では基本例のペット状況推定システム1と実質的に同じ構成要素については、同じ符号を付与して適宜にその説明を省略する場合がある。
 基本例のペット状況推定システム1では、ペット検出部X1は、領域検出部32及び情報生成部33を有し、領域検出部32でペット5を検出してから、情報生成部33の姿勢判定部331でペット5の姿勢を判定して姿勢情報を生成している。つまり、先ずは取得した複数の画像フレームF0内におけるペット5の存否を検出してから、姿勢判定を行っている。
 本変形例のペット状況推定システム1Aは、図10に示すように、領域検出部32が、姿勢判定部331の機能を有している点で、基本例のペット状況推定システム1と相違する。
 本変形例では、領域検出部32は、複数の画像フレームF0において、ペットの姿勢について画像認識するためにペットの姿勢について学習した第1モデルM1に基づいて、特定の姿勢を取っているペット5の特定領域A1を検出する。ここでは領域検出部32は、例えば第1モデルM1~第3モデルM3を用いて、特定の姿勢を取っているペット5が被写体H1として画像フレームF0内に写っているか否かを判定し、特定の姿勢を取っているペット5を示す特定領域A1を検出する。特定の姿勢は、上述の通り、犬の感情と結びつきの深い行動と関連性を有した姿勢である。特定の姿勢は、例えば座っている、伏せている、寝ている、又は四つ足で起立している等である。
 特定の姿勢を取っているペット5を示す特定領域A1に関する情報は、情報生成部33に入力されて、動き検出部330にて「動き」の検出に用いられる。
 要するに、本変形例のペット検出部X1では、ペット5の存在を検出してから姿勢を判定するというよりは、特定の姿勢のペット5を検出する。
 本変形例の構成においても、ペット5の状況を把握しやすくすることができる。
 更に別の変形例として、フレーム抽出部31が、姿勢判定部331の機能を有してもよく、例えば第1モデルM1~第3モデルM3を用いて、特定の姿勢を取っているペット5が写っている複数の画像フレームF0を、動画データG1から抽出してもよい。
 (3.2)その他の変形例
 以下、その他の変形例について列記する。
 基本例では、推定部34は、姿勢情報と、動き情報と、条件情報9とに基づいて、ペット状況を推定している。しかし、推定部34は、条件情報9の代わりに、姿勢情報と、動き情報と、ペットの特定の行動及び感情の少なくとも一方について機械学習した学習済みモデル(分類器)とを用いて、ペット状況が推定されてもよい。分類器は、姿勢情報、及び動き情報が入力されることで、姿勢情報及び動き情報を、ペットの特定の行動及び感情の少なくとも一方に分類する。
 基本例では、複数の画像フレームF0内における被写体H1としての犬(ペット5)の数が1匹であった。しかし、当然ながら、複数の画像フレームF0内における被写体H1としての犬(ペット5)の数が2匹以上(例えば親犬と子犬の2匹)の場合もあり得る。ペット状況推定システム1は、画像フレームF0内において、複数の特定領域A1を検出した場合には、各特定領域A1について姿勢情報と、動き情報とを生成し、ペット状況を推定する。
 基本例における第1モデルM1~第3モデルM3の少なくとも一部は、強化学習により機械学習されてもよい。この場合、上記一部のモデルは、強化学習のための処理負荷を考慮すると、ペットカメラ100の外部(例えばサーバ7等の外部サーバ)に設けられることが好ましい。
 (4)まとめ
 以上説明したように、第1の態様に係るペット状況推定システム(1,1A)は、フレーム抽出部(31)と、領域検出部(32)と、姿勢判定部(331)と、動き検出部(330)と、推定部(34)と、を備える。フレーム抽出部(31)は、動画データ(G1)から、各々が被写体(H1)としてペット(5)が存在し得る静止画であり時間軸の方向(Y1)に並ぶ複数の画像フレーム(F0)を抽出する。領域検出部(32)は、複数の画像フレーム(F0)において、ペット(5)の容姿の少なくとも一部を示す特定領域(A1)を検出する。姿勢判定部(331)は、学習済みモデル(第1モデルM1)と、複数の画像フレーム(F0)のうち少なくとも1つの画像フレーム(F0)とに基づいて、ペット(5)の姿勢を判定する。学習済みモデル(第1モデルM1)は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。動き検出部(330)は、時間軸の方向(Y1)に並ぶ複数の特定領域(A1)における画素値の変化に基づき、ペット(5)の全身又は一部の動きに対応する1又は複数の画素領域(Px1)を検出する。推定部(34)は、姿勢判定部(331)の判定結果と、動き検出部(330)の検出結果とに基づいて、動画データ(G1)内に写るペット(5)の感情及び行動の少なくとも一方に関するペット状況を推定する。第1の態様によれば、推定部(34)は、ペット(5)の感情及び行動の少なくとも一方に関するペット状況を推定するため、結果的に、ペット(5)の状況を把握しやすくすることができる。
 第2の態様に係るペット状況推定システム(1,1A)に関して、第1の態様において、推定部(34)は、姿勢判定部(331)の判定結果と、動き検出部(330)の検出結果と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報(9)とに基づいて、ペット状況を推定する。第2の態様によれば、推定部(34)が、例えば、機械学習された学習済みモデルを用いて、ペット状況を推定する場合に比べて、ペット状況推定システム(1,1A)を簡単な構成で実現可能である。
 第3の態様に係るペット状況推定システム(1,1A)に関して、第1又は第2の態様において、動き検出部(330)は、1又は複数の画素領域(Px1)に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量とを比較することで、複数の特定領域(A1)における動きが、所定部位の動きであると推定する。第3の態様によれば、動きの検出に関する信頼性が向上され、結果的に、ペット(5)の状況に関する推定の信頼性を向上できる。
 第4の態様に係るペット状況推定システム(1,1A)に関して、第3の態様において、所定部位は、ペットの尻尾である。第4の態様によれば、ペット(5)の状況に関する推定の信頼性がさらに向上される。
 第5の態様に係るペット状況推定システム(1,1A)に関して、第1~第4の態様のいずれか1つにおいて、領域検出部(32)は、学習済みモデル(第2モデルM2)に基づいて、特定領域(A1)を検出する。学習済みモデル(第2モデルM2)は、所定の種類のペットについて画像認識するためにその外観要因を学習したものである。第5の態様によれば、特定領域(A1)の検出に関する信頼性が向上され、結果的に、ペット(5)の状況に関する推定の信頼性を向上できる。
 第6の態様に係るペット状況推定システム(1,1A)に関して、第1~第5の態様のいずれか1つにおいて、動き検出部(330)は、複数の画像フレーム(F0)の、時間軸の方向(Y1)に並ぶ複数の特定領域(A1)において、被写体(H1)の頭部(50)を示す頭部領域(A2)以外の領域における画素値の変化から、ペット(5)の全身又は一部の動きに対応する1又は複数の画素領域(Px1)を検出する。第6の態様によれば、動きの検出に関する信頼性が向上され、結果的に、ペット(5)の状況に関する推定の信頼性を向上できる。
 第7の態様に係るペット状況推定システム(1,1A)に関して、第1~第6の態様のいずれか1つにおいて、領域検出部(32)は、学習済みモデル(第3モデルM3)に基づいて、被写体(H1)の頭部(50)を示す頭部領域(A2)を検出する。学習済みモデル(第3モデルM3)は、所定の種類のペット(5)の頭部(50)について画像認識するためにその外観要因を学習したものである。第7の態様によれば、頭部領域(A2)の検出に関する信頼性が向上され、結果的に、ペット(5)の状況に関する推定の信頼性を向上できる。
 第8の態様に係るペット状況推定システム(1,1A)は、第1~第7の態様のいずれか1つにおいて、記憶部(37)を更に備える。記憶部(37)は、推定部(34)の推定結果と、上記推定結果の基となった複数の画像フレーム(F0)のうち少なくとも1つの画像フレーム(F0)が撮像された撮像時間とを紐づけたイベント情報を記憶する。第8の態様によれば、ペット(5)の状況をより把握しやすくすることができる。
 第9の態様に係るペット状況推定システム(1,1A)は、第8の態様において、ダイジェスト作成部(38)を更に備える。ダイジェスト作成部(38)は、記憶部(37)に記憶される1又は複数のイベント情報に基づいて、動画データ(G1)に関するダイジェスト情報を作成する。第9の態様によれば、ダイジェスト情報を通じてより簡単にペット(5)の状況を把握できる。
 第10の態様に係るペット状況推定システム(1,1A)に関して、第1~第9の態様のいずれか1つにおいて、領域検出部(32)は、姿勢判定部(331)を含み、複数の画像フレーム(F0)において、ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデル(第1モデルM1)に基づいて、特定の姿勢を取っているペット(5)の特定領域(A1)を検出する。第10の態様によれば、ペット(5)の状況をより把握しやすくすることができる。
 第11の態様に係るペットカメラ(100)は、第1~第10の態様のいずれか1つにおけるペット状況推定システム(1,1A)と、動画データ(G1)を撮像する撮像部(2)と、を備える。第11の態様によれば、ペット(5)の状況を把握しやすくすることが可能なペットカメラ(100)を提供できる。
 第12の態様に係るサーバ(7)は、第1~第10の態様のいずれか1つにおけるペット状況推定システム(1,1A)における姿勢判定部(331)、動き検出部(330)、及び推定部(34)が設けられたペットカメラ(100)と通信可能である。サーバ(7)には、フレーム抽出部(31)及び領域検出部(32)が設けられている。第12の態様によれば、ペット(5)の状況を把握しやすくすることが可能なサーバ(7)を提供できる。
 第13の態様に係るサーバ(7)は、第1~第10の態様のいずれか1つにおけるペット状況推定システム(1,1A)におけるフレーム抽出部(31)及び領域検出部(32)が設けられたペットカメラ(100)と通信可能である。サーバ(7)には、姿勢判定部(331)、動き検出部(330)、及び推定部(34)が設けられている。第13の態様によれば、ペット(5)の状況を把握しやすくすることが可能なサーバ(7)を提供できる。
 第14の態様に係るペット状況推定方法は、フレーム抽出ステップと、ペット検出ステップと、姿勢判定ステップと、動き検出ステップと、推定ステップと、を含む。フレーム抽出ステップでは、動画データ(G1)から、各々が被写体(H1)としてペット(5)が存在し得る静止画であり時間軸の方向(Y1)に並ぶ複数の画像フレーム(F0)を抽出する。ペット検出ステップでは、複数の画像フレーム(F0)において、ペット(5)の容姿の少なくとも一部を示す特定領域(A1)を検出する。姿勢判定ステップでは、学習済みモデル(第1モデルM1)と、複数の画像フレーム(F0)のうち少なくとも1つの画像フレーム(F0)とに基づいて、ペット(5)の姿勢を判定する。学習済みモデル(第1モデルM1)は、ペットの姿勢について画像認識するためにペットの姿勢について学習したものである。動き検出ステップでは、時間軸の方向(Y1)に並ぶ複数の特定領域(A1)における画素値の変化に基づき、ペット(5)の全身又は一部の動きに対応する1又は複数の画素領域(Px1)を検出する。推定ステップでは、姿勢判定ステップの判定結果と、動き検出ステップの検出結果とに基づいて、動画データ(G1)内に写るペット(5)の感情及び行動の少なくとも一方に関するペット状況を推定する。第14の態様によれば、ペット(5)の状況を把握しやすくすることが可能なペット状況推定方法を提供できる。
 第15の態様に係るプログラムは、1以上のプロセッサに、第14の態様におけるペット状況推定方法を実行させるためのプログラムである。第15の態様によれば、ペット(5)の状況を把握しやすくすることが可能な機能を提供できる。
 第2~10の態様に係る構成については、ペット状況推定システム(1,1A)に必須の構成ではなく、適宜省略可能である。
 100 ペットカメラ
 1,1A ペット状況推定システム
 2 撮像部
 31 フレーム抽出部
 32 領域検出部
 330 動き検出部
 331 姿勢判定部
 34 推定部
 37 記憶部
 38 ダイジェスト作成部
 5 ペット
 50 頭部
 7 サーバ
 9 条件情報
 A1 特定領域
 A2 頭部領域
 F0 画像フレーム
 G1 動画データ
 H1 被写体
 M1~M3 第1モデル~第3モデル(学習済みモデル)
 Px1 画素領域
 R1 基準領域
 Y1 時間軸の方向

Claims (15)

  1.  動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出するフレーム抽出部と、
     前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出する領域検出部と、
     ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも1つの画像フレームとに基づいて、前記ペットの姿勢を判定する姿勢判定部と、
     前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する1又は複数の画素領域を検出する動き検出部と、
     前記姿勢判定部の判定結果と、前記動き検出部の検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定部と、
    を備える、
     ペット状況推定システム。
  2.  前記推定部は、前記姿勢判定部の判定結果と、前記動き検出部の検出結果と、ペットの特定の行動及び感情の少なくとも一方に関連する条件情報とに基づいて、前記ペット状況を推定する、
     請求項1に記載のペット状況推定システム。
  3.  前記動き検出部は、前記1又は複数の画素領域に関する特徴量と、ペットの所定部位の動きに対応する所定の特徴量とを比較することで、複数の前記特定領域における前記動きが、前記所定部位の動きであると推定する、
     請求項1又は2に記載のペット状況推定システム。
  4.  前記所定部位は、ペットの尻尾である、
     請求項3に記載のペット状況推定システム。
  5.  前記領域検出部は、所定の種類のペットについて画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記特定領域を検出する、
     請求項1~4のいずれか1項に記載のペット状況推定システム。
  6.  前記動き検出部は、前記複数の画像フレームの、前記時間軸の方向に並ぶ複数の前記特定領域において、前記被写体の頭部を示す頭部領域以外の領域における画素値の変化から、前記ペットの全身又は一部の動きに対応する前記1又は複数の画素領域を検出する、
     請求項1~5のいずれか1項に記載のペット状況推定システム。
  7.  前記領域検出部は、所定の種類のペットの頭部について画像認識するためにその外観要因を学習した学習済みモデルに基づいて、前記被写体の頭部を示す頭部領域を検出する、
     請求項1~6のいずれか1項に記載のペット状況推定システム。
  8.  前記推定部の推定結果と、前記推定結果の基となった前記複数の画像フレームのうち少なくとも1つの画像フレームが撮像された撮像時間とを紐づけたイベント情報を記憶する記憶部を更に備える、
     請求項1~7のいずれか1項に記載のペット状況推定システム。
  9.  前記記憶部に記憶される1又は複数の前記イベント情報に基づいて、前記動画データに関するダイジェスト情報を作成するダイジェスト作成部を更に備える、
     請求項8に記載のペット状況推定システム。
  10.  前記領域検出部は、前記姿勢判定部を含み、前記複数の画像フレームにおいて、ペットの姿勢について画像認識するためにペットの姿勢について学習した前記学習済みモデルに基づいて、特定の姿勢を取っている前記ペットの前記特定領域を検出する、
     請求項1~9のいずれか1項に記載のペット状況推定システム。
  11.  請求項1~10のいずれか1項に記載のペット状況推定システムと、
     前記動画データを撮像する撮像部と、
    を備える、
     ペットカメラ。
  12.  請求項1~10のいずれか1項に記載のペット状況推定システムにおける前記姿勢判定部、前記動き検出部及び前記推定部が設けられたペットカメラと通信可能なサーバであって、
     前記フレーム抽出部、及び前記領域検出部が設けられている、
     サーバ。
  13.  請求項1~10のいずれか1項に記載のペット状況推定システムにおける前記フレーム抽出部、及び前記領域検出部が設けられたペットカメラと通信可能なサーバであって、
     前記姿勢判定部、前記動き検出部及び前記推定部が設けられている、
     サーバ。
  14.  動画データから、各々が被写体としてペットが存在し得る静止画であり時間軸の方向に並ぶ複数の画像フレームを抽出するフレーム抽出ステップと、
     前記複数の画像フレームにおいて、前記ペットの容姿の少なくとも一部を示す特定領域を検出するペット検出ステップと、
     ペットの姿勢について画像認識するためにペットの姿勢について学習した学習済みモデルと、前記複数の画像フレームのうち少なくとも1つの画像フレームとに基づいて、前記ペットの姿勢を判定する姿勢判定ステップと、
     前記時間軸の方向に並ぶ複数の前記特定領域における画素値の変化に基づき、前記ペットの全身又は一部の動きに対応する1又は複数の画素領域を検出する動き検出ステップと、
     前記姿勢判定ステップの判定結果と、前記動き検出ステップの検出結果とに基づいて、前記動画データ内に写る前記ペットの感情及び行動の少なくとも一方に関するペット状況を推定する推定ステップと、
    を含む、
     ペット状況推定方法。
  15.  1以上のプロセッサに、請求項14に記載のペット状況推定方法を実行させるためのプログラム。
PCT/JP2021/030653 2020-09-01 2021-08-20 ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム WO2022050092A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-147128 2020-09-01
JP2020147128 2020-09-01

Publications (1)

Publication Number Publication Date
WO2022050092A1 true WO2022050092A1 (ja) 2022-03-10

Family

ID=80490856

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/030653 WO2022050092A1 (ja) 2020-09-01 2021-08-20 ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2022050092A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115250939A (zh) * 2022-06-14 2022-11-01 新瑞鹏宠物医疗集团有限公司 宠物食盒防误食方法、装置、电子设备及存储介质
WO2023187865A1 (ja) * 2022-03-28 2023-10-05 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
CN117831253A (zh) * 2024-03-06 2024-04-05 长春汽车工业高等专科学校 一种基于图形识别的自动报警方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228274A (ja) * 2004-02-16 2005-08-25 Fuji Xerox Co Ltd 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
JP2009289230A (ja) * 2008-06-02 2009-12-10 Olympus Corp 画像処理装置、画像処理方法及び画像処理プログラム
CN106165655A (zh) * 2016-06-17 2016-11-30 深圳市沃特沃德股份有限公司 一种检测动物尾巴动作的方法和系统
JP2019058098A (ja) * 2017-09-26 2019-04-18 東芝情報システム株式会社 ペット・人の友交度測定装置及びペット・人の友交度測定用プログラム
JP2019091233A (ja) * 2017-11-14 2019-06-13 株式会社Jvcケンウッド 通知制御システム、通知制御方法およびプログラム
US20190174718A1 (en) * 2017-04-07 2019-06-13 Smaluet Solutions Private Limited Device and a method of learning a behavior of a pet in response to instructions provided to the pet
JP2020092714A (ja) * 2014-08-22 2020-06-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 電子機器、電子機器システム、及び機器制御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228274A (ja) * 2004-02-16 2005-08-25 Fuji Xerox Co Ltd 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
JP2009289230A (ja) * 2008-06-02 2009-12-10 Olympus Corp 画像処理装置、画像処理方法及び画像処理プログラム
JP2020092714A (ja) * 2014-08-22 2020-06-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 電子機器、電子機器システム、及び機器制御方法
CN106165655A (zh) * 2016-06-17 2016-11-30 深圳市沃特沃德股份有限公司 一种检测动物尾巴动作的方法和系统
US20190174718A1 (en) * 2017-04-07 2019-06-13 Smaluet Solutions Private Limited Device and a method of learning a behavior of a pet in response to instructions provided to the pet
JP2019058098A (ja) * 2017-09-26 2019-04-18 東芝情報システム株式会社 ペット・人の友交度測定装置及びペット・人の友交度測定用プログラム
JP2019091233A (ja) * 2017-11-14 2019-06-13 株式会社Jvcケンウッド 通知制御システム、通知制御方法およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023187865A1 (ja) * 2022-03-28 2023-10-05 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
CN115250939A (zh) * 2022-06-14 2022-11-01 新瑞鹏宠物医疗集团有限公司 宠物食盒防误食方法、装置、电子设备及存储介质
CN115250939B (zh) * 2022-06-14 2024-01-05 新瑞鹏宠物医疗集团有限公司 宠物食盒防误食方法、装置、电子设备及存储介质
CN117831253A (zh) * 2024-03-06 2024-04-05 长春汽车工业高等专科学校 一种基于图形识别的自动报警方法及系统
CN117831253B (zh) * 2024-03-06 2024-05-07 长春汽车工业高等专科学校 一种基于图形识别的自动报警方法及系统

Similar Documents

Publication Publication Date Title
WO2022050092A1 (ja) ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
WO2022050093A1 (ja) ペット状況推定システム、ペットカメラ、サーバ、ペット状況推定方法、及びプログラム
US9736361B2 (en) Assisted text input for computing devices
CN108352174B (zh) 用于图像处理的电子设备、存储设备和方法
US20170185276A1 (en) Method for electronic device to control object and electronic device
KR102022883B1 (ko) 애완동물의 행태와 감정을 보여주는 그래픽 사용자 인터페이스 제공 방법 및 장치
US20190286908A1 (en) Mobile image pickup system, learning method, mobile image pickup apparatus, information acquisition control apparatus, information acquisition control method and recording medium storing information acquisition control program
CN104969205A (zh) 用于在通信中基于上下文的媒体的自适应选择和呈现的系统
JP2009265827A (ja) 対象物検出装置及び方法、対象物検出システム、プログラム
US11495103B2 (en) Monitoring apparatus and system
US11910784B2 (en) Animal visual identification, tracking, monitoring and assessment systems and methods thereof
WO2023279697A1 (zh) 宠物看护方法、装置、电子设备及存储介质
CN109581886A (zh) 设备控制方法、装置、系统及存储介质
CN107122743A (zh) 安防监控方法、装置和电子设备
Chen et al. Monitoring the behaviours of pet cat based on YOLO model and raspberry Pi
CN105590306B (zh) 相片日记
US20210279273A1 (en) System and method for using an image to obtain search results
CN104281428B (zh) 信息处理设备和方法
JP2022070805A (ja) プログラム、情報処理装置及び方法
KR20210131324A (ko) 정보 처리 장치 및 정보 처리 방법
EP3244293B1 (en) Selection option information presentation system and method
JP2020113876A (ja) 監視装置、監視システムおよび自動ドア装置
WO2023113149A1 (en) Method and electronic device for providing augmented reality recommendations
US20230186624A1 (en) Method and electronic device for providing augmented reality recommendations
US20230055329A1 (en) Systems and methods for dynamic choice filtering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21864150

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21864150

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP