WO2020008995A1 - 画像認識プログラム、画像認識装置、学習プログラム、および学習装置 - Google Patents

画像認識プログラム、画像認識装置、学習プログラム、および学習装置 Download PDF

Info

Publication number
WO2020008995A1
WO2020008995A1 PCT/JP2019/025610 JP2019025610W WO2020008995A1 WO 2020008995 A1 WO2020008995 A1 WO 2020008995A1 JP 2019025610 W JP2019025610 W JP 2019025610W WO 2020008995 A1 WO2020008995 A1 WO 2020008995A1
Authority
WO
WIPO (PCT)
Prior art keywords
target object
image
detection unit
learning
object detection
Prior art date
Application number
PCT/JP2019/025610
Other languages
English (en)
French (fr)
Inventor
智也 岡▲崎▼
一谷 修司
辰也 佐々木
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Priority to JP2020528829A priority Critical patent/JP7314939B2/ja
Publication of WO2020008995A1 publication Critical patent/WO2020008995A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an image recognition program, an image recognition device, a learning program, and a learning device.
  • Japan's life expectancy has been remarkably prolonged due to the improvement of living standards, improvement of sanitary conditions, and improvement of medical care standards following the postwar economic growth. For this reason, coupled with a decrease in the birth rate, the aging society has a high aging rate. In such an aging society, an increase in the number of care-requirers and the like who need to take care of care and the like due to illness, injury, and aging is expected.
  • ⁇ ⁇ Care recipients may fall down while walking or fall out of bed and get injured in facilities such as hospitals and welfare facilities for the elderly. Therefore, a system for detecting the condition of a person requiring care or the like from a captured image so that staff such as a caregiver or a nurse can immediately rush to the care recipient or the like in such a state. Is being developed. In order to detect the state of a care recipient or the like in such a system, it is necessary to detect a target object (a target person or the like) to be detected from a captured image with high accuracy.
  • a target object a target person or the like
  • Patent Document 1 discloses the following technique.
  • a feature map is generated from the captured image using a deep neural network.
  • a candidate rectangle which is a region where an object is presumed to be present, is detected.
  • a target object is detected by calculating a reliability score for each candidate category for each candidate rectangle.
  • the target object can be detected with high accuracy and high speed.
  • Patent Document 1 learns a deep neural network using teacher data collected in advance. For this reason, if an image that was not present in a portion other than the target object of the captured image used for learning as teacher data appears in a portion other than the target object of the captured image in which the target object is to be detected, erroneous detection of the target object is performed. There is a problem that may occur.
  • the present invention has been made to solve such a problem.
  • an image that was not present in a portion other than the target object of the captured image used for learning as teacher data appears in a portion other than the target object of the captured image in which the target object is to be detected, erroneous detection of the target object
  • the target object detection unit calculates a reliability score from the feature map by the target object detection unit to detect the target object (d), and the target object is located in a target region for detecting the target object.
  • the target object detection unit is learned using a first image that is not reflected, and teacher data of a combination of a correct answer of the detection result of the target object with respect to the second image and the second image.
  • Image recognition program for procedure (e) the process having to execute the computer.
  • the target object detection unit is configured to execute the first The image recognition program according to the above (1) or (2), further learning using an image and the teacher data.
  • the method further includes a step (f) of estimating a level of the fitness of the second image with respect to the first image, and the step (e) is estimated to have the high fitness in the step (f).
  • the image recognition program according to any one of (1) to (3), wherein the image recognition program is used to make the target object detection unit learn.
  • the target object detection section before learning of the target object detection section by the target object detection section.
  • the above (1) to ((g) further including a step (g) of determining whether to update the parameter to the parameter of the target object detection unit after learning by the step (e) of the target object detection unit.
  • step (g) the accuracy of the behavior estimated based on the detection result of the target object in the step (d) after the target object detection unit has been learned in the step (e).
  • a predetermined criterion the joint point estimated based on the detection result of the target object when the shape of the output rectangle including the target object output as the detection result of the target object satisfies the predetermined criterion.
  • Image recognition program it is determined that the update of the parameter of the target object detection unit to the parameter of the target object detection unit after learning of the object detection unit is determined.
  • the step (g) is based on the second image included in the teacher data after the target object detection unit has been learned in the step (e). And the detection accuracy based on a comparison between the detection result and the correct answer of the detection result included in the teacher data, and the procedure based on the second image included in the teacher data before the target object detection unit is learned. Comparing the detection result of the target object according to (d) with a detection accuracy obtained by comparing a correct answer of the detection result included in the teacher data, and based on the comparison result, the parameter of the target object detection unit, The image recognition program according to (5), wherein it is determined whether to update the parameter of the target object detection unit after learning of the object detection unit.
  • an acquisition unit that acquires a captured image; a feature map generation unit that generates a feature map from the acquired image; an object detection unit that detects an object from the generated feature map; By calculating the reliability score of the target object with respect to the target object from the feature map, the target object detection unit that detects the target object, and the target object in the target region for detecting the target object
  • An image comprising: a first image that is not shown; and a learning unit that learns the target object detection unit by using teacher data of a combination of a second image and a correct answer of the detection result of the target object with respect to the second image.
  • the learning unit after learning the feature map generation unit, the object detection unit, and the target object detection using the teacher data, sets the target object detection unit to the first image and the teacher The image recognition device according to the above (8) or (9), further learning using data.
  • the image processing apparatus further includes an estimating unit that estimates the degree of fitness of the second image with respect to the first image, wherein the learning unit estimates the second image estimated to have high fitness by the estimating unit.
  • the target object is selected by using the selected teacher data of the selected teacher data and the combination of the selected second image and the correct answer of the detection result of the target object with respect to the second image, and the first image.
  • the image recognition device according to any one of (8) to (10), wherein the image recognition device causes the detection unit to learn.
  • the parameter of the target object detection unit before learning by the target object detection unit On the basis of the result of detection of the target object by the target object detection unit before and after the learning of the object detection unit by the learning unit, the parameter of the target object detection unit before learning by the target object detection unit:
  • the image recognition device according to any one of (8) to (11), further including a determination unit configured to determine whether to update the parameter of the target object detection unit after learning of the target object detection unit.
  • the accuracy of the behavior estimated based on the detection result of the target object by the target object detection unit after the learning of the target object detection unit by the learning unit is based on a predetermined criterion. If the condition is satisfied, if the output rectangle including the target object output as the result of detection of the target object satisfies a predetermined criterion, the position of the joint point estimated based on the result of detection of the target object is a predetermined criterion.
  • the determination unit includes a detection result of the target object by the target object detection unit based on the second image included in the teacher data after the target object detection unit is learned by the learning unit.
  • a detection accuracy based on a comparison with a correct answer of a detection result included in the teacher data, and the target based on the second image included in the teacher data before the learning unit learns the target object detection unit.
  • the image recognition device according to (12), wherein it is determined whether to update the parameter of the target object detection unit after learning of the object detection unit.
  • an acquisition unit for acquiring a captured image; a feature map generation unit for generating a feature map from the acquired image; an object detection unit for detecting an object from the generated feature map;
  • a target object detection unit that detects the target object, by calculating a reliability score of the target object for the target object from the feature map, a program for learning an image recognition device, Using a first image in which the target object is not reflected in a target area for detecting the target object, and teacher data of a combination of a correct answer of the target object detection result with respect to a second image and the second image.
  • a learning program for causing a computer to execute a procedure for learning the target object detection unit.
  • an acquisition unit for acquiring a captured image; a feature map generation unit for generating a feature map from the acquired image; an object detection unit for detecting an object from the generated feature map;
  • a learning device for learning an image recognition device comprising: a target object detection unit that detects the target object by calculating, from the feature map, a reliability score of the target object obtained from the feature map. Using a first image in which the target object is not reflected in a target area for detecting the target object, and teacher data of a combination of a second image and a correct answer of the target object detection result with respect to the second image.
  • a learning device having a learning unit for learning the target object detecting unit.
  • a target object detection unit that detects a target object by calculating a reliability score for the target object from the feature map includes a first image in which the target object is not reflected, a second image,
  • the learning is performed using the teacher image of the combination of the correct answer of the detection result of the target object with respect to the second image.
  • FIG. 1 is a diagram illustrating a schematic configuration of an image recognition system including an image recognition device.
  • FIG. 2 is a block diagram illustrating a hardware configuration of the image recognition device.
  • FIG. 3 is a block diagram illustrating functions of a control unit of the image recognition device.
  • FIG. 9 is a diagram illustrating a detection result of a candidate rectangle by a candidate rectangle detection unit. It is a figure showing the calculation result of the reliability score by the reliability score calculation part.
  • FIG. 9 is a diagram illustrating a detection result of an output rectangle by a determination unit. It is explanatory drawing which shows the example of the estimated joint point.
  • FIG. 4 is a diagram illustrating an example of a target area. It is a figure showing other examples of an object field.
  • FIG. 9 is an explanatory diagram for describing captured images having different reference images.
  • FIG. 9 is an explanatory diagram for describing captured images having different reference images.
  • 5 is a flowchart illustrating an operation of the image recognition device.
  • FIG. 1 is a diagram showing a schematic configuration of an image recognition system including the image recognition device according to the embodiment.
  • the image recognition system 10 includes an image recognition device 100, a photographing device 200, a communication network 300, and a mobile terminal 400.
  • the image recognition device 100 is communicably connected to the imaging device 200 and the portable terminal 400 via a communication network 300.
  • a target object is an object that is to be detected by the image recognition device 100.
  • the target object may include a plurality of categories.
  • the category is a type of an object that can be recognized by the image recognition apparatus 100, and includes a person, a bed, a desk, a chair, a walker, and the like.
  • the category includes the type of an object other than the target object.
  • the target object is the target person 50 (that is, a person).
  • the image recognition device 100 receives an image captured by the image capturing device 200 (hereinafter, simply referred to as a “photographed image 250” (see FIG. 4 and the like)) from the image capturing device 200, and includes a subject 500 included in the captured image 250. Is detected as a target object. As described later, the image recognition device 100 detects the target person 500 by detecting a region where the object (object) exists on the captured image 250 and estimating a category of the object included in the detected region. The region where the object exists is detected on the captured image 250 as a rectangle including the object (hereinafter, the rectangle is referred to as a “candidate rectangle 253” (see FIG. 4 and the like)).
  • the candidate rectangles 253 By detecting candidate rectangles 253 whose object category is estimated to be a person (hereinafter, the candidate rectangles 253 are referred to as “output rectangles 254” (see FIG. 6 and the like)) among the detected candidate rectangles 253.
  • the target person 500 is detected.
  • the image recognition device 100 can further detect the posture and the behavior of the subject 500 based on the output rectangle 254.
  • an event related to the subject 500 can be detected from the estimated behavior.
  • the event is a change in the state of the target person 70 recognized by the image recognition device 100 or the like. For example, the event is reported (notified) to the staff 80 such as wake-up, leaving the bed, falling, falling, and abnormal body movement. It should be an event.
  • the image recognition device 100 When detecting an event, the image recognition device 100 transmits an event notification for notifying the content of the event to the mobile terminal 400.
  • the image recognition device 100 can detect the subject 500 by a deep neural network (hereinafter, referred to as “DNN”). Examples of the method of detecting the target object by the DNN include known methods such as Fat @ R-CNN, Fast @ R-CNN, and R-CNN.
  • the image recognition apparatus 100 will be described as an example in which the target person 500 is detected using the Faster @ R-CNN.
  • the image recognition device 100 is configured by a computer.
  • the image recognition device 100 can be configured as a server.
  • the imaging device 200 is configured by, for example, a near-infrared camera, and is installed at a predetermined position, and shoots an imaging region that is viewed from the predetermined position as a viewpoint.
  • the imaging device 200 emits near-infrared light toward an imaging region by an LED (Light Emitting Device), and receives near-infrared reflected light reflected by an object in the imaging region by a CMOS (Complementary Metal Oxide Semiconductor) sensor. Can be used to photograph the photographing area.
  • the photographed image 250 can be a monochrome image in which the near-infrared reflectance is each pixel.
  • the predetermined position is, for example, the ceiling of the room of the subject 500.
  • the imaging region is a three-dimensional region including the entire floor of the living room, for example.
  • the description will be given on the assumption that the imaging device 200 is installed on the ceiling of the room of the subject 500 and the image recognition device 100 detects the subject 500 existing in the three-dimensional imaging region including the entire floor of the living room.
  • the room where the target person 500 is detected which is an area where the target person 500 is detected after shipment of the image recognition device 100 and the like, is referred to as a “new facility”.
  • the image capturing apparatus 200 can capture an image of a shooting area as a moving image having a frame rate of, for example, 15 fps to 30 fps.
  • the captured image 250 includes a moving image and a still image.
  • the photographing device 200 transmits the photographed image 250 to the image recognition device 100 or the like.
  • the imaging device 200 can be configured by a sensor box having a computer.
  • the sensor box is a box-shaped device including a near-infrared camera, a body motion sensor, and the like. In this case, some or all of the functions of the image recognition device 100 may be included in the sensor box.
  • the body motion sensor is a Doppler shift type sensor that transmits and receives microwaves to and from the bed and detects Doppler shift of microwaves caused by body motion (for example, respiratory motion) of the subject 500.
  • a network interface based on a wired communication standard such as Ethernet (registered trademark) can be used for the communication network 300.
  • the communication network 300 may use a network interface based on a wireless communication standard such as Bluetooth (registered trademark) and IEEE 802.11.
  • An access point 310 is provided in the communication network 300, and connects the mobile terminal 400 and the image recognition device 100 and the imaging device 200 so as to be able to communicate with each other via a wireless communication network.
  • the mobile terminal 400 receives the event notification from the image recognition device 100 and displays the content of the event notification.
  • the portable terminal 400 receives the detection result of the subject 500 detected by the image recognition device 100 from the image recognition device 100 and displays the result.
  • the portable terminal 400 can display the detection result of the target person 500 by displaying the output rectangle 254 on the captured image 250.
  • the mobile terminal 400 can receive and display the detection result of the posture and the behavior of the target person 500 from the image recognition device 100.
  • the detection result of the posture includes an estimation result of the joint point 119 (see FIG. 7) of the subject 500, as described later.
  • the detection result of the behavior includes a detection result of a behavior corresponding to an event such as wake-up, wake-up, fall, fall, and abnormal body movement, and a detection result of behavior such as entering a room, sleeping, and sitting.
  • the detection result of the action may be received and included in the event notification.
  • the mobile terminal 400 can receive and display the captured image 250 from the imaging device 200 or the image recognition device 100.
  • the mobile terminal 400 is configured by, for example, a smartphone.
  • FIG. 2 is a block diagram showing a hardware configuration of the image recognition device.
  • the image recognition device 100 includes a control unit 110, a storage unit 120, a display unit 130, an input unit 140, and a communication unit 150. These components are interconnected via a bus 160.
  • the control unit 110 is configured by a CPU (Central Processing Unit), and performs control and arithmetic processing of each unit of the image recognition apparatus 100 according to a program. Details of the function of the control unit 110 will be described later.
  • CPU Central Processing Unit
  • the storage unit 120 may be constituted by a RAM (Random Access Memory), a ROM (Read Only Memory), and an SSD (Solid State Drive).
  • the RAM temporarily stores programs and data as a work area of the control unit 110.
  • the ROM stores various programs and various data in advance.
  • the SSD stores various programs including the operation system and various data.
  • the display unit 130 is, for example, a liquid crystal display, and displays various information.
  • the input unit 140 includes, for example, a touch panel and various keys.
  • the input unit 140 is used for various operations and inputs.
  • the communication unit 150 is an interface for communicating with an external device.
  • a network interface based on standards such as Ethernet (registered trademark), SATA, PCI @ Express, USB, and IEEE1394 can be used.
  • a wireless communication interface such as Bluetooth (registered trademark), IEEE 802.11, or 4G may be used for communication.
  • the communication unit 150 receives the captured image 250 from the imaging device 200.
  • the communication unit 150 transmits the event notification to the mobile terminal 400.
  • the communication unit 150 transmits the detection result of the target person 500 from the captured image 250 to the mobile terminal 400.
  • communication unit 150 may transmit a detection result of the posture and behavior of target person 500 to portable terminal 400.
  • control unit 110 The details of the function of the control unit 110 will be described.
  • FIG. 3 is a block diagram showing functions of the control unit of the image recognition device.
  • the control unit 110 includes an image acquisition unit 111, a feature map generation unit 112, a candidate rectangle detection unit 113, an output rectangle detection unit 114, a joint point estimation unit 115, a behavior estimation unit 116, an output unit 117, and a learning unit 118.
  • the image acquisition unit 111 constitutes an acquisition unit.
  • the candidate rectangle detection unit 113 forms an object detection unit.
  • the output rectangle detection unit 114 constitutes a target object detection unit.
  • the learning unit 118 forms a learning device.
  • Control unit 110 further configures an estimation unit and a determination unit.
  • the image acquisition unit 111 acquires the captured image 250 received from the imaging device 200 via the communication unit 150.
  • the feature map generation unit 112 is configured by the DNN, and generates a feature map in which pixel features are extracted by a convolution operation of the captured image 250.
  • the candidate rectangle detection unit 113 is configured by DNN, and detects, as a candidate rectangle 253, a region where an object is present on the captured image 250 from the feature map.
  • the candidate rectangle detection unit 113 can detect the candidate rectangle 253 by a known technique using DNN such as Faster @ R-CNN.
  • the candidate rectangle detection unit 113 may detect, as a candidate rectangle 253, only a region (rectangle) whose size or aspect ratio is within a predetermined threshold range among regions (rectangles) where an object exists.
  • the predetermined threshold range can be obtained by an experiment, for example, as a range of the size or aspect ratio of the candidate rectangle 253 in which the object included in the candidate rectangle 253 is likely to be a person.
  • FIG. 4 is a diagram illustrating a result of detecting a candidate rectangle by the candidate rectangle detection unit.
  • the output rectangle detection unit 114 has a reliability score calculation unit 114a and a determination unit 114b.
  • the reliability score calculation unit 114a is configured by DNN, and calculates a reliability score for each predetermined category for each candidate rectangle 253. That is, the reliability score regarding a predetermined category including the person who is the target object is calculated.
  • the reliability score is a likelihood regarding the target object.
  • the reliability score calculation unit 114a can calculate the reliability score by a known technique using DNN such as Faster @ R-CNN.
  • the predetermined category may be, for example, people, chairs, and equipment.
  • FIG. 5 is a diagram illustrating a result of calculating a reliability score by the reliability score calculation unit.
  • the reliability scores of the predetermined categories of people, chairs, and devices are 0.9 and 0, respectively. ., 0.0.
  • the determination unit 114b determines, for each candidate rectangle 253, whether the category having the highest reliability score is a person. Then, the candidate rectangle 253 in which the category having the highest reliability score is a person is detected as the output rectangle 254. The determination unit 114b may detect, as the output rectangle 254, the candidate rectangle 253 in which the reliability score regarding the person exceeds 0.5. Note that the sum of the reliability scores calculated for each of the predetermined categories for one candidate rectangle 253 is 1.
  • FIG. 6 is a diagram showing a detection result of the output rectangle by the determination unit.
  • the candidate rectangle 253 in which the category having the highest reliability score is a person is detected as the output rectangle 254. That is, the subject 500 is detected as the output rectangle 254 including the subject 500.
  • the joint point estimating unit 115 estimates the joint point 119 as the posture of the subject 500 based on the output rectangle 254, and outputs the joint point 119 to the action estimating unit 116 as a detection result of the joint point 119.
  • the joint point estimating unit 115 can estimate the joint point 119 based on the output rectangle 254 by a known method using DNN.
  • FIG. 7 is an explanatory diagram showing an example of an estimated joint point.
  • the joint point 119 is shown superimposed on the output rectangle 254 (that is, a part of the captured image 250), and the position of the joint point 119 is shown by a white circle.
  • the joint points 119 include, for example, head, neck, shoulder, elbow, hand, hip, thigh, knee, and foot joint points 119.
  • FIG. 9 it can be recognized that the subject 500 is in a sitting posture from the relative positional relationship between the joint points 119.
  • the action estimation unit 116 estimates the action of the subject 500 based on the joint points 119 estimated by the joint point estimation unit 115, and outputs the action to the output unit 117 as a detection result of the action of the subject 500.
  • the action estimating unit 116 can estimate the action of the subject 500 based on a temporal change of the joint point 119 estimated from the plurality of captured images 250.
  • the behavior estimating unit 116 may, for example, based on a relative position relationship between the output rectangle 254 or the joint point 119 and a range on the captured image set in advance as a range corresponding to a bed installed in a new facility.
  • the behavior estimation unit 116 determines the behavior of the subject 500 "Fallover" can be estimated as
  • the output unit 117 outputs the output rectangle 254 detected by the output rectangle detection unit 114, the joint point 119 of the subject 500 detected by the joint point estimation unit 115, and the target rectangle 500 detected by the behavior estimation unit 116. Output actions.
  • the learning unit 118 makes the feature map generation unit 112, the candidate rectangle detection unit 113, and the reliability score calculation unit 114a learn.
  • the learning updates the parameters of the DNN of the feature map generator 112, the candidate rectangle detector 113, and the reliability score calculator 114a.
  • the learning is performed in two stages: advance learning and adjustment learning.
  • the pre-learning is performed on the feature map generation unit 112, the candidate rectangle detection unit 113, and the reliability score calculation unit 114a, for example, before shipping the image recognition device 100.
  • the pre-learning is performed by an error back propagation method.
  • the pre-learning is performed using a relatively large amount of teacher data.
  • the teacher data includes a combination of the captured image 250 and the correct answer of the detection result of the target object with respect to the captured image 250.
  • the captured image associated with the correct answer of the detection result of the target object is hereinafter referred to as a “second image”.
  • the adjustment learning is performed only for the reliability score calculation unit 114a, for example, when the image recognition system 10 is installed to detect the subject 500 in a new facility after the image recognition device 100 is shipped. It is. In other words, the adjustment learning is performed in the room of the subject 500 in which the image capturing area of the imaging device 200 is to be actually detected by the image recognition system 10. Adjustment learning is performed by an error back propagation method. At this time, for example, with respect to the DNN parameters of the feature map generation unit 112 and the candidate rectangle detection unit 113, the learning rate is 0, and the parameters of the batch normalization are fixed. For the DNN parameter of the reliability score calculation unit 114a, the learning rate is set to a value larger than 0.
  • the teacher data used in the pre-learning and a captured image in which the target person 500 (target object) is not shown in a target area for detecting the target person 500 (hereinafter, referred to as a “first image”)
  • the target area is, for example, an area imaged by the imaging device 200 in a state where the image recognition system 10 is installed in a room or the like of the target person 500.
  • the target region may be a region excluding a region in which the target person 500 is not detected among the regions photographed by the photographing device 200. That is, in the adjustment learning, learning using the teacher data used in the pre-learning and learning using the first image are performed.
  • a part of the teacher data used for the pre-learning may be selected and used, as described later.
  • learning using the first image is performed using teacher data of a combination of the first image and a correct answer of a detection result indicating that the target object is not detected.
  • FIG. 8 is a diagram showing an example of a target area.
  • FIG. 9 is a diagram showing another example of the target area.
  • an area where the area occupied by the bed (the area shown by the gray rectangle) is excluded from the area occupied by the entire floor on the captured image 250 of the living room, which is a new facility, is set as the target area. ing. That is, the region occupied by the bed on the captured image 250 is masked, and is set as a region where the subject 500 is not detected.
  • the captured image 250 captured while the subject 500 is sleeping on the bed is used as the first image. Available.
  • The following is an example of a method for acquiring the first image.
  • the photographing apparatus 200 When the photographing apparatus 200 is installed in a new facility, the area occupied by the bed installed in the new facility on the photographed image 250 is estimated by the behavior estimating unit 116 so that the behavior of the subject 500 is estimated.
  • the setting is made by designating the four corners of the bed on the photographed image 250 by staff or the like.
  • the range on the captured image 250 corresponding to the floor of the living room, which is a new facility is set by specifying the four corners of the floor on the captured image 250.
  • the photographed image 250 photographed by the photographing device 200 can be used as the first image.
  • the imaging device 200 When the imaging device 200 is configured by a sensor box, sleep of the subject 500 is detected by a Doppler shift type body motion sensor provided in the sensor box.
  • the photographed image 250 in which the region occupied by the bed on the photographed image 250 set as described above is excluded from the photographed image 250. It can be obtained as one image.
  • the seating of the subject 500 on the chair is detected, and a preset chair is occupied on the captured image 250 from the captured image 250 captured while detecting the seating.
  • the captured image 250 in which the region has been excluded from the captured image 250 may be acquired as the first image.
  • the captured image 250 is stored in the storage unit 120, and the time stamp included in the data of the captured image 250 is compared with the action history of the subject 500 recorded in the nursing record stored in the storage unit 120. Then, the photographed image 250 may be selected while the target person 500 is out of the room for a meal and the new facility is vacant, and may be acquired as the first image.
  • the rising or leaving of the subject 500 may be detected by an algorithm different from the algorithm for detecting the behavior of the subject 500 by the functions of the output rectangle detection unit 114, the joint point estimation unit 115, and the behavior estimation unit 116. That is, for example, among the candidate rectangles 253 detected by the candidate rectangle detection unit 113, the candidate rectangle 253 having a high possibility of including the subject 500 (that is, “person”) is extracted based on the size and the aspect ratio. Good. Based on the overlap width between the extracted candidate rectangle 253 and the area occupied by the bed on the captured image 250 set as described above, the rising or leaving of the subject 500 is detected.
  • the captured image 250 captured immediately before the subject 500 wakes up or gets out of the bed that is, at a timing when there is a high possibility that the subject 500 is sleeping on the bed). May be selected and acquired as the first image.
  • the first image and the second image included in the teacher data may have different reference images.
  • the reference image is, for example, a background image.
  • FIGS. 10A and 10B are explanatory diagrams for describing captured images having different reference images.
  • FIG. 10A shows the second image
  • FIG. 10B shows a photographed image 250 photographed at a new facility.
  • the background, which is a portion other than the subject 500 or the like, of the captured image 250 captured at the new facility illustrated in the example of FIG. 10B corresponds to the background of the first image.
  • the background which is a portion other than the subject 500 etc. in FIG. 10A is different from the background which is a portion other than the subject 500 etc. in FIG. 10B.
  • the reference image may include an object (for example, a cat) other than the target object.
  • an object for example, a cat
  • the description will be made assuming that the reference image is a background image.
  • the reason for performing adjustment learning is as follows. That is, the background image of the photographed image 250 photographed by the photographing device 200 at the new facility is often different from the background image of the second image of the teacher data used for the pre-learning. For this reason, even if the detection accuracy of the target object (that is, “person”) with respect to the second image of the image recognition device 100 is high, the detection accuracy of the target person 500 with respect to the captured image 250 that is newly captured at a new facility is high. This is because the detection accuracy for the second image may be relatively reduced.
  • the adjustment learning is performed using the teacher data and the first image used in the pre-learning for the following reason. That is, by performing the adjustment learning using the first image and the teacher data used in the pre-learning, the detection accuracy of the subject 500 with respect to the second image included in the teacher data is maintained, and the adjustment in the new facility is performed. This is because a decrease in the detection accuracy of the subject 500 can be suppressed. Also, it is troublesome to prepare new teacher data of a combination of the captured image 250 and the correct answer of the detection result of the target object with respect to the captured image 250 in a new facility.
  • the first image is displayed by the technical staff or the like on the image 250 captured by the image capturing apparatus 200 on the position information of the object such as the bed in the living room. It is photographed in order to specify the information. For this reason, it is not necessary to acquire the captured image 250 only for adjustment learning, and it is possible to suppress the labor required for adjustment learning.
  • the reason why only the reliability score calculation unit 114a is learned in the adjustment learning is as follows. That is, the detection accuracy of the candidate rectangle 253 for the second image included in the teacher data used for the pre-learning by the feature map generation unit 112 and the candidate rectangle detection unit 113 is determined by the pre-learning using a relatively large amount of the teacher data. , Is relatively high. In the adjustment learning, when the feature map generator 112 and the candidate rectangle detector 113 are learned using the first image and the like, the detection accuracy of the candidate rectangle 253 for the second image by the feature map generator 112 and the candidate rectangle detector 113 is adjusted. Is more likely to be lower than at the end of the pre-learning. In addition, to suppress a decrease in the detection accuracy of the subject 500 with respect to the captured image 250 captured in the new facility, learning the reliability score calculation unit 114a using the teacher data and the first image used in the pre-learning. This is because it can be realized with.
  • FIG. 11 is a flowchart showing the operation of the image recognition device. This flowchart is executed by the control unit 110 according to a program stored in the storage unit 120.
  • the control unit 110 controls the feature map generation unit 112, the candidate rectangle detection unit 113, and the reliability score calculation unit 114a in advance based on the teacher data including the combination of the second image and the correct answer of the detection result of the target object with respect to the second image. Learning is performed (S101). This step can be performed before shipping the image recognition device 100.
  • control unit 110 acquires from the imaging device 200 by receiving the first image in which the subject 500 is not shown (S102).
  • the control unit 110 acquires the teacher data used for the pre-learning by reading from the storage unit 120, and estimates the degree of fitness of the second image with respect to the first image for each teacher data (S103).
  • the fitness of the second image to the first image is the similarity of the background image of the second image to the background image of the first image.
  • the degree of fitness of the second image with respect to the first image is estimated as follows. For example, with respect to the first image and the second image, histograms of the frequencies with respect to the luminance values of all the pixels are created, and the difference between the luminance values indicating the mode in the generated histograms of the first image and the second image, respectively. Is calculated. If the difference is equal to or smaller than a predetermined threshold, the fitness is estimated to be high. If the difference exceeds the predetermined threshold, the fitness is estimated to be low.
  • the predetermined threshold can be set to an appropriate value through experiments. Specifically, the relationship between the threshold and the detection accuracy of the subject 500 after performing the adjustment learning using the teacher data including the second image selected by setting the threshold is obtained by an experiment, and the detection accuracy is determined.
  • the second image having the similar floor color, wallpaper color, curtain color, or the like of the first image can be converted into the second image having the similarity to the first image. It can be estimated as a high second image.
  • the level of the adaptability of the second image to the first image may be estimated based on whether the amount of luggage in the living room in the second image is close to the amount of luggage in a new facility in the first image.
  • the control unit 110 displays the first image and the second image on the display unit 130, and allows the input unit 140 to select the user's selection of the second image in which the amount of luggage is close to the amount of luggage shown in the first image.
  • the adaptability of the received second image to the first image may be estimated to be high.
  • the target person 500 who uses the wheelchair or the walker is reflected when the target person 500 of the resident of the new facility uses a wheelchair or a walker. It may be determined that the image has a high fitness to the first image. Also, it is determined that the second image showing the subject 500 wearing the same material or color as the material or color of the nightwear of the subject 500 of the resident of the new facility has a high degree of adaptability to the first image. May be.
  • the control unit 110 displays the first image and the second image on the display unit 130, and accepts a user's selection through the input unit 140, so that the fitness of the received second image with respect to the first image is obtained. Is high.
  • the degree of the adaptability of the second image to the first image is determined by the height of the ceiling where the camera of the living room where the second image was photographed was installed and the photographing device 200 of the new facility where the first image was photographed.
  • the estimation may be based on whether the height is close to the height of the installed ceiling. Whether or not both are close can be determined based on whether or not the difference between them is equal to or less than a predetermined threshold.
  • the predetermined threshold may be set, for example, to any value between 5% and 20% of the ceiling height of the new facility.
  • the height of the ceiling where the camera of the living room where the second image was captured was installed is stored in advance in the storage unit 120 in association with the second image, and the storage unit 120 is stored together with the height of the ceiling of the new facility.
  • the information can be used by storing the information.
  • the degree of fitness of the second image with respect to the first image depends on the camera that has captured the second image, the type of lens of the camera constituting the imaging device 200 of the new facility where the first image has been captured, or the model number of the camera. May be estimated based on whether or not are the same.
  • These lens types or camera model numbers can be stored in the storage unit 120 in advance and used.
  • the control unit 110 selects the teacher data including a combination of the second image estimated to have high fitness for the first image and the correct answer of the detection result of the target object for the second image (S104).
  • the control unit 110 adjusts and learns the reliability score calculation unit 114a using the first image and the selected teacher data (S105).
  • the adjustment learning is performed using the teacher data including the combination of the second image having a high degree of adaptation to the first image and the correct answer of the detection result of the target object with respect to the second image. This is because the accuracy of detecting the subject 500 at the new facility can be efficiently improved by learning the reliability score calculation unit 114a with the teacher data including two images.
  • the parameters of the reliability score calculation unit 114a may be separately stored in the storage unit 120 for each room, and the parameters of the reliability score calculation unit 114a may be independently updated for each room. Then, for each living room, the target person 500 can be detected from the captured image using the parameters of the reliability score calculation unit 114a associated with the living room.
  • the photographing device 200 when the photographing device 200 is installed in each room of the facility, when a photographing area is set in each room, common adjustment learning for all the rooms may be performed. That is, a common adjustment learning may be performed using a plurality of first images respectively taken in all the rooms and the teacher data used for the pre-learning.
  • the parameters of the reliability score calculation unit 114a common to all the rooms are stored in the storage unit 120 and updated. Then, the target person 500 is detected from the captured image for each room using the parameter of the reliability score calculation unit 114a common to all the rooms.
  • the parameters of the reliability score calculation unit 114a may be different parameters for each time period of the day.
  • the parameters of the reliability score calculation unit 114a may be different parameters for morning, daytime, and night.
  • the parameter of the reliability score calculation unit 114a may be another parameter only for the light-off period.
  • the control unit 110 detects the target person 500 from the captured image at the new facility (S106).
  • the control unit 110 evaluates a detection result of detecting the target person 500 from the captured image. For example, after the adjustment learning, the control unit 110 determines the detection accuracy of the target person 500 (that is, “people”) based on the second image included in the teacher data used for the pre-learning, and the detection accuracy included in the teacher data. The detection accuracy is calculated by comparing the result with the correct answer. The control unit 110 compares the detection accuracy of the subject 500 based on the second image included in the teacher data used for the pre-learning with the correct answer of the detection result included in the teacher data before the adjustment learning. Is calculated. Then, the detection accuracy is compared, and it is determined whether to update the parameters of the reliability score calculation unit 114a after the adjustment learning based on the comparison result (S108).
  • the control unit 110 may determine whether to update the parameters of the reliability score calculation unit 114a after the adjustment learning as follows.
  • the reliability score calculation unit 114a after the adjustment learning is performed. May be determined to be updated.
  • the predetermined criterion is, for example, that in the behavior estimation result after adjustment learning with respect to the moving image corresponding to the fall and the non-fall stored in the storage unit 120, the behavior estimation accuracy for the fall is 100%, and May be improved by 5% or more than before the adjustment learning.
  • the control unit 110 updates the parameter of the reliability score calculation unit 114a after the adjustment learning.
  • the predetermined criterion is, for example, an average value ⁇ 3 ⁇ obtained by statistically processing the size and aspect ratio of the output rectangle 254, which is the correct answer of the detection result of the second image, included in the teacher data used in the pre-learning. May not be deviated in the detection result (output rectangle 254) of the subject 500 (ie, “person”) from all the second images.
  • the control unit 110 performs the adjustment learning. May be determined to be updated to the parameter of the reliability score calculation unit 114a.
  • the predetermined criterion may be, for example, that the position of the joint point 119 which is impossible as the human joint point 119 is not set.
  • the control unit 110 updates the parameters of the reliability score calculation unit 114a after the adjustment learning when the user determines via the input unit 140 that the output rectangle 254 displayed on the display unit 130 is acceptable. You may decide. When at least one of the above-described predetermined criteria is satisfied, the control unit 110 may determine to update the parameters of the reliability score calculation unit 114a after the adjustment learning.
  • control unit 110 determines to update the parameters of the reliability score calculation unit 114a after the adjustment learning (S108: YES)
  • the control unit 110 maintains the parameters of the reliability score calculation unit 114a in the state after the adjustment learning.
  • the target person 500 is detected (S109).
  • control unit 110 If the control unit 110 does not decide to update the parameters of the reliability score calculation unit 114a after the adjustment learning (S108: NO), the control unit 110 returns the parameters of the reliability score calculation unit 114a to the state before the adjustment learning, and The target person 500 is detected (S109).
  • a target object detection unit that detects a target object by calculating a reliability score for the target object from the feature map includes a first image in which the target object is not reflected, a second image,
  • the learning is performed using the teacher image of the combination of the correct answer of the detection result of the target object with respect to the second image.
  • the first image and the second image are images having different reference images.
  • the background or the like of the second image is different from the background or the like of the first image, occurrence of erroneous detection of the target object can be effectively suppressed.
  • the target object detection unit is further trained using the first image and the teacher data.
  • the level of the fitness of the second image with respect to the first image is estimated, and the teacher data of the combination of the second image estimated to have the high fitness and the correct answer of the detection result of the target object with respect to the second image,
  • the target object detection unit is learned using one image and. Thereby, the detection accuracy of the target object in the new facility can be efficiently improved.
  • the parameters of the target object detection unit before learning of the target object detection unit the parameters of the target object detection unit after adjustment learning of the target object detection unit Determines whether to decide to update the parameter. Accordingly, it is possible to determine whether or not the parameter of the target object detection unit can be updated in consideration of a change in the detection accuracy of the target object due to the adjustment learning.
  • an output rectangle including the target object output as the detection result of the target object When the shape of the object satisfies the predetermined criterion, when the position of the joint point estimated based on the detection result of the target object satisfies the predetermined criterion, and when the output rectangle is superimposed on the captured image and displayed on the display unit.
  • the update of the parameter of the target object detection unit to the parameter of the target object detection unit after the adjustment learning is determined. to decide.
  • the detection accuracy of the target object based on the second image included in the teacher data is compared with the correct answer of the detection result included in the teacher data.
  • the detection result of the target object based on the included second image is compared with the detection accuracy by comparison with the correct answer of the detection result included in the teacher data. Then, based on the comparison result, it is determined whether to update the parameters of the target object detection unit to the parameters after the adjustment learning.
  • the configuration of the image recognition system 10 described above describes the main configuration in describing the features of the above-described embodiment, and is not limited to the above-described configuration, and may be variously modified within the scope of the claims. it can. Also, this does not exclude the configuration of a general image recognition system.
  • the function of the image recognition device 100 may be provided in the imaging device 200 configured by the sensor box or the mobile terminal 400.
  • the image recognition device 100, the photographing device 200, and the mobile terminal 400 may each be configured by a plurality of devices, or any of the plurality of devices may be configured as a single device.
  • steps may be omitted from the flowchart described above, and other steps may be added. Further, some of the steps may be executed simultaneously, or one step may be divided into a plurality of steps and executed.
  • the target object is not limited to a person, and may include a plurality of categories such as cats and appliances.
  • the means and method for performing various processes in the image recognition system 10 described above can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital Versatile Disc) -ROM, or may be provided online via a network such as the Internet.
  • the program recorded on the computer-readable recording medium is usually transferred and stored in a storage unit such as a hard disk.
  • the above program may be provided as independent application software, or may be incorporated as one function into software of a device such as a detection unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

【課題】教師データの撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる画像認識プログラムを提供する。 【解決手段】撮影された画像を取得する手順(a)と、画像から特徴マップを生成する手順(b)と、特徴マップから物体を検出する手順(c)と、検出された物体の、対象物体に関する信頼度スコアを、対象物体検出部により、特徴マップから算出することで、対象物体を検出する手順(d)と、対象物体を検出するための対象領域に対象物体が映っていない第1画像と、第2画像および第2画像に対する対象物体の検出結果の正解の組み合わせの教師データと、を用いて対象物体検出部を学習させる手順(e)と、を有する処理を、コンピューターに実行させるためのプログラム。

Description

画像認識プログラム、画像認識装置、学習プログラム、および学習装置
 本発明は、画像認識プログラム、画像認識装置、学習プログラム、および学習装置に関する。
 我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。
 要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影画像から検知対象である対象物体(対象者等)を高精度で検出する必要がある。
 このような、撮影画像から対象物体を検出する技術に関連し、下記特許文献1には、次の技術が開示されている。ディープニューラルネットワークを用いて、撮影画像から特徴マップを生成する。特徴マップに基づいて、物体が存在すると推定される領域である候補矩形を検出する。そして、各候補矩形について物体のカテゴリーごとの信頼度スコアを算出することで、対象物体を検出する。これにより、撮影画像全体から生成した1つの特徴マップを利用して、候補矩形および信頼度スコアの両方の算出を行うことで、高精度かつ高速に対象物体を検出できる。
米国特許出願公開第2017/0206431号明細書
 しかし、特許文献1に開示された技術は、予め収集された教師データを用いてディープニューラルネットワークを学習する。このため、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合、対象物体の誤検出が発生する可能性があるという問題がある。
 本発明は、このような問題を解決するためになされたものである。すなわち、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる画像認識プログラム、画像認識装置、学習プログラム、および学習装置を提供することを目的とする。
 本発明の上記課題は、以下の手段によって解決される。
 (1)特徴マップ検出部、物体検出部、および対象物体検出部を有する画像認識装置を制御するためのプログラムであって、撮影された画像を取得する手順(a)と、取得された前記画像から、前記特徴マップ生成部により特徴マップを生成する手順(b)と、生成された前記特徴マップから、前記物体検出部により物体を検出する手順(c)と、検出された前記物体の、対象物体に関する信頼度スコアを、前記対象物体検出部により、前記特徴マップから算出することで、前記対象物体を検出する手順(d)と、前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順(e)と、を有する処理を、コンピューターに実行させるための画像認識プログラム。
 (2)前記第1画像と前記第2画像は、それぞれ基準画像が異なる画像である、上記(1)に記載の画像認識プログラム。
 (3)前記手順(e)は、前記特徴マップ生成部、前記物体検出部、および前記対象物体検出部を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第1画像と前記教師データとを用いてさらに学習させる、上記(1)または(2)に記載の画像認識プログラム。
 (4)前記第2画像の前記第1画像に対する適応度の高低を推定する手順(f)をさらに有し、前記手順(e)は、手順(f)において前記適応度が高いと推定された前記第2画像を選択し、前記教師データのうち、選択された前記第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第1画像と、を用いて前記対象物体検出部を学習させる、上記(1)~(3)のいずれかに記載の画像認識プログラム。
 (5)前記手順(e)により前記対象物体検出部を学習させる前後における前記手順(d)による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の前記手順(e)による学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する手順(g)をさらに有する、上記(1)~(4)のいずれかに記載の画像認識プログラム。
 (6)前記手順(g)は、前記手順(e)により前記対象物体検出部が学習された後における、前記手順(d)による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形の形状が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、上記(5)に記載の画像認識プログラム。
 (7)前記手順(g)は、前記手順(e)により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第2画像に基づく、前記手順(d)による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記対象物体検出部が学習される前における、前記教師データに含まれる前記第2画像に基づく、前記手順(d)による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、上記(5)に記載の画像認識プログラム。
 (8)撮影された画像を取得する取得部と、取得された前記画像から、特徴マップを生成する特徴マップ生成部と、生成された前記特徴マップから、物体を検出する物体検出部と、検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部と、を有する画像認識装置。
 (9)前記第1画像と前記第2画像は、それぞれ基準画像が異なる画像である、上記(8)に記載の画像認識装置。
 (10)前記学習部は、前記特徴マップ生成部、前記物体検出部、および対象物体検出を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第1画像と前記教師データとを用いてさらに学習させる、上記(8)または(9)に記載の画像認識装置。
 (11)前記第2画像の前記第1画像に対する適応度の高低を推定する推定部をさらに有し、前記学習部は、前記推定部により前記適応度が高いと推定された前記第2画像を選択し、前記教師データのうち、選択された前記第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第1画像と、を用いて前記対象物体検出部を学習させる、上記(8)~(10)のいずれかに記載の画像認識装置。
 (12)前記学習部により前記物体検出部を学習させる前後における前記対象物体検出部による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する判断部をさらに有する、上記(8)~(11)のいずれかに記載の画像認識装置。
 (13)前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記対象物体検出部による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、上記(12)に記載の画像認識装置。
 (14)前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第2画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記学習部により前記対象物体検出部が学習される前における、前記教師データに含まれる前記第2画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、上記(12)に記載の画像認識装置。
 (15)撮影された画像を取得する取得部と、取得された前記画像から、特徴マップを生成する特徴マップ生成部と、生成された前記特徴マップから、物体を検出する物体検出部と、検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるためのプログラムであって、前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順を、コンピューターに実行させるための学習プログラム。
 (16)撮影された画像を取得する取得部と、取得された前記画像から、特徴マップを生成する特徴マップ生成部と、生成された前記特徴マップから、物体を検出する物体検出部と、検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるための学習装置であって、前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部を有する学習装置。
 特徴マップから検出された物体ごとに、対象物体に関する信頼度スコアを特徴マップから算出することで対象物体を検出する対象物体検出部を、対象物体が映っていない第1画像と、第2画像および第2画像に対する対象物体の検出結果の正解の組み合わせの教師画像と、を用いて学習する。これにより、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる。
画像認識装置を含む画像認識システムの概略構成を示す図である。 画像認識装置のハードウェア構成を示すブロック図である。 画像認識装置の制御部の機能を示すブロック図である。 候補矩形検出部による候補矩形の検出結果を示す図である。 信頼度スコア算出部による信頼度スコアの算出結果を示す図である。 判定部による出力矩形の検出結果を示す図である。 推定された関節点の例を示す説明図である。 対象領域の例を示す図である。 対象領域の他の例を示す図である。 基準画像が互いに異なる撮影画像を説明するための説明図である。 基準画像が互いに異なる撮影画像を説明するための説明図である。 画像認識装置の動作を示すフローチャートである。
 以下、図面を参照して、本発明の実施形態に係る画像認識プログラム、画像認識装置、学習プログラム、および学習装置について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 図1は、実施形態に係る画像認識装置を含む画像認識システムの概略構成を示す図である。
 画像認識システム10は、画像認識装置100、撮影装置200、通信ネットワーク300、および携帯端末400を有する。画像認識装置100は、通信ネットワーク300により撮影装置200および携帯端末400と相互に通信可能に接続される。本明細書において、対象物体とは、画像認識装置100が検出対象とする物体である。対象物体には複数のカテゴリーが含まれ得る。カテゴリーとは、画像認識装置100が認識可能な物体の種別であり、人、ベッド、机、椅子、歩行器等が含まれる。カテゴリーには、対象物体以外の物体の種別も含まれる。以下、対象物体は対象者50(すなわち、人)であるものとして説明する。
 画像認識装置100は、撮影装置200により撮影された画像(以下、単に「撮影画像250」と称する(図4等参照))を、撮影装置200から受信し、撮影画像250に含まれる対象者500を対象物体として検出する。後述するように、画像認識装置100は、撮影画像250上で物体(オブジェクト)が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、対象者500を検出する。物体が存在する領域は、撮影画像250上で物体が含まれる矩形(以下、当該矩形を「候補矩形253」と称する(図4等参照))として検出される。検出された候補矩形253のうち、物体のカテゴリーが人であると推定された候補矩形253(以下、当該候補矩形253を「出力矩形254」と称する(図6等参照))を検出することで、対象者500を検出する。なお、画像認識装置100は、出力矩形254に基づいて、対象者500の姿勢および行動をさらに検出し得る。また、推定した行動から、対象者500に関するイベントを検出し得る。イベントとは、対象者70に関する画像認識装置100等が認識した状態の変化であって、例えば、起床、離床、転倒、転落、および微体動異常等のスタッフ80に発報(報知)を行うべき事象である。画像認識装置100は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末400へ送信する。画像認識装置100は、ディープニューラルネットワーク(以下、「DNN」と称する)により、対象者500を検出し得る。DNNによる対象物体の検出方法としては、例えば、Fater R-CNN、Fast R-CNN、およびR-CNNといった公知の方法が挙げられる。以下、画像認識装置100は、例として、Faster R-CNNを利用して対象者500を検出するものとして説明する。画像認識装置100は、コンピューターにより構成される。例えば、画像認識装置100は、サーバーとして構成され得る。
 撮影装置200は、例えば、近赤外線カメラにより構成され、所定の位置に設置されることで、当該所定の位置を視点として俯瞰される撮影領域を撮影する。撮影装置200は、LED(Light Emitting Device)により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をCMOS(Complememtary Metal Oxide Semiconductor)センサーにより受光することで撮影領域を撮影し得る。撮影画像250は近赤外線の反射率を各画素とするモノクロ画像であり得る。所定の位置は、たとえば対象者500の居室の天井である。撮影領域は、たとえば居室の床全体を含む3次元の領域である。以下、撮影装置200は対象者500の居室の天井に設置され、画像認識装置100は、当該居室の床全体を含む3次元の撮影領域に存在する対象者500を検出対象とするものとして説明する。画像認識装置100の出荷後等に対象者500を検出する領域である、対象者500の居室等を「新たな施設」と称する。
 撮影装置200は、たとえば15fps~30fpsのフレームレートの動画として撮影領域を撮影し得る。撮影画像250には動画と静止画とを含む。撮影装置200は、撮影画像250を画像認識装置100等に送信する。
 撮影装置200は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える箱状の装置である。この場合、画像認識装置100の機能の一部または全部をセンサーボックスが有するようにし得る。体動センサーは、ベッドに対してマイクロ波を送受信して対象者500の体動(例えば呼吸動)によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。
 通信ネットワーク300には、イーサネット(登録商標)などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク300には、Bluetooth(登録商標)、IEEE802.11などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク300には、アクセスポイント310が設けられ、携帯端末400と、画像認識装置100および撮影装置200とを無線通信ネットワークにより通信可能に接続する。
 携帯端末400は、画像認識装置100からイベント通知を受信し、イベント通知の内容を表示する。また、携帯端末400は、画像認識装置100により検出された対象者500の検出結果を画像認識装置100から受信して表示する。具体的には、例えば、携帯端末400は、撮影画像250上で出力矩形254を表示することで、対象者500の検出結果を表示し得る。携帯端末400は、画像認識装置100から、対象者500の姿勢および行動の検出結果を受信して表示し得る。姿勢の検出結果には、後述するように、対象者500の関節点119(図7参照)の推定結果が含まれる。行動の検出結果には、起床、離床、転倒、転落、および微体動異常等のイベントに該当する行動の検出結果の他、入室、睡眠、および着座等の行動の検出結果が含まれる。行動の検出結果はイベント通知に含まれて受信されてもよい。携帯端末400は、撮影装置200または画像認識装置100から撮影画像250を受信して表示し得る。携帯端末400は、たとえばスマートフォンにより構成される。
 図2は、画像認識装置のハードウェア構成を示すブロック図である。画像認識装置100は、制御部110、記憶部120、表示部130、入力部140、および通信部150を有する。これらの構成要素は、バス160を介して相互に接続される。
 制御部110は、CPU(Central Processing Unit)により構成され、プログラムにしたがって画像認識装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
 記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、およびSSD(Solid State Drive)により構成され得る。RAMは、制御部110の作業領域として一時的にプログラムやデータを記憶する。ROMは、あらかじめ各種プログラムや各種データを格納する。SSDは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。
 表示部130は、たとえば液晶ディスプレイであり、各種情報を表示する。
 入力部140は、たとえばタッチパネルや各種キーにより構成される。入力部140は、各種操作、入力のために使用される。
 通信部150は、外部機器と通信するためのインターフェースである。通信には、イーサネット(登録商標)、SATA、PCI Express、USB、IEEE1394などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Bluetooth(登録商標)、IEEE802.11、4Gなどの無線通信インターフェースが用いられ得る。通信部150は、撮影装置200から撮影画像250を受信する。通信部150は、イベント通知を携帯端末400へ送信する。通信部150は、撮影画像250からの対象者500の検出結果を携帯端末400へ送信する。また、通信部150は、対象者500の姿勢および行動の検出結果を携帯端末400へ送信し得る。
 制御部110の機能の詳細について説明する。
 図3は、画像認識装置の制御部の機能を示すブロック図である。制御部110は、画像取得部111、特徴マップ生成部112、候補矩形検出部113、出力矩形検出部114、関節点推定部115、行動推定部116、出力部117、および学習部118を有する。画像取得部111は取得部を構成する。候補矩形検出部113は物体検出部を構成する。出力矩形検出部114は対象物体検出部を構成する。学習部118は学習装置を構成する。制御部110は、さらに推定部および判断部を構成する。
 画像取得部111は、通信部150を介して撮影装置200から受信した撮影画像250を取得する。
 特徴マップ生成部112はDNNにより構成され、撮影画像250の畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。
 候補矩形検出部113はDNNにより構成され、特徴マップから撮影画像250上で物体が存在する領域を候補矩形253として検出する。候補矩形検出部113は、Faster R-CNN等のDNNを用いた公知の技術により候補矩形253を検出し得る。なお、候補矩形検出部113は、物体が存在する領域(矩形)のうち、サイズまたはアスペクト比が所定の閾値範囲内となるもののみを候補矩形253として検出してもよい。これにより、候補矩形253として検出される物体を、人の可能性が高い物体に限定することで、後段の出力矩形検出部114において出力矩形254を検出する際の演算量を抑制できる。上記所定の閾値範囲は、例えば、候補矩形253に含まれる物体が人である可能性が高い、候補矩形253のサイズまたはアスペクト比の範囲として、実験により求め得る。
 図4は、候補矩形検出部による候補矩形の検出結果を示す図である。
 図4の例においては、対象者500(すなわち、「人」)を含む3つの物体が候補矩形253として検出されている。
 出力矩形検出部114は、信頼度スコア算出部114aおよび判定部114bを有する。信頼度スコア算出部114aはDNNにより構成され、各候補矩形253について、所定のカテゴリーごとの信頼度スコアを算出する。すなわち、対象物体である人を含む所定のカテゴリーに関する信頼度スコアを算出する。信頼度スコアは、対象物体に関する尤度である。信頼度スコア算出部114aは、Faster R-CNN等のDNNを用いた公知の技術により信頼度スコアを算出し得る。所定のカテゴリーは、例えば、人、椅子、および機具とし得る。
 図5は、信頼度スコア算出部による信頼度スコアの算出結果を示す図である。
 図5の例においては、例えば、対象者500(すなわち、「人」)を含む候補矩形253について、所定のカテゴリーである、人、椅子、機具に関する信頼度スコアが、それぞれ、0.9、0.1、0.0と算出されている。
 判定部114bは、各候補矩形253について、信頼度スコアが最も高いカテゴリーが人であるかどうかを判定する。そして、信頼度スコアが最も高いカテゴリーが人である候補矩形253を出力矩形254として検出する。判定部114bは、人に関する信頼度スコアが0.5を超えた候補矩形253を出力矩形254として検出してもよい。なお、1つの候補矩形253に対し、所定のカテゴリーことにそれぞれ算出された信頼度スコアの和は1となる。
 図6は、判定部による出力矩形の検出結果を示す図である。
 図6の例においては、信頼度スコアが最も高いカテゴリーが人である候補矩形253が、出力矩形254として検出されている。すなわち、対象者500が、対象者500を含む出力矩形254として検出されている。
 関節点推定部115は、出力矩形254に基づいて、対象者500の姿勢として関節点119を推定し、関節点119の検出結果として行動推定部116へ出力する。関節点推定部115は、DNNを用いた公知の方法により、出力矩形254に基づいて関節点119を推定し得る。
 図7は、推定された関節点の例を示す説明図である。関節点119は出力矩形254(すなわち、撮影画像250の一部)に重畳されて示されており、関節点119の位置は白抜きの丸により示されている。関節点119には、例えば、頭、首、肩、肘、手、腰、腿、膝、および足の関節点119が含まれる。図9の例においては、各関節点119の相対的な位置関係から、対象者500が座位の姿勢にあることが認識できる。
 行動推定部116は、関節点推定部115により推定された関節点119に基づいて、対象者500の行動を推定し、対象者500の行動の検出結果として出力部117へ出力する。行動推定部116は、複数の撮影画像250から推定された関節点119の時間的変化に基づいて対象者500の行動を推定し得る。行動推定部116は、例えば、新たな施設に設置されているベッドに対応する範囲として予め設定された撮影画像上の範囲と、出力矩形254または関節点119との相対的な位置関係に基づいて、対象者500の行動として、「入床」や「離床」等を推定し得る。行動推定部116は、各関節点119の平均速度が急に低下し、かつ平均速度の低下後の各関節点119により認識される姿勢が臥位であるような場合に、対象者500の行動として「転倒」を推定し得る。
 出力部117は、出力矩形検出部114により検出された出力矩形254、関節点推定部115により検出された、対象者500の関節点119、および行動推定部116により検出された、対象者500の行動を出力する。
 学習部118は、特徴マップ生成部112、候補矩形検出部113、および信頼度スコア算出部114aを学習させる。学習により、特徴マップ生成部112、候補矩形検出部113、および信頼度スコア算出部114aのそれぞれのDNNのパラメーターが更新される。学習は、事前学習および調整学習の2段階で行われる。
 事前学習は、例えば、画像認識装置100の出荷前に、特徴マップ生成部112、候補矩形検出部113、および信頼度スコア算出部114aに対して行われる。事前学習は、誤差逆伝搬法により行われる。事前学習は、比較的大量の教師データを用いて行われる。教師データは、撮影画像250および当該撮影画像250に対する対象物体の検出結果の正解の組み合わせからなる。事前学習に用いられる教師データにおいて、対象物体の検出結果の正解と対応付けされた撮影画像を「第2画像」と、以下称する。
 調整学習は、例えば、画像認識装置100の出荷後に、画像認識システム10が新たな施設において対象者500を検出するために設置された際に、信頼度スコア算出部114aに対してのみ行われる学習である。すなわち、調整学習は、画像認識システム10で実際に対象者500を検出しようとする、撮影装置200による撮影領域が設定された対象者500の居室で行われる。調整学習は誤差逆伝搬法により行われる。その際、例えば、特徴マップ生成部112および候補矩形検出部113のDNNのパラメーターについては、学習率を0、バッチノーマライゼーションのパラメーターも固定とする。信頼度スコア算出部114aのDNNのパラメーターについては、学習率を0より大きい値に設定する。これにより、信頼度スコア算出部114aのDNNのパラメーターのみが更新されるため、信頼度スコア算出部114aのみを学習させることができる。DNNのパラメーターの更新方法として、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adam等、様々なものがあり、どの方法を用いてもよい。
 調整学習は、事前学習に用いた教師データと、対象者500を検出するための対象領域に対象者500(対象物体)が映っていない撮影画像(以下、「第1画像」と称する)と、を用いて行われる。ここで、対象領域は、例えば、画像認識システム10が対象者500の居室等に設置された状態で、撮影装置200により撮影される領域である。対象領域は、撮影装置200により撮影される領域のうち、対象者500を検出しない領域を除く領域であってもよい。すなわち、調整学習は、事前学習に用いた教師データを用いた学習と、第1画像を用いた学習が行われる。調整学習の、事前学習に用いた教師データを用いた学習では、後述するように、事前学習に用いた教師データの一部が選択されて用いられてもよい。第1画像を用いた学習は、具体的には、第1画像、および、対象物体が検出されないとした検出結果の正解、の組み合わせの教師データを用いて行われる。
 図8は、対象領域の例を示す図である。
 図8の例においては、新たな施設である居室の床全体を含む3次元の領域が対象領域とされている。
 図9は、対象領域の他の例を示す図である。
 図9の例においては、新たな施設である居室の撮影画像250上において、床全体が占める領域から、ベッドが占める領域(グレーの矩形で示す領域)が除かれた領域が、対象領域とされている。すなわち、撮影画像250上でベッドが占める領域がマスクされることで、対象者500を検出しない領域とされている。このように、撮影画像250上でベッドが占める領域を対象者500を検出しない領域とすることで、例えば、対象者500がベッドで睡眠している間に撮影した撮影画像250を第1画像として利用できる。
 第1画像を取得する方法を例示すると、次のようなものがある。
 撮影装置200を新たな施設に設置する際に、行動推定部116により対象者500の行動を推定する等のために、新たな施設に設置されたベッドが撮影画像250上で占める領域が、技術スタッフ等により撮影画像250上でベッドの4隅が指定されることで設定される。また、新たな施設である居室の床に対応する撮影画像250上の範囲が、撮影画像250上で床の4隅が指定されることで設定される。このような、撮影画像250上でベッドが占める範囲等を設定する際に撮影装置200により撮影される撮影画像250を第1画像として利用し得る。撮影装置200をセンサーボックスにより構成する場合は、センサーボックスが備えるドップラシフト方式の体動センサーにより対象者500の睡眠を検出する。そして、対象者500の睡眠を検出している間に撮影した撮影画像250から、上述のように設定された、ベッドが撮影画像250上で占める領域を撮影画像250から除外した撮影画像250を第1画像として取得し得る。椅子に着座センサーを設定することで、対象者500の椅子への着座を検出し、着座を検出している間に撮影した撮影画像250から、予め設定された、椅子が撮影画像250上で占める領域を撮影画像250から除外した撮影画像250を第1画像として取得してもよい。
 撮影画像250を記憶部120に記憶しておき、撮影画像250のデータに含まれるタイムスタンプと、記憶部120に蓄積されている介護記録に記録された対象者500の行動履歴とを比較する。そして、対象者500が食事のための外出等で新たな施設が空室となっていた間の撮影画像250を選択し、第1画像として取得してもよい。
 出力矩形検出部114、関節点推定部115、および行動推定部116の機能による対象者500の行動の検出アルゴリズムとは異なるアルゴリズムで対象者500の起床または離床を検出してもよい。すなわち、例えば、候補矩形検出部113により検出された候補矩形253のうち、サイズおよびアスペクト比に基づいて対象者500(すなわち、「人」)を含む可能性が高い候補矩形253を抽出してもよい。抽出された候補矩形253と、上述のように設定された、ベッドが撮影画像250上で占める領域との重なり幅に基づいて、対象者500の起床または離床を検出する。そして、撮影画像250のデータに含まれるタイムスタンプに基づいて、対象者500の起床または離床の直前(すなわち、ベッドで対象者500が寝ている可能性が高いタイミング)に撮影された撮影画像250を選択し、第1画像として取得してもよい。
 第1画像と、教師データに含まれる第2画像とは、それぞれ基準画像が異なり得る。基準画像は、例えば背景画像である。
 図10Aおよび図10Bは、基準画像が互いに異なる撮影画像を説明するための説明図である。
 図10Aは、第2画像を示しており、図10Bは、新たな施設で撮影された撮影画像250を示している。図10Bの例に示す新たな施設で撮影された撮影画像250の、対象者500等以外の部分である背景は、第1画像の背景に対応する。図10Aの対象者500等以外の部分である背景と、図10Bの対象者500等以外の部分である背景は、異なっている。
 なお、基準画像には、対象物体以外の物体(例えば、猫)が含まれてもよい。以下、説明を簡単にするために、基準画像は背景画像であるものとして説明する。
 調整学習を行うのは次の理由による。すなわち、新たな施設で撮影装置200により撮影される撮影画像250の背景画像は、事前学習に用いられる教師データの第2画像の背景画像と異なることが多い。このため、画像認識装置100の第2画像に対する対象物体(すなわち、「人」)の検出精度が高くても、新たな施設で新たに撮影される撮影画像250に対する対象者500の検出精度が、第2画像に対する検出精度に対し比較的大きく低下する可能性があるからである。
 調整学習を、事前学習で用いた教師データと第1画像を用いて行うのは次の理由による。すなわち、調整学習を、第1画像と、事前学習に用いる教師データとを用いて行うことにより、当該教師データに含まれる第2画像に対する対象者500の検出精度を維持しつつ、新たな施設における対象者500の検出精度の低下を抑制できるからである。また、新たな施設で、撮影画像250および当該撮影画像250に対する対象物体の検出結果の正解の組み合わせの新たな教師データを準備するのは手間がかかるからである。第1画像は、上述したように、画像認識システム10が新たな施設に設置される際に、技術スタッフ等が、撮影装置200による撮影画像250上で、居室のベッド等の配置物の位置情報の指定等を行うために、撮影される。このため、調整学習のためだけに撮影画像250を取得する必要がなく、調整学習に要する手間を抑制できる。
 調整学習において、信頼度スコア算出部114aのみを学習させるのは次の理由による。すなわち、特徴マップ生成部112、および候補矩形検出部113の、事前学習に用いた教師データに含まれる第2画像に対する候補矩形253の検出精度は、比較的大量の教師データを用いた事前学習により、比較的高くなっている。調整学習において、第1画像等を用いて特徴マップ生成部112、および候補矩形検出部113を学習すると、特徴マップ生成部112、および候補矩形検出部113による第2画像に対する候補矩形253の検出精度が事前学習終了時よりも低下する可能性が比較的高いからである。また、新たな施設において撮影した撮影画像250に対する対象者500の検出精度の低下を抑制することは、事前学習で用いた教師データと第1画像を用いて信頼度スコア算出部114aを学習することで実現できるからである。
 画像認識装置100の動作について説明する。
 図11は、画像認識装置の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
 制御部110は、第2画像および当該第2画像に対する対象物体の検出結果の正解の組み合わせからなる教師データにより、特徴マップ生成部112、候補矩形検出部113、および信頼度スコア算出部114aを事前学習する(S101)。本ステップは、画像認識装置100の出荷前に行われ得る。
 新たな施設において、制御部110は、撮影装置200から、対象者500が映っていない第1画像を受信することで取得する(S102)。
 制御部110は、事前学習に用いた教師データを記憶部120から読み出すことで取得し、各教師データについて、第2画像の第1画像に対する適応度の高低を推定する(S103)。第2画像の第1画像に対する適応度とは、第2画像の背景画像の、第1画像の背景画像に対する類似度である。
 第2画像の第1画像に対する適応度の高低は、次のように推定される。例えば、第1画像および第2画像について、それぞれ、すべての画素の輝度値に対する頻度のヒストグラムを作成し、生成された第1画像および第2画像のヒストグラムにおいてそれぞれ最頻値を示す輝度値の差を算出する。そして、当該差が所定の閾値以下である場合は適応度が高いと推定され、当該所定の閾値を超える場合は適応度が低いと推定する。所定の閾値は、実験により適当な値に設定し得る。具体的には、閾値と、当該閾値の設定により選択された第2画像を含む教師データを用いて調整学習をした後の対象者500の検出精度と、の関係を実験により求め、検出精度が最も高くなるときの閾値に設定され得る。このように、所定の閾値を設定することで、第1画像の、床の色、壁紙の色、またはカーテンの色等が類似する第2画像を、第1画像に対する第2画像の適応度が高い第2画像と推定し得る。
 第2画像の第1画像に対する適応度の高低は、第2画像における居室内の荷物量が第1画像における新たな施設内の荷物量が近いかどうかにより推定してもよい。例えば、制御部110は、表示部130に第1画像と第2画像を表示し、第1画像に映った荷物量に近い荷物量が映った第2画像の、ユーザーによる選択を、入力部140により受付けることで、受け付けた第2画像の第1画像に対する適応度が高いと推定してもよい。
 第2画像の第1画像に対する適応度の高低は、新たな施設の入居者の対象者500が車椅子や歩行器を使用する場合は、車椅子や歩行器を使用する対象者500が映った第2画像が第1画像に対する適応度が高いと判断してもよい。また、新たな施設の入居者の対象者500の寝巻きの素材または色と同じ素材または色の寝巻きを着た対象者500が映った第2画像が第1画像に対する適応度が高いと判断してもよい。この場合、例えば、制御部110は、表示部130に第1画像と第2画像を表示し、ユーザーによる選択を、入力部140により受付けることで、受け付けた第2画像の第1画像に対する適応度が高いと推定し得る。
 第2画像の第1画像に対する適応度の高低は、第2画像が撮影された居室のカメラが設置されていた天井の高さが、第1画像が撮影された新たな施設の撮影装置200が設置された天井の高さに近いかどうかにより推定してもよい。両者が近いかどうかは、両者の差が所定の閾値以下かどうかにより判定され得る。所定の閾値は、例えば、新たな施設の天井の高さの5%~20%の間のいずれかの値に設定し得る。第2画像が撮影された居室のカメラが設置されていた天井の高さは、当該第2画像に関連付けて予め記憶部120に記憶させておき、新たな施設の天井の高さとともに記憶部120に記憶させておくことで、これらの情報を利用し得る。第2画像の第1画像に対する適応度の高低は、第2画像を撮影したカメラと、第1画像が撮影された新たな施設の撮影装置200を構成するカメラのレンズの種類またはカメラの型番とが同じかどうかにより推定してもよい。これらのレンズの種類またはカメラの型番は予め記憶部120に記憶させておいて利用し得る。
 制御部110は、第1画像に対する適応度が高いと推定された第2画像および当該第2画像に対する対象物体の検出結果の正解の組み合わせからなる教師データを選択する(S104)。制御部110は、第1画像と、選択された教師データとを用いて信頼度スコア算出部114aを調整学習する(S105)。第1画像に対する適応度が高い第2画像および当該第2画像に対する対象物体の検出結果の正解の組み合わせからなる教師データを用いて調整学習をするのは、第1画像と背景画像が類似する第2画像を含む教師データとで信頼度スコア算出部114aを学習することで、新たな施設における対象者500の検出精度を効率的に向上できるからである。
 施設の各居室に撮影装置200が設置されることで、当該各居室に撮影領域が設定される場合は、居室ごとに調整学習が行われ得る。この場合、居室ごとに、信頼度スコア算出部114aのパラメーターが別々に記憶部120に記憶され、居室ごとに、信頼度スコア算出部114aのパラメーターが別個独立に更新され得る。そして、居室ごとに、当該居室に対応付けされた信頼度スコア算出部114aのパラメーターを用いて、撮影画像から対象者500の検出が行われ得る。
 一方、施設の各居室に撮影装置200が設置されることで、当該各居室に撮影領域が設定される場合に、全ての居室に対する共通の調整学習が行われてもよい。すなわち、全ての居室においてそれぞれ撮影された複数の第1画像と、事前学習に用いた教師データとを用いて共通の調整学習が行われてもよい。この場合、全ての居室で共通の信頼度スコア算出部114aのパラメーターが記憶部120に記憶され、更新される。そして、全ての居室で共通の信頼度スコア算出部114aのパラメーターを用いて、居室ごとに撮影画像から対象者500の検出が行われる。
 さらに、信頼度スコア算出部114aのパラメーターは、1日の時間帯ごとに別々のパラメーターとしてもよい。例えば、信頼度スコア算出部114aのパラメーターを、朝、昼、夜で別々のパラメーターとし得る。信頼度スコア算出部114aのパラメーターは、消灯期間のみ別のパラメーターとしてもよい。
 制御部110は、新たな施設で、撮影画像から対象者500を検出する(S106)。
 制御部110は、撮影画像から対象者500を検出した検出結果を評価する。例えば、制御部110は、調整学習後における、事前学習に用いられた教師データに含まれる第2画像に基づく対象者500(すなわち、「人」)の検出精度と、当該教師データに含まれる検出結果の正解との比較による検出精度を算出する。制御部110は、調整学習前における、事前学習に用いられた教師データに含まれる第2画像に基づく対象者500の検出精度と、当該教師データに含まれる検出結果の正解との比較による検出精度を算出する。そして、それらの検出精度を比較し、比較結果に基づいて、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定するかどうかを判断する(S108)。具体的には、例えば、調整学習後の第2画像についての検出精度が、所定の基準を満たす場合は、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定するとし得る。所定の基準は、例えば、調整学習後の第2画像についての検出精度が、調整学習前の第2画像についての検出精度に対し、5%以下の劣化であることとし得る。なお、調整学習後の、新たな施設における対象者500に対する検出精度は、調整学習前よりも、向上していることは当然に必要である。制御部110は、次のように、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定するかどうかを判断してもよい。例えば、調整学習後における、対象者500の出力矩形254の検出結果に基づいて推定された対象者500の行動の精度が所定の基準を満たした場合に、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定し得る。所定の基準は、例えば、予め記憶部120に記憶された、転倒および非転倒に対応する動画に対する、調整学習後の行動推定結果において、転倒についての行動推定精度が100%で、かつ非転倒についての行動推定精度が調整学習前より5%以上向上したこととし得る。制御部110は、調整学習後における、対象者500の検出結果として出力された出力矩形254の形状が所定の基準を満たした場合に、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定し得る。所定の基準は、例えば、事前学習に用いた教師データに含まれる、第2画像の検出結果の正解である出力矩形254のサイズおよびアスペクト比を統計処理することで得られた、平均値±3σを、すべての第2画像からの対象者500(すなわち、「人」)の検出結果(出力矩形254)において外れないこととし得る。制御部110は、調整学習後における、対象者500の出力矩形254の検出結果に基づいて推定された対象者500の関節点119の位置の精度が所定の基準を満たした場合に、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定し得る。所定の基準は、例えば、人の関節点119としてはあり得ない関節点119の位置となっていないこと等とし得る。制御部110は、表示部130に表示させた出力矩形254が許容できるというユーザーによる判断を入力部140を介して受け付けた場合に、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定してもよい。制御部110は、上述した所定の基準の少なくともいずれか一つを満たした場合に、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定してもよい。
 制御部110は、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定したときは(S108:YES)、信頼度スコア算出部114aのパラメーターを調整学習後の状態に維持し、以後の対象者500の検出を行う(S109)。
 制御部110は、調整学習後の信頼度スコア算出部114aのパラメーターへの更新を決定しないときは(S108:NO)、信頼度スコア算出部114aのパラメーターを調整学習前の状態に戻し、以後の対象者500の検出を行う(S109)。
 本発明に係る実施形態は、以下の効果を奏する。
 特徴マップから検出された物体ごとに、対象物体に関する信頼度スコアを特徴マップから算出することで対象物体を検出する対象物体検出部を、対象物体が映っていない第1画像と、第2画像および第2画像に対する対象物体の検出結果の正解の組み合わせの教師画像と、を用いて学習する。これにより、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる。
 さらに、第1画像と第2画像は、それぞれ基準画像が異なる画像とする。これにより、第2画像の背景等が第1画像の背景等と異なっていても、効果的に対象物体の誤検出の発生を抑制できる。
 さらに、特徴マップ生成部、物体検出部、および対象物体検出部を、上述の教師データを用いて学習させた後、対象物体検出部を、第1画像と教師データとを用いてさらに学習させる。これにより、特徴マップ生成部および物体検出部の物体に対する検出感度を維持しつつ、対象物体検出部による新たな施設における対象物体の検出精度を向上できる。
 さらに、第2画像の第1画像に対する適応度の高低を推定し、適応度が高いと推定された第2画像および当該第2画像に対する対象物体の検出結果の正解の組み合わせの教師データと、第1画像と、を用いて対象物体検出部を学習させる。これにより、新たな施設における対象物体の検出精度を効率的に向上できる。
 さらに、対象物体検出部を学習させる前後における対象物体の検出結果に基づいて、対象物体検出部の学習前の対象物体検出部のパラメーターの、対象物体検出部の調整学習後の対象物体検出部のパラメーターへの更新を決定するかどうかを判断する。これにより、調整学習による対象物体の検出精度の変化を考慮して、対象物体検出部のパラメーターの更新可否を判断できる。
 さらに、対象物体検出部の調整学習後における、対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、対象物体の検出結果として出力された対象物体を含む出力矩形の形状が所定の基準を満たした場合、対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および出力矩形を撮影画像に重畳させて表示部に表示し、表示された出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、対象物体検出部のパラメーターの、調整学習後の対象物体検出部のパラメーターへの更新を決定すると判断する。これにより、比較的簡単に、調整学習による対象物体の検出精度の変化を考慮して、対象物体検出部のパラメーターの更新可否を判断できる。
 さらに、調整学習後における、教師データに含まれる第2画像に基づく、対象物体の検出結果と、教師データに含まれる検出結果の正解との比較による検出精度と、調整学習前における、教師データに含まれる第2画像に基づく、対象物体の検出結果と、教師データに含まれる検出結果の正解との比較による検出精度と、を比較する。そして、比較結果に基づいて、対象物体検出部のパラメーターの、調整学習後のパラメーターへの更新を決定するかどうかを判断する。これにより、比較的簡単に、調整学習による対象物体の検出精度の変化を考慮して、対象物体検出部のパラメーターの更新可否を判断できる。
 以上に説明した画像認識システム10の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。
 例えば、画像認識装置100が有する機能を、センサーボックスにより構成される撮影装置200、または携帯端末400が備えるようにしてもよい。
 また、画像認識装置100、撮影装置200、および携帯端末400は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。
 また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
 また、対象物体は、人に限定されず、猫、器具等の複数のカテゴリーが含まれてもよい。
 また、上述した画像認識システム10における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
 本出願は、2018年7月2日に出願された日本特許出願(特願2018-126306号)に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims (16)

  1.  特徴マップ検出部、物体検出部、および対象物体検出部を有する画像認識装置を制御するためのプログラムであって、
     撮影された画像を取得する手順(a)と、
     取得された前記画像から、前記特徴マップ生成部により特徴マップを生成する手順(b)と、
     生成された前記特徴マップから、前記物体検出部により物体を検出する手順(c)と、
     検出された前記物体の、対象物体に関する信頼度スコアを、前記対象物体検出部により、前記特徴マップから算出することで、前記対象物体を検出する手順(d)と、
     前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順(e)と、
     を有する処理を、コンピューターに実行させるための画像認識プログラム。
  2.  前記第1画像と前記第2画像は、それぞれ基準画像が異なる画像である、請求項1に記載の画像認識プログラム。
  3.  前記手順(e)は、
     前記特徴マップ生成部、前記物体検出部、および前記対象物体検出部を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第1画像と前記教師データとを用いてさらに学習させる、請求項1または2に記載の画像認識プログラム。
  4.  前記第2画像の前記第1画像に対する適応度の高低を推定する手順(f)をさらに有し、
     前記手順(e)は、手順(f)において前記適応度が高いと推定された前記第2画像を選択し、前記教師データのうち、選択された前記第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第1画像と、を用いて前記対象物体検出部を学習させる、請求項1~3のいずれか一項に記載の画像認識プログラム。
  5.  前記手順(e)により前記対象物体検出部を学習させる前後における前記手順(d)による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の前記手順(e)による学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する手順(g)をさらに有する、請求項1~4のいずれか一項に記載の画像認識プログラム。
  6.  前記手順(g)は、前記手順(e)により前記対象物体検出部が学習された後における、前記手順(d)による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形の形状が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、請求項5に記載の画像認識プログラム。
  7.  前記手順(g)は、前記手順(e)により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第2画像に基づく、前記手順(d)による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記対象物体検出部が学習される前における、前記教師データに含まれる前記第2画像に基づく、前記手順(d)による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、請求項5に記載の画像認識プログラム。
  8.  撮影された画像を取得する取得部と、
     取得された前記画像から、特徴マップを生成する特徴マップ生成部と、
     生成された前記特徴マップから、物体を検出する物体検出部と、
     検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、
     前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部と、
     を有する画像認識装置。
  9.  前記第1画像と前記第2画像は、それぞれ基準画像が異なる画像である、請求項8に記載の画像認識装置。
  10.  前記学習部は、
     前記特徴マップ生成部、前記物体検出部、および対象物体検出を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第1画像と前記教師データとを用いてさらに学習させる、請求項8または9に記載の画像認識装置。
  11.  前記第2画像の前記第1画像に対する適応度の高低を推定する推定部をさらに有し、
     前記学習部は、前記推定部により前記適応度が高いと推定された前記第2画像を選択し、前記教師データのうち、選択された前記第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第1画像と、を用いて前記対象物体検出部を学習させる、請求項8~10のいずれか一項に記載の画像認識装置。
  12.  前記学習部により前記物体検出部を学習させる前後における前記対象物体検出部による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する判断部をさらに有する、請求項8~11のいずれか一項に記載の画像認識装置。
  13.  前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記対象物体検出部による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、請求項12に記載の画像認識装置。
  14.  前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第2画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記学習部により前記対象物体検出部が学習される前における、前記教師データに含まれる前記第2画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、請求項12に記載の画像認識装置。
  15.  撮影された画像を取得する取得部と、
     取得された前記画像から、特徴マップを生成する特徴マップ生成部と、
     生成された前記特徴マップから、物体を検出する物体検出部と、
     検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるためのプログラムであって、
     前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順を、コンピューターに実行させるための学習プログラム。
  16.  撮影された画像を取得する取得部と、
     取得された前記画像から、特徴マップを生成する特徴マップ生成部と、
     生成された前記特徴マップから、物体を検出する物体検出部と、
     検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるための学習装置であって、
     前記対象物体を検出するための対象領域に前記対象物体が映っていない第1画像と、第2画像および前記第2画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部を有する学習装置。
PCT/JP2019/025610 2018-07-02 2019-06-27 画像認識プログラム、画像認識装置、学習プログラム、および学習装置 WO2020008995A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020528829A JP7314939B2 (ja) 2018-07-02 2019-06-27 画像認識プログラム、画像認識装置、学習プログラム、および学習装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018126306 2018-07-02
JP2018-126306 2018-07-02

Publications (1)

Publication Number Publication Date
WO2020008995A1 true WO2020008995A1 (ja) 2020-01-09

Family

ID=69060868

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/025610 WO2020008995A1 (ja) 2018-07-02 2019-06-27 画像認識プログラム、画像認識装置、学習プログラム、および学習装置

Country Status (2)

Country Link
JP (1) JP7314939B2 (ja)
WO (1) WO2020008995A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022014390A (ja) * 2020-07-06 2022-01-19 パナソニックIpマネジメント株式会社 検知システム、学習済みモデルの生成方法、検知方法、及びプログラム
JP7502528B2 (ja) 2020-02-04 2024-06-18 ファナック株式会社 画像処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170202A (ja) * 2009-01-20 2010-08-05 Secom Co Ltd 物体検出装置
US9141883B1 (en) * 2015-05-11 2015-09-22 StradVision, Inc. Method, hard negative proposer, and classifier for supporting to collect hard negative images using a similarity map

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170202A (ja) * 2009-01-20 2010-08-05 Secom Co Ltd 物体検出装置
US9141883B1 (en) * 2015-05-11 2015-09-22 StradVision, Inc. Method, hard negative proposer, and classifier for supporting to collect hard negative images using a similarity map

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GIRSHICK, R.: "Fast R-CNN", PROCEEDINGS OF THE 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV, 13 December 2015 (2015-12-13), pages 1440 - 1448, XP055646790, ISBN: 978-1-4673-8391-2, DOI: 10.1109/ICCV.2015.169 *
REN, S. ET AL.: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 39, no. 6, 6 June 2016 (2016-06-06), pages 1137 - 1149, XP055583592, ISSN: 0162-8828, DOI: 10.1109/TPAMI.2016.2577031 *
TAOKA, S. ET AL.: "Support Motion Learning by Imitation with Dynamic Neural Network", PROCEEDINGS OF THE 23RD ANNUAL CONFERENCE OF THE ROBOTICS SOCIETY OF JAPAN, 15 September 2005 (2005-09-15), pages 1 - 4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7502528B2 (ja) 2020-02-04 2024-06-18 ファナック株式会社 画像処理装置
JP2022014390A (ja) * 2020-07-06 2022-01-19 パナソニックIpマネジメント株式会社 検知システム、学習済みモデルの生成方法、検知方法、及びプログラム

Also Published As

Publication number Publication date
JP7314939B2 (ja) 2023-07-26
JPWO2020008995A1 (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
US11298050B2 (en) Posture estimation device, behavior estimation device, storage medium storing posture estimation program, and posture estimation method
JP6915421B2 (ja) 見守り支援システム及びその制御方法
JPWO2016143641A1 (ja) 姿勢検知装置および姿勢検知方法
US20180005510A1 (en) Situation identification method, situation identification device, and storage medium
JP2020086819A (ja) 画像処理プログラムおよび画像処理装置
JP6292283B2 (ja) 行動検知装置および行動検知方法ならびに被監視者監視装置
JP2022165483A (ja) 検出装置、検出システム、検出方法、および検出プログラム
US20210219873A1 (en) Machine vision to predict clinical patient parameters
JP7120238B2 (ja) 発報制御システム、検知ユニット、ケアサポートシステムおよび発報制御方法
WO2020008995A1 (ja) 画像認識プログラム、画像認識装置、学習プログラム、および学習装置
JP6729510B2 (ja) 見守り支援システム及びその制御方法
JP6822326B2 (ja) 見守り支援システム及びその制御方法
WO2020008726A1 (ja) 対象物体検出プログラム、および対象物体検出装置
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
WO2021033453A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2020134971A (ja) 現場学習評価プログラム、現場学習評価方法、および現場学習評価装置
WO2020003954A1 (ja) コンピューターで実行されるプログラム、情報処理装置、および、コンピューターで実行される方法
WO2020003953A1 (ja) コンピューターで実行されるプログラム、情報処理装置、および、コンピューターで実行される方法
JP2021033379A (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JPWO2020003952A1 (ja) コンピューターで実行されるプログラム、情報処理装置、および、コンピューターで実行される方法
WO2021033597A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP7540436B2 (ja) ケア管理方法、プログラム、ケア管理装置、および、ケア管理システム
JP7552081B2 (ja) 介助度合い推定方法、プログラム、および情報処理装置
JP7518699B2 (ja) システム、電子機器、電子機器の制御方法、及びプログラム
JP2023170502A (ja) 状態判別方法、プログラム、コンピューター装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19829860

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020528829

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19829860

Country of ref document: EP

Kind code of ref document: A1