WO2020241057A1 - 画像処理システム、画像処理プログラム、および画像処理方法 - Google Patents

画像処理システム、画像処理プログラム、および画像処理方法 Download PDF

Info

Publication number
WO2020241057A1
WO2020241057A1 PCT/JP2020/015551 JP2020015551W WO2020241057A1 WO 2020241057 A1 WO2020241057 A1 WO 2020241057A1 JP 2020015551 W JP2020015551 W JP 2020015551W WO 2020241057 A1 WO2020241057 A1 WO 2020241057A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
image
posture
height
area
Prior art date
Application number
PCT/JP2020/015551
Other languages
English (en)
French (fr)
Inventor
智也 岡▲崎▼
希武 田中
池田 直樹
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Priority to JP2021522674A priority Critical patent/JP7067672B2/ja
Publication of WO2020241057A1 publication Critical patent/WO2020241057A1/ja
Priority to JP2022072168A priority patent/JP7347577B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to an image processing system, an image processing program, and an image processing method.
  • the appearance of the person in the image depends on the position of the person even if the person is the same due to the distortion characteristics of the lens. It has the characteristic of changing.
  • Patent Documents 1 and 2 As a technique for detecting the posture of a person from an image such as an omnidirectional image, there are those disclosed in Patent Documents 1 and 2 below.
  • Patent Document 1 a person's personal ID and the size of the head when standing upright in the image are registered in association with each other, the size of the image of the person's head in the image is detected, and the detected head image is obtained.
  • a technique for determining a person's posture based on size is disclosed.
  • Patent Document 2 a human region including a person is detected from an image, and a human posture is determined based on the image of the human region by a neural network or the like learned in advance by teacher data of a combination of the image of the human region and the posture. The estimation technique is disclosed.
  • Patent Document 1 only determines the posture of a person based on the size of the image of the head on the image, so there is a problem that the posture cannot be estimated with high accuracy.
  • Patent Document 2 has a problem that the accuracy of estimating the posture of a person based on an image is lowered when the height of the photographing device is changed due to a change in the installation location of the photographing device for photographing an image.
  • the present invention has been made to solve such a problem. That is, it is an object of the present invention to provide an image processing system, an image processing program, and an image processing method capable of estimating a person's posture with high accuracy based on a captured image even if the installation height of the photographing device fluctuates. ..
  • An image acquisition unit that acquires an image in which the entire shooting area is captured by an imaging device installed at an installation position that overlooks a predetermined shooting area, and a person area detection unit that detects a person area from the image.
  • An information acquisition unit that acquires height information from a predetermined position of the installation position, and an attitude estimation unit that estimates a person's posture by machine learning based on the person area and the height information.
  • the posture estimation unit further includes a correction unit that corrects the person area based on the height information in accordance with the case where the height from the predetermined position is a preset reference height.
  • a correction unit that corrects the person area based on the height information in accordance with the case where the height from the predetermined position is a preset reference height.
  • the feature point estimation unit that estimates feature points related to the human body from the person area, and the height information according to the case where the height from the predetermined position is a preset reference height. Based on this, it further has a correction unit that corrects the feature points, and the posture estimation unit is estimated from the person area detected from the image taken by the imaging device installed at the reference height.
  • the image processing system according to (1) above wherein the combination of the feature points and the posture of the person is learned in advance as teacher data, and the posture of the person is estimated based on the feature points corrected by the correction unit. ..
  • the process further includes a procedure (e) for correcting the person area based on the height information in accordance with the case where the height from the predetermined position is a preset reference height. Then, in the procedure (d), the combination of the person area detected from the image taken by the photographing device installed at the reference height and the posture of the person was learned in advance as teacher data.
  • the process is performed in accordance with the procedure (f) of estimating a feature point related to a human body from the person area and the case where the height from the predetermined position is a preset reference height.
  • the procedure (g) for correcting the feature points is further provided, and in the procedure (d), the detection is performed from the image taken by the photographing device installed at the reference height.
  • the image processing program according to (4) above, which estimates the posture of the above.
  • An image processing method using an image processing system in which a step (a) of acquiring an image in which the entire shooting area is captured by an imaging device installed at an installation position overlooking a predetermined imaging area, and the above. Based on the step (b) of detecting the person area from the image, the step (c) of acquiring the height information of the installation position from the predetermined position, the person area, and the height information.
  • An image processing method including a step (d) of estimating a person's posture by machine learning.
  • FIG. 1 is a diagram showing a schematic configuration of an image recognition system 10 including an image recognition device 100 according to an embodiment.
  • the image recognition device 100 detects the posture or behavior of the subject 500 based on the person area 610.
  • Postures include standing, mid-waist, sitting, lying, crouching, and sitting. Behaviors include getting up, getting out of bed, falling, and falling.
  • the person area 610 is corrected based on the height of the installation position of the photographing device 200, in accordance with the case where the height of the installation position of the photographing device 200 is a preset reference height.
  • an event related to the subject 500 can be detected from the estimated posture or behavior.
  • the event is a change in the state recognized by the image recognition device 100 or the like with respect to the target person 500, and is an event that should be notified (notified) to the staff 80 such as getting up, getting out of bed, falling, and falling. ..
  • the image recognition device 100 transmits an event notification notifying the content of the event to the mobile terminal 400.
  • the image recognition device 100 can detect the target person 500 as a person region 610 on the image 600 by a neural network (hereinafter, referred to as “NN”). Examples of the method for detecting the target object by the NN include known methods such as Faster R-CNN, Fast R-CNN, and R-CNN.
  • the image recognition device 100 is composed of a computer.
  • the image recognition device 100 may be configured by, for example, a server.
  • the photographing device 200 is composed of, for example, a near-infrared camera, is installed at an installation position overlooking a predetermined photographing area, and photographs the entire photographing area.
  • the installation position of the photographing device 200 is, for example, the ceiling of the living room of the subject 500.
  • the predetermined photographing area is, for example, a three-dimensional area including the entire floor surface of the living room.
  • the photographing device 200 will be described as being installed on the ceiling of the living room of the subject 500.
  • the photographing device 200 irradiates near-infrared rays toward the photographing area by an LED (Light Emitting Device), and receives the reflected light of the near-infrared rays reflected by an object in the photographing area by a CMOS (Completion Metal Oxide Sensor) sensor. You can shoot the shooting area with.
  • the image 600 can be a monochrome image having the reflectance of near infrared rays as each pixel.
  • the photographing device 200 can photograph the photographing area as a moving image having a frame rate of, for example, 15 fps to 30 fps.
  • the image 600 includes a moving image and a still image.
  • the photographing device 200 transmits the image 600 to the image recognition device 100 and the like.
  • a network interface based on a wired communication standard such as Ethernet (registered trademark) can be used.
  • a network interface based on a wireless communication standard such as Bluetooth (registered trademark) or IEEE802.11 may be used.
  • An access point 310 is provided in the communication network 300, and the mobile terminal 400 and the image recognition device 100 and the photographing device 200 are communicably connected by a wireless communication network.
  • the mobile terminal 400 receives the event notification from the image recognition device 100 and displays the content of the event notification.
  • the event notification may include detection results of getting up, getting out of bed, falling, and falling, as well as detection results of microbody movement abnormalities and the like.
  • the mobile terminal 400 can receive and display the image 600 from the photographing device 200 or the image recognition device 100.
  • the mobile terminal 400 is composed of, for example, a smartphone.
  • FIG. 2 is a block diagram showing the hardware configuration of the image recognition device 100.
  • the image recognition device 100 includes a control unit 110, a storage unit 120, a display unit 130, an input unit 140, and a communication unit 150. These components are connected to each other via the bus 160.
  • the control unit 110 is configured by a CPU (Central Processing Unit), and controls and performs arithmetic processing of each unit of the image recognition device 100 according to a program. The details of the function of the control unit 110 will be described later.
  • CPU Central Processing Unit
  • the storage unit 120 may be composed of a RAM (Random Access Memory), a ROM (Read Only Memory), and an SSD (Solid State Drive).
  • the RAM temporarily stores programs and data as a work area of the control unit 110.
  • the ROM stores various programs and various data in advance.
  • the SSD stores various programs including an operating system and various data.
  • the display unit 130 is, for example, a liquid crystal display and displays various information.
  • the input unit 140 is composed of, for example, a touch panel and various keys.
  • the input unit 140 is used for various operations and inputs.
  • the communication unit 150 is an interface for communicating with an external device.
  • a network interface based on standards such as Ethernet (registered trademark), SATA, PCI Express, USB, and IEEE1394 can be used.
  • a wireless communication interface such as Bluetooth (registered trademark), IEEE802.11, or 4G may be used for communication.
  • the communication unit 150 receives the image 600 from the photographing device 200.
  • the communication unit 150 transmits the event notification to the mobile terminal 400.
  • control unit 110 The details of the function of the control unit 110 will be described.
  • FIG. 3 is a block diagram showing the function of the control unit 110 of the image recognition device 100.
  • the control unit 110 includes an image acquisition unit 111, a person area detection unit 112, a feature point estimation unit 113, a height information acquisition unit 114, a correction unit 115, and a posture estimation unit 116.
  • the height information acquisition unit 114 constitutes an information acquisition unit.
  • the image acquisition unit 111 acquires the image 600 received from the photographing device 200 by the communication unit 150.
  • the person area detection unit 112 is composed of NN.
  • the NN reflects the person area detection parameters obtained by learning to detect the person area.
  • the person area detection unit 112 generates a feature map in which pixel features are extracted by a convolution calculation based on the image 600.
  • the person area detection unit 112 detects the area where the object exists on the image 600 as a candidate rectangle from the feature map.
  • the person area detection unit 112 can detect the candidate rectangle by a known technique using NN such as Faster R-CNN.
  • the person area detection unit 112 calculates the reliability score for each predetermined category for each candidate rectangle. That is, the person area detection unit 112 calculates the reliability score for a predetermined category including the person.
  • the confidence score is the likelihood for each predetermined category.
  • the person area detection unit 112 is preliminarily learned to estimate the person area 610 from the image 600 by using the teacher data of the combination of the image 600 and the person area 610 set as the correct answer for the image 600. .. As a result, the above-mentioned person area detection parameter is reflected in the person area detection unit 112.
  • FIG. 4 is a diagram showing a person area 610 detected in the image 600.
  • the white circles indicate the joint points 621 and the gray circles indicate the opposite vertices 622 of the head rectangle 623, respectively.
  • the feature point estimation unit 113 is previously trained to estimate the feature point 620 from the person area 610 by using the teacher data of the combination of the person area 610 and the feature point 620 set as the correct answer for the person area 610. Has been done. As a result, the feature point estimation unit 113 reflects the above-mentioned feature point estimation parameters.
  • the height information acquisition unit 114 acquires, for example, height information from a predetermined position of the installation position of the photographing device 200 input by the user in the input unit 140.
  • the height of the installation position of the photographing device 200 from a predetermined position is also referred to as “the height of the photographing device 200”
  • the information of the height from the predetermined position is also referred to simply as “height information”.
  • the predetermined position is an arbitrary and constant position, and may be, for example, a position on the floor surface.
  • the correction unit 115 is based on the height information in accordance with the case where the height of the photographing apparatus 200 is a preset reference height, and the feature point 620 (more specifically, the coordinates of the feature point 620 in the image 600). ) Is corrected.
  • FIG. 6 is an explanatory diagram for explaining the correction of the feature point 620 by the correction unit 115.
  • the photographing apparatus 200A is installed at an installation position 240 cm from the floor surface, which is a reference height.
  • the photographing device 200B is installed at an installation position of 270 cm from the floor surface, which is higher than the reference height.
  • the size of the subject 500 on the image 600 is large even though the same subject 500 is photographed. different.
  • the subject 500 on the image 600 taken by the photographing device 200B at a height of 270 cm from the floor surface is on the image 600 taken by the photographing device 200A at a height of 240 cm from the floor surface. It is smaller than the subject 500.
  • Such a change in the size of the subject 500 on the image 600 due to the change in the height of the photographing device 200 is estimated by the posture estimation unit 116, which will be described later, of the posture of the subject 500 based on the feature point 620. It can reduce accuracy.
  • Such a decrease in the estimation accuracy of the posture is caused by a teacher of a combination of the feature points 620 estimated from the images 600 taken by the photographing apparatus 200 of various heights and the posture set as the correct answer for the feature points 620. This can be prevented by training the posture estimation unit 116 using the data. However, the amount of teacher data required to maintain posture estimation accuracy increases.
  • the height of the reference image plane with respect to the floor surface is ⁇ cm. Therefore, the distance between the reference image plane and the photographing device 200A is (240- ⁇ ) cm, and the distance between the reference image plane and the photographing device 200B is (270- ⁇ ) cm. Then, the ratio of the image 600 by the photographing device 200A to the image 600 by the photographing device 200B, which is the length that the object on the reference image plane is reflected in the image 600, is the ratio of (240- ⁇ ) and (270- ⁇ ). become. Therefore, the distance L from the center of the image 600 on the image 600 of the feature point 620 estimated from the image 600 captured by the photographing device 200B is the distance L'corrected by the following equation. The coordinates of the point 620 on the image 600 are corrected.
  • the height of the reference image plane can be set to an appropriate constant value by experiment from the viewpoint of posture estimation accuracy.
  • FIG. 7 is an explanatory diagram for explaining the feature points 620 before and after the correction on the image 600.
  • the center of the image 600 is indicated by a black dot
  • the feature point 620 is indicated by a white circle.
  • the feature point 620 whose distance from the center of the image 600 is L is the feature point before correction.
  • the feature point 620 whose distance from the center of the image 600 is L' is the corrected feature point.
  • the coordinates of the feature point 620 are corrected by changing the distance from the center of the image 600 to the center of the image 600 without changing the direction of the feature point 620 with respect to the center of the image 600.
  • the posture estimation unit 116 is composed of NN.
  • the posture estimation parameters obtained by learning for estimating the posture of a person are reflected in the NN.
  • the posture estimation unit 116 estimates the posture of the subject 500 based on the corrected feature point 620.
  • the posture estimation unit 116 is preliminarily learned to estimate the posture from the feature point 620 by using the combination of the feature point 620 and the posture set as the correct answer for the feature point 620 as teacher data. As a result, the posture estimation unit 116 reflects the above-mentioned posture estimation parameters.
  • the feature points 620 and the like used as the teacher data may be only those detected from the image 600 taken by the photographing device 200 installed at the reference height. That is, even if the photographing device 200 in which the image 600 for which the posture is to be estimated is captured is installed at a height other than the reference height, the image captured by the photographing device 200 installed at a height different from the reference height. It is not necessary to newly prepare teacher data such as feature points 620 detected from 600.
  • FIG. 8 is a flowchart showing the operation of the image recognition device 100. This flowchart is executed by the control unit 110 according to the program stored in the storage unit 120.
  • the person area detection unit 112 detects the person area 610 from the image 600 (S102).
  • the feature point estimation unit 113 estimates the feature point 620 from the person area 610 (S103).
  • the correction unit 115 corrects the feature point 620 based on the height information of the photographing device 200, in accordance with the case where the photographing device 200 is assumed to be installed at the reference height (S104).
  • the posture estimation unit 116 estimates the posture of the subject 500 based on the corrected feature point 620 (S105).
  • This embodiment has the following effects.
  • a second embodiment of the present invention will be described.
  • the differences between the present embodiment and the first embodiment are as follows.
  • the feature points 620 estimated from the person area 610 are corrected based on the height information, and the posture is estimated based on the corrected feature points 620.
  • the person area 610 is corrected based on the height information, and the posture is estimated based on the corrected person area 610. Since the present embodiment is the same as the first embodiment in other respects, duplicate description will be omitted or simplified.
  • FIG. 9 is a block diagram showing the function of the control unit 110 of the image recognition device 100.
  • the control unit 110 includes an image acquisition unit 111, a person area detection unit 112, a height information acquisition unit 114, a correction unit 115, and a posture estimation unit 116.
  • the correction unit 115 corrects the person area 610 based on the height information in accordance with the case where the height of the photographing device 200 is set as the reference height. Specifically, the correction of the coordinates of each feature point 620 performed in the first embodiment is performed for each pixel of the person area 610. As a result, each coordinate of the pixel of the person area is corrected, so that the corrected person area 610 is calculated. Although the pixel density of the person area 610 can be changed by correcting the person area 610, a known conversion can be performed to return the corrected person area 610 to the pixel density of the person area 610 before the correction.
  • the posture estimation unit 116 estimates the posture of the target person 500 based on the corrected person area 610.
  • the posture estimation unit 116 estimates the posture of the target person 500 based on the person area 610 and the height information (S303).
  • the function of the image recognition device 100 may be provided in the photographing device 200 or the mobile terminal 400 configured by the sensor box.
  • the image recognition device 100, the photographing device 200, and the mobile terminal 400 may each be configured by a plurality of devices, or any plurality of the devices may be configured as a single device.
  • the means and methods for performing various processes in the image recognition system 10 described above can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided by a computer-readable recording medium such as a USB memory or a DVD (Digital definitely Disc) -ROM, or may be provided online via a network such as the Internet.
  • the program recorded on the computer-readable recording medium is usually transferred to and stored in a storage unit such as a hard disk.
  • the above program may be provided as a single application software, or may be incorporated into the software of a device such as a detection unit as one function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる画像処理システムを提供する。 【解決手段】所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、撮影領域全体が撮影された画像を取得する画像取得部と、画像から人物領域を検出する人物領域検出部と、設置位置の所定位置からの高さの情報を取得する情報取得部と、人物領域と、高さの情報とに基づいて、機械学習により人物の姿勢を推定する姿勢推定部と、を有する。

Description

画像処理システム、画像処理プログラム、および画像処理方法
 本発明は、画像処理システム、画像処理プログラム、および画像処理方法に関する。
 我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。
 要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影された画像から検知対象である人物の姿勢等を高精度で検出する必要がある。
 しかし、特に魚眼レンズカメラのような広角レンズのカメラで撮影された全方位画像においては、レンズの歪み特性により、同じ人物であっても、人物の位置に応じて、画像内の人物の見え方が変化するという特徴をもつ。
 全方位画像等の画像から人物の姿勢を検出する技術としては、下記特許文献1および2に開示されたものがある。
 特許文献1には、人の個人IDと、画像における直立時の頭の大きさとを関連付けて登録しておき、画像における人の頭の像の大きさを検出し、検出された頭の像の大きさに基づいて人の姿勢を判別する技術が開示されている。特許文献2には、画像から人を含む人領域を検出し、人領域の画像と姿勢との組み合わせの教師データにより予め学習されたニューラルネットワーク等により、人領域の画像に基づいて人の姿勢を推定する技術が開示されている。
特開2015-158952号公報 特開2018-206321号公報
 しかし、特許文献1の技術は、画像上の頭の像の大きさに基づいて人物の姿勢を判別するに過ぎないため、高精度に姿勢を推定できないという問題がある。特許文献2の技術は、画像を撮影する撮影装置の設置場所の変更等により撮影装置の高さが変動した場合に、画像に基づく人物の姿勢の推定精度が低下するという問題がある。
 本発明は、このような問題を解決するためになされたものである。すなわち、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる画像処理システム、画像処理プログラム、および画像処理方法を提供することを目的とする。
 本発明の上記課題は、以下の手段によって解決される。
 (1)所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する画像取得部と、前記画像から人物領域を検出する人物領域検出部と、前記設置位置の、所定位置からの高さの情報を取得する情報取得部と、前記人物領域と、前記高さの情報とに基づいて、機械学習により人物の姿勢を推定する姿勢推定部と、を有する画像処理システム。
 (2)前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する補正部をさらに有し、前記姿勢推定部は、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習され、前記補正部により補正された前記人物領域に基づいて人物の姿勢を推定する、上記(1)に記載の画像処理システム。
 (3)前記人物領域から、人の体に関する特徴点を推定する特徴点推定部と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する補正部をさらに有し、前記姿勢推定部は、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習され、前記補正部により補正された前記特徴点に基づいて人物の姿勢を推定する、上記(1)に記載の画像処理システム。
 (4)所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する手順(a)と、前記画像から人物領域を検出する手順(b)と、前記設置位置の、所定位置からの高さの情報を取得する手順(c)と、前記人物領域と、前記高さの情報とに基づいて、機械学習により人物の姿勢を推定する手順(d)と、を有する処理を、コンピューターに実行させるための画像処理プログラム。
 (5)前記処理は、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する手順(e)をさらに有し、前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記手順(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、上記(4)に記載の画像処理プログラム。
 (6)前記処理は、前記人物領域から、人の体に関する特徴点を推定する手順(f)と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する手順(g)と、をさらに有し、前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記手順(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、上記(4)に記載の画像処理プログラム。
 (7)画像処理システムによる画像処理方法であって、所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する段階(a)と、前記画像から人物領域を検出する段階(b)と、前記設置位置の、所定位置からの高さの情報を取得する段階(c)と、前記人物領域と、前記高さの情報とに基づいて、機械学習により人物の姿勢を推定する段階(d)と、を有する画像処理方法。
 (8)前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する段階(e)をさらに有し、前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記段階(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、上記(7)に記載の画像処理方法。
 (9)前記人物領域から、人の体に関する特徴点を推定する段階(f)と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する段階(g)と、をさらに有し、前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記段階(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、上記(7)に記載の画像処理方法。
 所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置が設置された高さの情報と、人物領域とに基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる。
実施形態に係る画像認識装置を含む画像認識システムの概略構成を示す図である。 画像認識装置のハードウェア構成を示すブロック図である。 画像認識装置の制御部の機能を示すブロック図である。 画像において検出された人物領域を示す図である。 特徴点を示す説明図である。 補正部による特徴点の補正について説明するための説明図である。 補正前後の特徴点を画像上で説明するための説明図である。 画像認識装置の動作を示すフローチャートである。 画像認識装置の制御部の機能を示すブロック図である。 画像認識装置の動作を示すフローチャートである。 画像認識装置の制御部の機能を示すブロック図である。 画像認識装置の動作を示すフローチャートである。
 以下、図面を参照して、本発明の実施形態に係る、画像処理システム、画像処理プログラム、および画像処理方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 (第1実施形態)
 図1は、実施形態に係る画像認識装置100を含む画像認識システム10の概略構成を示す図である。
 画像認識システム10は、画像認識装置100、撮影装置200、通信ネットワーク300、および携帯端末400を有する。画像認識装置100は、通信ネットワーク300により撮影装置200および携帯端末400と相互に通信可能に接続される。
 画像認識装置100は、撮影装置200により撮影された画像(以下、単に「画像600」とも称する(図4等参照))を、撮影装置200から受信し、画像600から人物である対象者500を含む領域を人物領域610として検出する。画像認識装置100は、画像600上で物体(オブジェクト)が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、人物領域610を検出し得る。物体が存在する領域は、画像600上で物体が含まれる矩形(候補矩形)として検出される。画像認識装置100は、検出された候補矩形のうち、物体のカテゴリーが人物であると推定された候補矩形を検出することで、人物領域610を検出する。画像認識装置100は、人物領域610に基づいて、対象者500の姿勢または行動を検出する。姿勢には、立位、中腰、座位、臥位、しゃがみ込み、および座り込みが含まれる。行動には、起床、離床、転倒、および転落が含まれる。後述するように、人物領域610は、撮影装置200の設置位置の高さが予め設定した基準高さである場合に合わせて、撮影装置200の設置位置の高さに基づいて、補正される。また、推定した姿勢または行動から、対象者500に関するイベントを検出し得る。イベントとは、対象者500に関し、画像認識装置100等が認識した状態の変化であって、例えば、起床、離床、転倒、および転落等のスタッフ80に発報(報知)を行うべき事象である。画像認識装置100は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末400へ送信する。画像認識装置100は、ニューラルネットワーク(以下、「NN」と称する)により、対象者500を画像600上の人物領域610として検出し得る。NNによる対象物体の検出方法としては、例えば、Faster R-CNN、Fast R-CNN、およびR-CNNといった公知の方法が挙げられる。画像認識装置100は、コンピューターにより構成される。画像認識装置100は、例えば、サーバーにより構成され得る。
 撮影装置200は、例えば、近赤外線カメラにより構成され、所定の撮影領域を俯瞰する設置位置に設置され、撮影領域全体を撮影する。撮影装置200の設置位置は、例えば対象者500の居室の天井である。所定の撮影領域は、例えば、居室の床面全体を含む3次元の領域である。以下、撮影装置200は対象者500の居室の天井に設置されるものとして説明する。撮影装置200は、LED(Light Emitting Device)により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をCMOS(Complememtary Metal Oxide Semiconductor)センサーにより受光することで撮影領域を撮影し得る。画像600は近赤外線の反射率を各画素とするモノクロ画像であり得る。
 撮影装置200は、たとえば15fps~30fpsのフレームレートの動画として撮影領域を撮影し得る。画像600には動画と静止画とが含まれる。撮影装置200は、画像600を画像認識装置100等に送信する。
 撮影装置200は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える装置である。この場合、画像600が、センサーボックスから画像認識装置100へ送信される。なお、画像認識装置100の機能の一部または全部をセンサーボックスが有するようにしてもよい。体動センサーは、ベッドに対してマイクロ波を送受信して対象者500の体動(例えば呼吸動)によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。
 通信ネットワーク300には、イーサネット(登録商標)などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク300には、Bluetooth(登録商標)、IEEE802.11などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク300には、アクセスポイント310が設けられ、携帯端末400と、画像認識装置100および撮影装置200とを無線通信ネットワークにより通信可能に接続する。
 携帯端末400は、画像認識装置100からイベント通知を受信し、イベント通知の内容を表示する。イベント通知には、起床、離床、転倒、および転落の検出結果の他、微体動異常等の検出結果が含まれ得る。携帯端末400は、撮影装置200または画像認識装置100から画像600を受信して表示し得る。携帯端末400は、たとえばスマートフォンにより構成される。
 図2は、画像認識装置100のハードウェア構成を示すブロック図である。画像認識装置100は、制御部110、記憶部120、表示部130、入力部140、および通信部150を有する。これらの構成要素は、バス160を介して相互に接続される。
 制御部110は、CPU(Central Processing Unit)により構成され、プログラムに従って画像認識装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
 記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、およびSSD(Solid State Drive)により構成され得る。RAMは、制御部110の作業領域として一時的にプログラムやデータを記憶する。ROMは、あらかじめ各種プログラムや各種データを格納する。SSDは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。
 表示部130は、たとえば液晶ディスプレイであり、各種情報を表示する。
 入力部140は、たとえばタッチパネルや各種キーにより構成される。入力部140は、各種操作、入力のために使用される。
 通信部150は、外部機器と通信するためのインターフェースである。通信には、イーサネット(登録商標)、SATA、PCI Express、USB、IEEE1394などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Bluetooth(登録商標)、IEEE802.11、4G等の無線通信インターフェースが用いられ得る。通信部150は、撮影装置200から画像600を受信する。通信部150は、イベント通知を携帯端末400へ送信する。
 制御部110の機能の詳細について説明する。
 図3は、画像認識装置100の制御部110の機能を示すブロック図である。制御部110は、画像取得部111、人物領域検出部112、特徴点推定部113、高さ情報取得部114、補正部115、および姿勢推定部116を含む。高さ情報取得部114は情報取得部を構成する。
 画像取得部111は、通信部150により撮影装置200から受信した画像600を取得する。
 人物領域検出部112はNNにより構成される。NNには、人物領域を検出するための学習により得られた人物領域検出パラメーターが反映されている。人物領域検出部112は、画像600に基づく畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。人物領域検出部112は、特徴マップから、画像600上で物体が存在する領域を候補矩形として検出する。人物領域検出部112は、Faster R-CNN等のNNを用いた公知の技術により候補矩形を検出し得る。人物領域検出部112は、各候補矩形について、所定のカテゴリーごとの信頼度スコアを算出する。すなわち、人物領域検出部112は、人物を含む所定のカテゴリーに関する信頼度スコアを算出する。信頼度スコアは、所定のカテゴリーごとの尤度である。人物領域検出部112は、Faster R-CNN等のNNを用いた公知の技術により信頼度スコアを算出し得る。所定のカテゴリーは、例えば、人物、椅子、および機具とし得る。人物領域検出部112は、信頼度スコアが最も高いカテゴリーが人物である候補矩形をそれぞれ人物領域610として検出する。なお、1つの候補矩形に対し、所定のカテゴリーことにそれぞれ算出された信頼度スコアの和は1となる。
 人物領域検出部112は、画像600と、当該画像600に対する正解として設定された人物領域610との組合せの教師データを用いて、画像600から人物領域610を推定するための学習が予めされている。これにより、人物領域検出部112には、上述した人物領域検出パラメーターが反映されている。
 図4は、画像600において検出された人物領域610を示す図である。
 図4の例においては、人物領域610が、人物である対象者500を囲む矩形の領域として検出されている。この場合、人物領域610は、画像600における人物領域610の矩形の対頂点のいずれかの組をなす2つの点の座標として画像600とともに出力され得る。
 特徴点推定部113はNNにより構成される。NNには、人の体に関する特徴点620(以下、単に「特徴点620」とも称する)を推定するための学習により得られた特徴点推定パラメーターが反映されている。特徴点推定部113は、人物領域610に基づいて、特徴点620を推定する。特徴点620には、関節点621、および頭部矩形623の対頂点622が含まれ得る。頭部矩形623は、人物の頭部を含む矩形の領域である。特徴点推定部113は、DeepPose等のNNを用いた公知の技術により特徴点620を推定し得る。DeepPoseについては、公知の文献(Alexander Toshev, et al. “DeepPose: Human Pose Estimation via Deep Neural Networks”, in CVPR, 2014)に詳細が記載されている。
 図5は、特徴点620を示す説明図である。図5には、人物領域610(より詳しくは、人物領域610の枠)も併せて示されている。
 図5の例において、白い丸はそれぞれ関節点621を示し、グレーの丸はそれぞれ頭部矩形623の対頂点622を示している。
 特徴点推定部113は、人物領域610と、当該人物領域610に対する正解として設定された特徴点620との組合せの教師データを用いて、人物領域610から特徴点620を推定するための学習が予めされている。これにより、特徴点推定部113には、上述した特徴点推定パラメーターが反映されている。
 高さ情報取得部114は、例えば、ユーザーにより入力部140において入力された、撮影装置200の設置位置の、所定位置からの高さの情報を取得する。以下、撮影装置200の設置位置の所定位置からの高さを「撮影装置200の高さ」と、所定位置からの高さの情報を単に「高さ情報」ともそれぞれ称する。所定位置は任意かつ一定の位置であり、例えば、床面の位置とし得る。
 補正部115は、撮影装置200の高さが予め設定された基準高さである場合に合わせて、高さ情報に基づいて、特徴点620(より詳細には、画像600における特徴点620の座標)を補正する。
 図6は、補正部115による特徴点620の補正について説明するための説明図である。
 図6において、撮影装置200Aは、基準高さである、床面から240cmの設置位置に設置されている。撮影装置200Bは、基準高さより高い、床面から270cmの設置位置に設置されている。撮影装置200Aと撮影装置200Bとで、床面上で固定された同じ対象者500を撮影すると、同じ対象者500を撮影しているにもかかわらず、画像600上の対象者500の大きさが異なる。具体的には、床面から270cmの高さの撮影装置200Bにより撮影された画像600上の対象者500の方が、床面から240cmの高さの撮影装置200Aにより撮影された画像600上の対象者500よりも小さくなる。このような、撮影装置200の高さが変化することによる画像600上の対象者500の大きさの変動は、後述する、姿勢推定部116による、特徴点620に基づく対象者500の姿勢の推定精度を低下させ得る。このような姿勢の推定精度の低下は、様々な高さの撮影装置200で撮影された画像600から推定された特徴点620と、当該特徴点620に対する正解として設定された姿勢との組合せの教師データを用いて姿勢推定部116を学習させることで防止できる。しかし、姿勢の推定精度を維持するために必要な教師データの量が増大する。そこで、撮影装置200の高さが変動しても、必要な教師データの量を増大させずに、高精度な姿勢推定を実現するために、特徴点620を補正する。具体的には、特徴点620を、基準高さの撮影装置200により撮影された場合に合わせて補正する。すなわち、各特徴点620相互の距離および位置の相対的関係が、撮影装置200が基準高さに設置された場合の各特徴点620相互の距離および位置の相対的関係となるように、特徴点620を補正する。
 図6に示すように、床面に対する基準画像平面の高さは、αcmである。従って、基準画像平面と撮影装置200Aとの距離は(240-α)cmであり、基準画像平面と撮影装置200Bとの距離は(270-α)cmである。そうすると、基準画像平面上のものが画像600に映る長さの、撮影装置200Aによる画像600と、撮影装置200Bによる画像600との比は、(240-α)と(270-α)との比になる。そこで、撮影装置200Bにより撮影された画像600から推定された特徴点620の、画像600上の画像600の中心からの距離Lが、下記式による補正後の距離L’となるように、当該特徴点620の、当該画像600上の座標を補正する。基準画像平面の高さは、姿勢推定精度の観点から実験により適当な一定の値に設定し得る。
 L’=L×(270-α)/(240-α)
 図7は、補正前後の特徴点620を画像600上で説明するための説明図である。
 図7において、画像600の中心が黒い点で示されており、特徴点620が白抜きの丸で示されている。画像600の中心との距離がLである特徴点620が補正前の特徴点である。画像600の中心との距離がL’である特徴点620が補正後の特徴点である。図7に示すように、特徴点620は、画像600の中心に対する特徴点620の方向は変えずに、画像600の中心との距離を上記式により変更することで、その座標が補正される。
 姿勢推定部116は、NNにより構成される。NNには、人物の姿勢を推定するための学習により得られた姿勢推定パラメーターが反映されている。姿勢推定部116は、補正後の特徴点620に基づいて、対象者500の姿勢を推定する。
 姿勢推定部116は、特徴点620と、当該特徴点620に対する正解として設定された姿勢との組合せを教師データとして、特徴点620から姿勢を推定するための学習が予めされている。これにより、姿勢推定部116には、上述した姿勢推定パラメーターが反映されている。教師データとして用いられる特徴点620等は、基準高さに設置された撮影装置200により撮影された画像600から検出されたもののみでよい。すなわち、姿勢推定しようとする画像600が撮影された撮影装置200が基準高さ以外の高さに設置されていても、当該基準高さと異なる高さに設置された撮影装置200により撮影された画像600から検出された特徴点620等の教師データを新たに用意する必要はない。
 画像認識装置100の動作について説明する。
 図8は、画像認識装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
 画像取得部111は、撮影装置200から画像600を、通信部150を介して受信することで取得する(S101)。
 人物領域検出部112は、画像600から人物領域610を検出する(S102)。
 特徴点推定部113は、人物領域610から特徴点620を推定する(S103)。
 補正部115は、撮影装置200の高さ情報に基づいて、撮影装置200が基準高さに設置されたと仮定された場合に合わせて、特徴点620を補正する(S104)。
 姿勢推定部116は、補正後の特徴点620に基づいて、対象者500の姿勢を推定する(S105)。
 本実施形態は以下の効果を奏する。
 所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、人物領域から特徴点を推定し、撮影装置の高さが基準高さである場合に合わせて特徴点を補正し、補正後の特徴点に基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できるとともに、撮影装置の設置高さの変化に起因する、機械学習による姿勢推定精度の低下を防止するために必要な、機械学習に用いる教師データを削減できる。
 (第2実施形態)
 本発明の第2実施形態について説明する。本実施形態と第1実施形態とで異なる点は次の点である。第1実施形態は、人物領域610から推定された特徴点620を高さ情報に基づいて補正し、補正後の特徴点620に基づいて姿勢を推定する。一方、本実施形態は、人物領域610を高さ情報に基づいて補正し、補正後の人物領域610に基づいて姿勢を推定する。その他の点については、本実施形態は第1実施形態と同様であるため、重複する説明は省略または簡略化する。
 図9は、画像認識装置100の制御部110の機能を示すブロック図である。制御部110は、画像取得部111、人物領域検出部112、高さ情報取得部114、補正部115、および姿勢推定部116を含む。
 補正部115は、撮影装置200の高さが基準高さとされた場合に合わせて、高さ情報に基づいて人物領域610を補正する。具体的には、第1実施形態において行った各特徴点620の座標の補正を、人物領域610の各画素について行う。これにより、人物領域の画素の各座標が補正されることで、補正後の人物領域610が算出される。なお、人物領域610が補正されることにより、人物領域610の画素密度が変化し得るが、補正後の人物領域610について、補正前の人物領域610の画素密度に戻す公知の変換がなされ得る。
 姿勢推定部116は、補正後の人物領域610に基づいて、対象者500の姿勢を推定する。
 姿勢推定部116は、人物領域610と、当該人物領域610に対する正解として設定された姿勢との組合せを教師データとして、人物領域610から姿勢を推定するための学習が予めされる。教師データとして用いられる人物領域610等は、基準高さに設置された撮影装置200により撮影された画像600から検出されたもののみでよい。すなわち、姿勢推定しようとする画像600が撮影された撮影装置200が基準高さ以外の高さに設置されていても、当該基準高さと異なる高さに設置された撮影装置200により撮影された画像600から検出された人物領域610等の教師データを新たに用意する必要はない。
 画像認識装置100の動作について説明する。
 図10は、画像認識装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
 画像取得部111は、撮影装置200から画像600を、通信部150を介して受信することで取得する(S201)。
 人物領域検出部112は、画像600から対象者500を含む人物領域610を検出する(S202)。
 補正部115は、撮影装置200が基準高さに設置された場合に合わせて、撮影装置200の高さ情報に基づいて、人物領域610を補正する(S203)。
 姿勢推定部116は、補正後の人物領域610に基づいて、対象者500の姿勢を推定する(S204)。
 本実施形態は以下の効果を奏する。
 所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置の高さが基準高さである場合に合わせて人物領域を補正し、補正後の人物領域に基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できるとともに、撮影装置の設置高さの変化に起因する、機械学習による姿勢推定精度の低下を防止するために必要な、機械学習に用いる教師データを削減できる。
 (第3実施形態)
 本発明の第3実施形態について説明する。本実施形態と第1実施形態とで異なる点は次の点である。第1実施形態は、人物領域610から推定された特徴点620を高さ情報に基づいて補正し、補正後の特徴点620に基づいて姿勢を推定する。一方、本実施形態は、特徴点620等の補正はせずに、人物領域610と、高さ情報とに基づいて、機械学習により姿勢を推定する。その他の点については、本実施形態は第1実施形態と同様であるため、重複する説明は省略または簡略化する。
 図11は、画像認識装置100の制御部110の機能を示すブロック図である。制御部110は、画像取得部111、人物領域検出部112、高さ情報取得部114、および姿勢推定部116を含む。
 姿勢推定部116は、画像600から検出された人物領域610と、高さ情報とに基づいて、対象者500の姿勢を推定する。
 姿勢推定部116は、人物領域610および高さ情報と、当該人物領域610および高さ情報の入力に対する正解として設定された姿勢との組合せを教師データとして、人物領域610および高さ情報から姿勢を推定するための学習が予めされる。教師データとして用いられる人物領域610および高さ情報と、当該人物領域610および高さ情報の入力に対する正解として設定された姿勢との組合せは、複数の高さに設置された撮影装置200により撮影された画像600に基づくものを用いる。すなわち、教師データとして、様々な高さに設置された撮影装置200により撮影された画像600に基づいて得られた、人物領域610および高さ情報の入力と、当該人物領域610および高さ情報の入力に対する正解として設定された姿勢の正解ラベルとの組合せを用いる。
 画像認識装置100の動作について説明する。
 図12は、画像認識装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
 画像取得部111は、撮影装置200から画像600を、通信部150を介して受信することで取得する(S301)。
 人物領域検出部112は、画像600から対象者500を含む人物領域610を検出する(S302)。
 姿勢推定部116は、人物領域610および高さ情報に基づいて、対象者500の姿勢を推定する(S303)。
 本実施形態は以下の効果を奏する。
 所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置が設置された高さの情報と、人物領域とに基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる。
 以上に説明した画像認識システム10の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。
 例えば、上述の実施形態においては、基準高さと基準画像平面の高さは別々に設定している。しかし、基準高さと基準画像平面の高さは同じであってもよい。
 また、画像認識装置100が有する機能を、センサーボックスにより構成される撮影装置200、または携帯端末400が備えるようにしてもよい。
 また、画像認識装置100、撮影装置200、および携帯端末400は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。
 また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
 また、上述した画像認識システム10における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
 本出願は、2019年5月29日に出願された日本特許出願(特願2019-100699号)に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims (9)

  1.  所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する画像取得部と、
     前記画像から人物領域を検出する人物領域検出部と、
     前記設置位置の、所定位置からの高さの情報を取得する情報取得部と、
     前記人物領域と、前記高さの情報とに基づいて、機械学習により人物の姿勢を推定する姿勢推定部と、
     を有する画像処理システム。
  2.  前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する補正部をさらに有し、
     前記姿勢推定部は、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習され、前記補正部により補正された前記人物領域に基づいて人物の姿勢を推定する、
     請求項1に記載の画像処理システム。
  3.  前記人物領域から、人の体に関する特徴点を推定する特徴点推定部と、
     前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する補正部をさらに有し、
     前記姿勢推定部は、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習され、前記補正部により補正された前記特徴点に基づいて人物の姿勢を推定する、
     請求項1に記載の画像処理システム。
  4.  所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する手順(a)と、
     前記画像から人物領域を検出する手順(b)と、
     前記設置位置の、所定位置からの高さの情報を取得する手順(c)と、
     前記人物領域と、前記高さの情報とに基づいて、機械学習により人物の姿勢を推定する手順(d)と、
     を有する処理を、コンピューターに実行させるための画像処理プログラム。
  5.  前記処理は、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する手順(e)をさらに有し、
     前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記手順(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、
     請求項4に記載の画像処理プログラム。
  6.  前記処理は、前記人物領域から、人の体に関する特徴点を推定する手順(f)と、
     前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する手順(g)と、をさらに有し、
     前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記手順(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、
     請求項4に記載の画像処理プログラム。
  7.  画像処理システムによる画像処理方法であって、
     所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する段階(a)と、
     前記画像から人物領域を検出する段階(b)と、
     前記設置位置の、所定位置からの高さの情報を取得する段階(c)と、
     前記人物領域と、前記高さの情報とに基づいて、機械学習により人物の姿勢を推定する段階(d)と、
     を有する画像処理方法。
  8.  前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する段階(e)をさらに有し、
     前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記段階(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、
     請求項7に記載の画像処理方法。
  9.  前記人物領域から、人の体に関する特徴点を推定する段階(f)と、
     前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する段階(g)と、をさらに有し、
     前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された姿勢推定部により、前記段階(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、
     請求項7に記載の画像処理方法。
PCT/JP2020/015551 2019-05-29 2020-04-06 画像処理システム、画像処理プログラム、および画像処理方法 WO2020241057A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021522674A JP7067672B2 (ja) 2019-05-29 2020-04-06 画像処理システム、画像処理プログラム、および画像処理方法
JP2022072168A JP7347577B2 (ja) 2019-05-29 2022-04-26 画像処理システム、画像処理プログラム、および画像処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-100699 2019-05-29
JP2019100699 2019-05-29

Publications (1)

Publication Number Publication Date
WO2020241057A1 true WO2020241057A1 (ja) 2020-12-03

Family

ID=73552318

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/015551 WO2020241057A1 (ja) 2019-05-29 2020-04-06 画像処理システム、画像処理プログラム、および画像処理方法

Country Status (2)

Country Link
JP (2) JP7067672B2 (ja)
WO (1) WO2020241057A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7162369B1 (ja) * 2021-10-25 2022-10-28 株式会社Opt Fit 情報処理方法、プログラム及び情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002218449A (ja) * 2001-01-17 2002-08-02 Atr Media Integration & Communications Res Lab 移動物体追跡装置
US20180342081A1 (en) * 2017-05-25 2018-11-29 Samsung Electronics Co., Ltd. Method and system for detecting dangerous situation
WO2019016879A1 (ja) * 2017-07-19 2019-01-24 株式会社日立製作所 物体検出装置、及び、物体検出手法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272926A (ja) * 1993-03-31 1996-10-18 Y M Syst Kk 人数検出装置
JP6189170B2 (ja) * 2013-10-16 2017-08-30 セコム株式会社 姿勢推定装置
JP6428144B2 (ja) * 2014-10-17 2018-11-28 オムロン株式会社 エリア情報推定装置、エリア情報推定方法、および空気調和装置
JP6444283B2 (ja) * 2015-08-31 2018-12-26 セコム株式会社 姿勢判定装置
JP2017097577A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 姿勢推定方法及び姿勢推定装置
JP2019040465A (ja) * 2017-08-25 2019-03-14 トヨタ自動車株式会社 行動認識装置,学習装置,並びに方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002218449A (ja) * 2001-01-17 2002-08-02 Atr Media Integration & Communications Res Lab 移動物体追跡装置
US20180342081A1 (en) * 2017-05-25 2018-11-29 Samsung Electronics Co., Ltd. Method and system for detecting dangerous situation
WO2019016879A1 (ja) * 2017-07-19 2019-01-24 株式会社日立製作所 物体検出装置、及び、物体検出手法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7162369B1 (ja) * 2021-10-25 2022-10-28 株式会社Opt Fit 情報処理方法、プログラム及び情報処理装置

Also Published As

Publication number Publication date
JPWO2020241057A1 (ja) 2020-12-03
JP7067672B2 (ja) 2022-05-16
JP7347577B2 (ja) 2023-09-20
JP2022095994A (ja) 2022-06-28

Similar Documents

Publication Publication Date Title
CN111507176B (zh) 姿势估计装置、行动估计装置、记录介质、姿势估计方法
US9477880B2 (en) Behavior detection method and behavior detection apparatus
JP2020086819A (ja) 画像処理プログラムおよび画像処理装置
JP2020027405A (ja) 物体検出プログラム、および物体検出装置
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2019121045A (ja) 姿勢推定システム、行動推定システム、および姿勢推定プログラム
JP6729510B2 (ja) 見守り支援システム及びその制御方法
WO2020008726A1 (ja) 対象物体検出プログラム、および対象物体検出装置
JP6288770B2 (ja) 顔検出方法、顔検出システム、および顔検出プログラム
JP2019185556A (ja) 画像解析装置、方法およびプログラム
WO2021033453A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
WO2020261403A1 (ja) 身長推定装置、身長推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JPWO2019193899A1 (ja) 演算装置の学習方法、学習装置、学習プログラム、および学習済みモデル
US20230412919A1 (en) Device and method for controlling a camera
JP2020134971A (ja) 現場学習評価プログラム、現場学習評価方法、および現場学習評価装置
JP6870514B2 (ja) 見守り支援システム及びその制御方法
JP2021033379A (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP7314939B2 (ja) 画像認識プログラム、画像認識装置、学習プログラム、および学習装置
WO2021024691A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
WO2021033597A1 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP6115693B1 (ja) 対象物検出装置および対象物検出方法ならびに被監視者監視装置
JP2022165483A (ja) 検出装置、検出システム、検出方法、および検出プログラム
JP7124746B2 (ja) 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置
JP2023015598A (ja) 制御装置、制御方法、制御プログラム、および情報処理システム
JP2021149692A (ja) 画像処理システム及び制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20813689

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021522674

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20813689

Country of ref document: EP

Kind code of ref document: A1