WO2023007601A1 - 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体 - Google Patents

動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2023007601A1
WO2023007601A1 PCT/JP2021/027844 JP2021027844W WO2023007601A1 WO 2023007601 A1 WO2023007601 A1 WO 2023007601A1 JP 2021027844 W JP2021027844 W JP 2021027844W WO 2023007601 A1 WO2023007601 A1 WO 2023007601A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
registered
action
user
registration
Prior art date
Application number
PCT/JP2021/027844
Other languages
English (en)
French (fr)
Inventor
諒 川合
登 吉田
健全 劉
隼輔 津田
佑樹 鶴岡
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US18/274,620 priority Critical patent/US20240096182A1/en
Priority to PCT/JP2021/027844 priority patent/WO2023007601A1/ja
Priority to JP2023537803A priority patent/JPWO2023007601A5/ja
Publication of WO2023007601A1 publication Critical patent/WO2023007601A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47FSPECIAL FURNITURE, FITTINGS, OR ACCESSORIES FOR SHOPS, STOREHOUSES, BARS, RESTAURANTS OR THE LIKE; PAYING COUNTERS
    • A47F9/00Shop, bar, bank or like counters
    • A47F9/02Paying counters
    • A47F9/04Check-out counters, e.g. for self-service stores
    • A47F9/046Arrangement of recording means in or on check-out counters
    • A47F9/047Arrangement of recording means in or on check-out counters for recording self-service articles without cashier or assistant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/18Payment architectures involving self-service terminals [SST], vending machines, kiosks or multimedia terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/208Input by product or record sensing, e.g. weighing or scanner processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0054Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0054Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles
    • G07G1/0063Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles with means for detecting the geometric dimensions of the article of which the code is read, such as its size or height, for the verification of the registration
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0054Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles
    • G07G1/0072Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles with means for detecting the weight of the article of which the code is read, for the verification of the registration
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0081Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader the reader being a portable scanner or data reader
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G3/00Alarm indicators, e.g. bells
    • G07G3/003Anti-theft control
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for

Definitions

  • the present disclosure relates to motion detection systems, motion detection methods, and non-transitory computer-readable media.
  • a monitoring system that transmits to an administrator terminal.
  • the management server of the monitoring system analyzes the saved moving image file and checks whether the moving image file contains image data corresponding to a fraud pattern.
  • An object of the present disclosure is to provide a motion detection system, a motion detection method, and a non-temporary computer-readable medium that suitably detect fraudulent actions related to payment machines in view of the above-described problems.
  • a motion detection system includes: In response to detecting that the user has visited a predetermined payment machine, start specifying at least one action ID based on at least part of skeleton information extracted from video data of the user. a motion specifying means for determining means for determining whether or not the motion sequence including the identified at least one motion ID corresponds to a registered motion sequence that has been registered in advance; and processing control means for executing predetermined processing according to the determination result.
  • a motion detection method includes: In response to detecting that the user has visited a predetermined payment machine, start specifying at least one action ID based on at least part of skeleton information extracted from video data of the user. death, determining whether or not the motion sequence including the identified at least one motion ID corresponds to a registered motion sequence registered in advance; Predetermined processing is executed according to the determination result.
  • a non-transitory computer-readable medium comprising: In response to detecting that the user has visited a predetermined payment machine, start specifying at least one action ID based on at least part of skeleton information extracted from video data of the user. a motion-specifying process to a determination process of determining whether or not the motion sequence including the identified at least one motion ID corresponds to a registered motion sequence that has been registered in advance; A program for causing a computer to execute a process control process for executing a predetermined process according to a determination result is stored.
  • FIG. 1 is a block diagram showing the configuration of a motion detection system according to a first embodiment
  • FIG. 4 is a flow chart showing the flow of a motion detection method according to the first embodiment
  • FIG. 10 is a diagram showing the overall configuration of a motion detection system according to a second embodiment
  • FIG. 7 is a block diagram showing configurations of a server and a terminal device according to the second embodiment
  • FIG. 10 is a diagram showing skeleton information extracted from a frame image included in video data according to the second embodiment;
  • FIG. 13 is a block diagram showing configurations of a server and a terminal device according to a third embodiment
  • FIG. 11 is a diagram for explaining an unauthorized operation sequence according to the third embodiment
  • FIG. 14 is a block diagram showing configurations of a server and a terminal device according to a fourth embodiment
  • FIG. 16 is a flow chart showing the flow of a motion detection method by a server according to the fourth embodiment
  • FIG. 1 is a block diagram showing the configuration of a motion detection system 10 according to the first embodiment.
  • the motion detection system 10 is a computer system that detects fraudulent actions related to payment machines by users who visit payment machines in stores.
  • a payment machine is a device that executes money processing based on an operator's operation.
  • the motion detection system 10 includes a motion identification unit 18 , a determination unit 20 and a process control unit 21 .
  • the motion specifying unit 18 is also called motion specifying means.
  • the motion identifying unit 18 starts identifying a motion ID based on skeleton information extracted from video data of the user.
  • the action ID is information that identifies the action.
  • An action ID of 1 may identify an individual action such as "remove item from basket,” “scan item,” or “add item to basket.”
  • an action ID of 1 may identify a series of actions in which a plurality of individual actions are combined, such as "take out the product from the basket, scan the product, and put the product in the basket.”
  • the motion ID specified by the motion identifying unit 18 from the video data may be one or plural. Note that the action identifying unit 18 may identify the action ID based on all of the skeleton information extracted from the video data, or may identify the action ID based on a portion of the skeleton information.
  • Detection of the start trigger may be detection of a person area from an image captured by a camera that captures the scenery around the payment machine.
  • detection of the start trigger may be detection of a human region recognized as the same person for a predetermined period of time.
  • the start trigger may be detection of placement of a basket containing products on a predetermined placement table from a camera image or a measurement value of a load sensor.
  • detection of the start trigger may be detection of an operation signal indicating that the settlement start button has been pressed. Further, the detection of the start trigger may be the acquisition of the sound for the start of settlement.
  • the action specifying unit 18 may end specifying the action ID in response to detecting that the user has left the payment machine.
  • "User left the payment machine” is also called an end trigger.
  • Detection of the end trigger may be when the person area is no longer detected from the image captured by the camera that captures the scenery around the payment machine. In particular, the detection of the end trigger may be that the person region recognized as the same person is no longer detected for a predetermined period of time after the start trigger. Further, detection of the end trigger may be detection from the image of the camera or the measurement value of the load sensor that the pre-scan product has disappeared from the basket placed on the predetermined placing table. Further, detection of the end trigger may be detection of an operation signal indicating that the settlement end button has been pressed. Further, detection of the end trigger may be the acquisition of a voice indicating completion of payment.
  • the determination unit 20 is also called determination means.
  • the determination unit 20 determines whether or not the motion sequence including at least one identified motion ID corresponds to the registered motion sequence.
  • a registered operation sequence defines normal behavior associated with a payment machine, and its configuration is pre-registered in an operation sequence table (not shown).
  • the registered motion sequence includes one or more registered motion IDs that are motion IDs pre-registered in a motion database (DB) (not shown). Note that when the registration operation sequence includes a plurality of registration operation IDs, the registration operation sequence includes a combination of the registration operation IDs and information on the chronological order in which each registration operation ID is performed. For example, the registration operation sequence includes a plurality of registration operation IDs in chronological order.
  • the processing control unit 21 is also called processing control means.
  • the processing control unit 21 executes predetermined processing according to the result of the above determination.
  • the predetermined processing may be notification of warning information to the user, notification of warning information to store staff, or the operation sequence corresponding to the registration operation sequence. It may be to record that there was not.
  • FIG. 2 is a flow chart showing the flow of the motion detection method according to the first embodiment.
  • the motion detection system 10 determines whether or not the user has visited the payment machine (S10). That is, the motion detection system 10 determines whether or not the start trigger has been detected. Then, when it is determined that the user has visited the payment machine (Yes in S10), the motion specifying unit 18 starts specifying a motion ID based on the skeleton information extracted from the video data (S11). The determination unit 20 determines whether or not the motion sequence including the motion ID specified in S11 corresponds to the registered motion sequence (S12). If the determination unit 20 determines that the operation sequence corresponds to the registered operation sequence (Yes in S12), the determination unit 20 determines that a normal action has been performed, and terminates the process.
  • the determination unit 20 determines that the operation sequence corresponds to the registered operation sequence (No in S12), it determines that a fraudulent act has been performed, and advances the process to S13. Then, the processing control unit 21 executes a predetermined process (S13) and terminates the process.
  • the motion detection system 10 detects fraudulent behavior related to the payment machine by determining whether or not the flow of actions of the user visiting the payment machine is normal. Therefore, it is possible to automatically detect fraudulent actions by users even in stores with few or no staff.
  • the motion detection system 10 since the motion is specified after the user visits the payment machine, the processing load can be reduced and the amount of data to be processed can be reduced. In addition, since the motion detection system 10 terminates motion identification when the user leaves the payment machine, the above-described effects can be obtained more remarkably. Thereby, the motion detection system 10 can suitably detect fraudulent activity related to the payment machine.
  • the motion detection system 10 does not need to hold specific pixel information because skeleton information is used to specify motion. Therefore, privacy can be ensured.
  • FIG. 3 is a diagram showing the overall configuration of the motion detection system 1 according to the second embodiment.
  • the action detection system 1 is a computer system that monitors a user U visiting the payment machine 50 and executes a predetermined process in response to detection of fraudulent activity.
  • the normal flow when the user U uses the checkout machine 50 in the store is as follows. (1) First, the user U puts the product taken out from the product shelf of the store into the basket, and visits the payment machine 50 at the time of checkout. (2) The user U places the car on the table of the pre-scanning car 60 . (3) The user U takes out the product from the pre-scanning basket 60 . (4) The product is scanned by holding the hand scanner S of the checkout machine 50 over the bar code of the product. (5) User U puts the scanned product in the scanned basket 70 . (6) The user U repeats the operations of (3) to (5) until the pre-scanning basket 60 runs out of commodities to be scanned. (7) After scanning is completed, the user U presses the scan end button.
  • User U pays for the scanned product. It should be noted that the place where scanned products are put is not limited to the scanned basket 70 .
  • the user U may put the scanned product in his or her personal bag (so-called my bag) or any empty space.
  • the user U may also return the scanned product to the pre-scanning basket 60 .
  • the motion detection system 1 includes a server 100, a terminal device 200, and a skeleton camera 300.
  • the server 100 and the terminal device 200 are connected via a network N so as to be communicable.
  • the network N may be wired or wireless.
  • the skeletal camera 300 is a camera that photographs the user U standing in front of the payment machine 50 and monitors the user U.
  • the skeletal camera 300 is arranged at a position and at an angle at which at least part of the body of the user U standing in front of the payment machine 50 can be photographed.
  • the skeleton camera 300 is configured to photograph the user U's upper body.
  • the terminal device 200 acquires video data from the skeleton camera 300 and transmits the video data to the server 100 via the network N.
  • the terminal device 200 receives warning information indicating that the server 100 has detected fraudulent activity by the user U, and outputs the warning information using the display unit 203 or the audio output unit 204 .
  • the display unit 203 of the terminal device 200 may be installed at a position where the user U or store staff can easily view it.
  • the audio output unit 204 of the terminal device 200 may be installed at a position where the user U or store staff can easily hear the audio.
  • the server 100 is a computer device that detects fraudulent actions by the user U related to the payment machine 50 based on the video data received from the terminal device 200 .
  • the server 100 transmits warning information to the terminal device 200 via the network N when detecting fraudulent activity.
  • FIG. 4 is a block diagram showing configurations of the server 100 and the terminal device 200 according to the second embodiment.
  • the terminal device 200 includes a communication section 201 , a control section 202 , a display section 203 and an audio output section 204 .
  • the communication unit 201 is also called communication means.
  • a communication unit 201 is a communication interface with the network N.
  • FIG. The communication unit 201 is also connected to the skeleton camera 300 and acquires video data from the skeleton camera 300 at predetermined time intervals.
  • the control unit 202 is also called control means.
  • the control unit 202 controls hardware of the terminal device 200 .
  • the control unit 202 starts transmitting video data acquired from the skeleton camera 300 to the server 100 .
  • Detecting a start trigger refers to "detecting that a user has visited a payment machine" as described above.
  • the control unit 202 ends transmission of the video data acquired from the skeleton camera 300 to the server 100 . Detection of the end trigger refers to the above-mentioned "detection that user U has left the payment machine 50".
  • the control unit 202 causes the display unit 203 to display the warning information. Also, the control unit 202 may cause the audio output unit 204 to output warning information.
  • the display unit 203 is a display device.
  • the audio output unit 204 is an audio output device including a speaker.
  • the server 100 includes a registration information acquisition unit 101, a registration unit 102, an action DB 103, an action sequence table 104, an image acquisition unit 105, an extraction unit 107, an action identification unit 108, a generation unit 109, a determination unit 110, and a process control unit 111. Prepare.
  • the registration information acquisition unit 101 is also called registration information acquisition means.
  • the registration information acquisition unit 101 acquires a plurality of pieces of registration video data in response to an operation registration request from the terminal device 200 or through an operation by an administrator of the server 100 .
  • each piece of registration image data is image data representing an individual action (for example, an action of taking out a product from a basket) included in normal behavior or fraudulent behavior of a person.
  • the video data for registration is a moving image including a plurality of frame images, but may be a still image (one frame image).
  • the registration information acquisition unit 101 acquires a plurality of registered action IDs and information on the chronological order in which the action is performed in a series of actions in response to a sequence registration request from the terminal device 200 or by an operation of the administrator of the server 100. do.
  • the registration information acquisition unit 101 supplies the acquired information to the registration unit 102 .
  • the registration unit 102 is also called registration means. First, the registration unit 102 executes operation registration processing in response to the operation registration request. Specifically, the registration unit 102 supplies the registration video data to the extraction unit 107, which will be described later, and acquires the skeleton information extracted from the registration video data from the extraction unit 107 as registration skeleton information. Then, the registration unit 102 registers the acquired registered skeleton information in the motion DB 103 in association with the registered motion ID.
  • the registration unit 102 executes sequence registration processing in response to the sequence registration request. Specifically, the registration unit 102 arranges the registration action IDs in chronological order based on the information on the chronological order to generate a registration action sequence. At this time, if the sequence registration request is for a normal operation, the registration unit 102 registers the generated registered operation sequence in the operation sequence table 104 as a normal operation sequence NS. On the other hand, when the sequence registration request involves an illegal action, the registration unit 102 registers the generated registered action sequence in the action sequence table 104 as the illegal action sequence IS.
  • the action DB 103 is a storage device that stores registered skeleton information corresponding to each action included in a normal action in association with a registered action ID.
  • the motion DB 103 may also store registered skeleton information corresponding to each motion included in the fraudulent act in association with the registered motion ID.
  • the operation sequence table 104 stores normal operation sequences NS and incorrect operation sequences IS.
  • the operation sequence table 104 stores a plurality of normal operation sequences NS and a plurality of incorrect operation sequences IS.
  • the image acquisition unit 105 is also called image acquisition means.
  • the image acquisition unit 105 acquires video data captured by the skeleton camera 300 from the terminal device 200 when the payment machine 50 is operated. That is, the image acquisition unit 105 acquires video data in response to detection of the start trigger.
  • the image acquisition unit 105 supplies frame images included in the acquired video data to the extraction unit 107 .
  • the extraction unit 107 is also called extraction means.
  • the extraction unit 107 detects an image area (body area) of a person's body from a frame image included in video data, and extracts (for example, cuts out) it as a body image. Then, the extracting unit 107 uses a skeleton estimation technique using machine learning to extract skeleton information of at least a part of the person's body based on features such as the person's joints recognized in the body image. Skeletal information is information composed of "keypoints", which are characteristic points such as joints, and "bones (bone links)", which indicate links between keypoints.
  • the extraction unit 107 may use, for example, skeleton estimation technology such as OpenPose.
  • the extraction unit 107 supplies the extracted skeleton information to the motion identification unit 108 .
  • the motion specifying unit 108 is an example of the motion specifying unit 18 described above.
  • the action specifying unit 108 converts skeleton information extracted from video data acquired during operation into a action ID using the action DB 103 . Thereby, the action specifying unit 108 specifies the action. Specifically, the action identifying unit 108 first identifies registered skeleton information having a degree of similarity with the skeleton information extracted by the extracting unit 107 equal to or higher than a predetermined threshold from the registered skeleton information registered in the action DB 103 . The action identifying unit 108 then identifies the registered action ID associated with the identified registered skeleton information as the action ID corresponding to the person included in the acquired frame image.
  • the action identifying unit 108 may identify one action ID based on skeleton information corresponding to one frame image, or may identify one action ID based on time-series data of skeleton information corresponding to each of a plurality of frame images. You may specify one action ID.
  • the action identifying unit 108 may extract only skeleton information with large movements and compare the extracted skeleton information with registered skeleton information in the action DB 103 . Extracting only skeleton information with large movements may mean extracting skeleton information in which the difference between skeleton information of different frame images included in a predetermined period is equal to or greater than a predetermined amount.
  • the skeleton information is used to estimate the action ID
  • the action DB 103 is used to compare the skeleton information with pre-registered skeleton information. Therefore, in the second embodiment, the server 100 can more easily identify the action ID.
  • the generation unit 109 is also called generation means.
  • the generation unit 109 generates a motion sequence based on the motion IDs identified by the motion identification unit 108 .
  • the action sequence is configured to include a plurality of action IDs in chronological order.
  • the generation unit 109 supplies the generated operation sequence to the determination unit 110 .
  • the determination unit 110 is an example of the determination unit 20 described above. The determination unit 110 determines whether the generated motion sequence matches (corresponds to) any of the normal motion sequences NS registered in the motion sequence table 104 .
  • the processing control unit 111 is an example of the processing control unit 21 described above.
  • the process control unit 111 outputs warning information to the terminal device 200 when it is determined that the generated operation sequence does not correspond to any of the normal operation sequences NS.
  • the determination unit 110 may determine which of the improper operation sequences it corresponds to.
  • the processing control section 111 may output to the terminal device 200 information predetermined according to the type of the unauthorized operation sequence.
  • the display mode (font, color, or thickness of characters, blinking, etc.) when displaying warning information may be changed, or when warning information is output by voice.
  • the volume or the voice itself may be changed.
  • processing control unit 111 may record the time, place, and video of the unauthorized action as history information together with information on the type of unauthorized action sequence.
  • the store staff can recognize the content of the fraudulent act and appropriately take preventive measures against the fraudulent act.
  • FIG. 5 is a diagram showing skeleton information extracted from a frame image 400 included in video data according to the second embodiment.
  • the frame image 400 includes an image area of the upper body of the user U when the user U who scans the product P1 using the hand scanner S is photographed from the front.
  • the skeleton information shown in FIG. 5 also includes multiple keypoints and multiple bones detected from the upper body.
  • the key points are right ear A11, left ear A12, right eye A21, left eye A22, nose A3, neck A4, right shoulder A51, left shoulder A52, right elbow A61, left elbow A62, right hand A71, and A left hand A72 is shown.
  • the server 100 compares such skeletal information with registered skeletal information corresponding to the upper body, and determines whether or not they are similar, thereby specifying each motion. For example, it is important to determine whether the right hand and the left hand are close to each other when specifying the scanning operation, and the positions of the right hand and the left hand in the frame image 400 are important for the operation of "taking the product out of the basket” or "putting the product in the basket”. Therefore, the server 100 may calculate the degree of similarity by weighting the positions of the right hand A71 and the left hand A72. Further, the server 100 may calculate the degree of similarity by weighting the right shoulder A51, the left shoulder A52, the right elbow A61, and the left elbow A62 in addition to the right hand A71 and the left hand A72.
  • FIG. 6 is a diagram showing skeleton information extracted from the frame image 500 according to the second embodiment.
  • the frame image 500 includes an image area of the hand area of the user U when the user U who scans the product P1 using the hand scanner S is photographed from above.
  • FIG. 6 shows a right hand A71 and a left hand A72 as key points.
  • the server 100 may determine each motion by comparing the skeleton information extracted from the frame image 500 and the registered skeleton information corresponding to the hand region, and judging whether or not they are similar. .
  • FIG. 7 is a flow chart showing the flow of the video data transmission method by the terminal device 200 according to the second embodiment.
  • the control unit 202 of the terminal device 200 determines whether or not a start trigger has been detected (S20).
  • the control unit 202 determines that the start trigger is detected (Yes in S20)
  • the control unit 202 starts transmitting the video data acquired from the skeleton camera 300 to the server 100 (S21).
  • the control unit 202 repeats the process shown in S20.
  • the control unit 202 of the terminal device 200 determines whether or not an end trigger has been detected (S22).
  • the control unit 202 determines that the end trigger has been detected (Yes in S22)
  • the control unit 202 ends transmission of the video data acquired from the skeleton camera 300 to the server 100 (S23).
  • the control unit 202 does not determine that the end trigger has been detected (No in S22)
  • the amount of communication data can be minimized.
  • the operation detection process in the server 100 can be omitted outside the period, computational resources can be saved.
  • FIG. 8 is a flow chart showing the flow of a method for registering a registration action ID and a registration action sequence by the server 100 according to the second embodiment.
  • the registration information acquisition unit 101 of the server 100 receives an action registration request including registration video data and a registration action ID from the terminal device 200 (S30).
  • the registration unit 102 supplies registration video data to the extraction unit 107 .
  • the extraction unit 107 that has acquired the registration image data extracts a body image from the frame images included in the registration image data (S31).
  • the extraction unit 107 extracts skeleton information from the body image (S32).
  • the registration unit 102 acquires skeleton information from the extraction unit 107, and registers the acquired skeleton information as registered skeleton information in the motion DB 103 in association with the registered motion ID (S33).
  • the registration unit 102 may set all the skeleton information extracted from the body image as the registered skeleton information, or may set only a part of the skeleton information (for example, shoulder, elbow, and hand skeleton information) as the registered skeleton information. .
  • FIG. 9 is a diagram for explaining the registration operation according to the second embodiment.
  • the motion DB 103 may store registered skeleton information of five registered motions having registered motion IDs “A” to “E”.
  • Registration operation “A” is an operation of taking out a product from the pre-scanning basket 60 .
  • the registration operation “B” is an operation of scanning the product using the hand scanner S.
  • Registration action “C” is the action of placing an item in the scanned basket 70 .
  • the registration action “D” is the action of pressing the scan end button.
  • the registration action “E” is the action of inputting the quantity to the payment machine.
  • the registration information acquisition unit 101 receives a sequence registration request including a plurality of registration motion IDs and information on the chronological order of each motion from the terminal device 200 (S34).
  • the registration unit 102 registers, in the motion sequence table 104, a registered motion sequence (normal motion sequence NS or incorrect motion sequence IS) in which the registered motion IDs are arranged based on the chronological order information (S35).
  • the server 100 then ends the process.
  • FIG. 10 is a diagram for explaining the normal operation sequence NS according to the second embodiment.
  • the operation sequence table 104 may include at least four normal operation sequences NS having normal operation sequence IDs "11" to "14".
  • the normal operation sequence "11” is a sequence (A ⁇ B ⁇ C ⁇ D) in which scanning is completed once.
  • the normal operation sequence "12” is a sequence (A->B->C->A->B->C->D) in which scanning is completed after two scans.
  • the normal operation sequence "13” is a sequence (A ⁇ B ⁇ C ⁇ E ⁇ D) for scanning once and entering the quantity.
  • the normal operation sequence "14” is a sequence (A->B->C->E->A->B->C->D) in which scanning is performed once to input the quantity, and then scanning is completed once more. .
  • FIG. 11 is a diagram for explaining the unauthorized operation sequence IS according to the second embodiment.
  • the operation sequence table 104 may include at least two unauthorized operation sequences NS having unauthorized operation sequence IDs "21" to "22".
  • the fraudulent operation sequence "21” is a sequence (? ⁇ A ⁇ C ⁇ ?) including the operation of putting the product from the pre-scanning basket 60 into the scanned basket 70 without scanning. Note that "?” indicates an arbitrary operation.
  • the illegal action sequence "22” is a sequence in which none of the registered action IDs was specified between the start trigger and the end trigger. For example, the user U stopped by the payment machine 50 but left without doing anything. indicates the case.
  • FIG. 12 is a flow chart showing the flow of the motion detection method by the server 100 according to the second embodiment.
  • the extraction unit 107 extracts a body image from the frame images included in the video data (S41).
  • the extraction unit 107 extracts skeleton information from the body image (S42).
  • the action identifying unit 108 calculates the degree of similarity between at least part of the extracted skeleton information and each piece of registered skeleton information registered in the action DB 103, and associates registered skeleton information with a degree of similarity equal to or greater than a predetermined threshold.
  • the obtained registered action ID is specified as the action ID (S43).
  • the generation unit 109 adds the motion ID to the motion sequence. Specifically, in the first cycle, the generation unit 109 sets the motion ID identified in S43 as the motion sequence, and in the subsequent cycles, adds the motion ID identified in S43 to the already generated motion sequence. Then, the server 100 determines whether the scanning has ended or the acquisition of the video data has ended (S45). It should be noted that the server 100 may determine that the scanning is finished when the motion specified in S43 of the current cycle is the motion of the registered motion ID "D". If the server 100 determines that the scanning has ended or the acquisition of the image data has ended (Yes in S45), the process proceeds to S46; Repeat the addition process.
  • the determination unit 110 determines whether the operation sequence corresponds to any normal operation sequence NS in the operation sequence table 104 . If the operation sequence corresponds to the normal operation sequence NS (Yes in S46), the determination unit 110 advances the process to S49, and if not (No in S46), advances the process to S47.
  • the determination unit 110 determines the type of unauthorized action by determining which of the unauthorized action sequences IS in the action sequence table 104 the action sequence corresponds to. Then, the processing control unit 111 transmits warning information corresponding to the type of unauthorized action to the terminal device 200 (S48). The server 100 then advances the process to S49.
  • the server 100 determines whether or not acquisition of the video data has ended. When the server 100 determines that acquisition of the video data has ended (Yes in S49), the process ends. On the other hand, if the server 100 does not determine that the acquisition of the video data has ended (No in S49), the process returns to S41, and the operation sequence addition process is repeated. By returning the process to S ⁇ b>41 , it is possible to monitor the operation of the user U from the end of scanning until the user U leaves the payment machine 50 .
  • the server 100 compares the operation sequence showing the flow of the operation of the user U visiting the payment machine 50 with the normal operation sequence NS to determine whether the operation of the user U is normal. determine whether or not Accordingly, by registering in advance a plurality of normal operation sequences NS suitable for the flow of operations using the payment machine 50, it is possible to detect fraudulent operations suitable for the actual situation. It should be noted that the second embodiment also has the same effect as the first embodiment.
  • Embodiment 3 is characterized by using audio data in addition to video data to specify a predetermined action.
  • the predetermined action is a scanning action.
  • FIG. 13 is a block diagram showing configurations of the server 100a and the terminal device 200a according to the third embodiment.
  • the terminal device 200 a differs from the terminal device 200 in that it includes a sound pickup unit 205 .
  • the sound pickup unit 205 collects sounds around the payment machine 50 .
  • the control unit 202 When transmitting the video data to the server 100a, the control unit 202 also transmits the audio data to the server 100a.
  • the server 100a includes a voice acquisition unit 112 and a motion specifying unit 108a instead of the motion specifying unit 108.
  • the voice acquisition unit 112 acquires voice data from the terminal device 200 and supplies the voice data to the action specifying unit 108a.
  • the action identifying unit 108a identifies the action ID based on the skeleton information extracted by the extracting unit 107, the registered skeleton information in the action DB 103, and the voice data acquired by the voice acquiring unit 112. For example, when the degree of similarity between the skeleton information extracted by the extraction unit 107 and the registered skeleton information of the registered action ID indicating the predetermined action is equal to or greater than a predetermined threshold, the action identifying unit 108a detects that the predetermined sound is included in the voice data. determine whether or not Then, when the voice data includes a predetermined voice, the motion specifying unit 108a specifies the registered motion ID indicating the motion as the motion ID. On the other hand, if the predetermined voice is not included, the action specifying unit 108a does not specify the registered action ID indicating the action as the action ID.
  • the predetermined action may be the action of scanning a product.
  • the motion identifying unit 108a determines that the electronic sound generated when scanning is normally performed is included in the audio data. Determine whether or not Then, if the electronic sound is not included, the motion specifying unit 108a does not specify the registered motion ID of the scanning motion as the motion ID. In this case, the motion specifying unit 108a may specify the motion “B′” that the user U only pretends to scan and does not actually scan. This operation includes, for example, the operation of holding the hand scanner S over the surface of the product that does not have a bar code.
  • FIG. 14 is a diagram for explaining the unauthorized operation sequence according to the third embodiment.
  • an illegal action sequence "23" is added in addition to the illegal action sequences "21" to "22".
  • the illegal action sequence "23” is a sequence (?->A->B'->C->?) including the action "B'" where the user U only pretends to scan and does not actually scan.
  • the server 100a can specify the motion by combining the skeleton information and the voice, thereby increasing the variations of the fraudulent motion to be detected.
  • Embodiment 4 is characterized in that the server determines the operation sequence based on the number of products (the number of products) brought out by the user U.
  • FIG. 15 is a block diagram showing configurations of the server 100b and the terminal device 200 according to the fourth embodiment.
  • the terminal device 200 acquires video data from the product camera 350 in addition to the skeleton camera 300 .
  • the product camera 350 is a camera for photographing products that the user U has brought out.
  • the product camera 350 may be arranged at a position where at least one of the pre-scanned basket 60 and the scanned basket 70 can be photographed from above.
  • the server 100b is different from the server 100 in that instead of the determination unit 110, a number-of-products identification unit 113 and a determination unit 110b are provided.
  • the number-of-products identification unit 113 is also called number-of-products identification means.
  • the number-of-products identification unit 113 acquires the image of the product camera 350 from the terminal device 200 and identifies the number of products by an object detection method based on the image of the product camera 350 .
  • the product number identifying unit 113 may identify the number of products from the image of the product camera 350 acquired in response to the start trigger.
  • the product number specifying unit 113 may specify the number of products from the image of the product camera 350 acquired in response to the end trigger.
  • the number-of-products identifying unit 113 may use the image captured by the product camera 350 when the weight of the pre-scanning basket 60 is less than the predetermined threshold value to identify the number of products instead of the termination trigger. .
  • the determination unit 110b determines whether or not the operation sequence generated by the generation unit 109 corresponds to the registration operation sequence corresponding to the number of products among the registration operation sequences. For example, if the number of products is 2, the generated operation sequence is compared with the normal operation sequence NS corresponding to the number of products 2 (normal operation sequence "12" or "13" in FIG. 10), and the generated operation sequence It is determined whether there is a normal operation sequence NS corresponding to .
  • FIG. 16 is a flow chart showing the flow of the motion detection method by the server 100b according to the fourth embodiment.
  • the steps shown in FIG. 16 include S50 to S51 instead of S46 shown in FIG.
  • the process proceeds to S50.
  • the number-of-products specifying unit 113 specifies the number of products based on the image of the product camera 350, and selects a normal operation sequence NS corresponding to the specified number of products from among the normal operation sequences NS included in the operation sequence table 104. identify.
  • the determination unit 110b determines whether or not the operation sequence corresponds to the specified normal operation sequence NS. If the operation sequence corresponds to the identified normal operation sequence NS (Yes in S51), the determining unit 110b advances the process to S49, and if not (No in S51), advances the process to S47.
  • the server 100b uses the number of products to determine the operation sequence, so more detailed determination is possible and the determination accuracy is improved. As a result, for example, even when the user U scans only one point while holding a plurality of products in his/her hand, it is possible to detect the operation as an unauthorized operation.
  • the registration information acquisition unit 101 acquires registration video data indicating individual motions at the time of motion registration, and the registration unit 102 acquires skeleton information and a motion ID for each registration video data are registered in the operation DB 103 .
  • the registration information acquisition unit 101 obtains registration image data showing a series of actions including a plurality of individual actions (for example, action of removing the product from the basket, scanning the product, and putting the product into the basket), and each individual action. You may acquire the information of the appearance order of .
  • the registration unit 102 may extract skeleton information for each individual action included in the registration video data, and register the skeleton information in the action DB 103 together with the action ID corresponding to each individual action.
  • the servers 100, 100a, and 100b perform extraction processing, motion identification processing, sequence generation processing, and determination processing. However, part or all of the processing may be performed by the terminal device 200, or may be performed by an external device (not shown) connected to the network N.
  • the hardware configuration is described, but it is not limited to this.
  • the present disclosure can also implement arbitrary processing by causing a processor to execute a computer program.
  • the program includes instructions (or software code) that, when read into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored in a non-transitory computer-readable medium or tangible storage medium.
  • computer readable media or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drives (SSD) or other memory technology, CDs - ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or communication medium.
  • transitory computer readable media or communication media include electrical, optical, acoustic, or other forms of propagated signals.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Emergency Management (AREA)
  • Primary Health Care (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Cash Registers Or Receiving Machines (AREA)
  • Alarm Systems (AREA)

Abstract

動作検出システム(10)は、ユーザが予め定められた精算機を訪問したことを検出したことに応じて、ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始する動作特定部(18)と、特定した少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定部(20)と、判定結果に応じて予め定められた処理を実行する処理制御部(21)とを備える。

Description

動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体
 本開示は、動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体に関する。
 近年、顧客が商品のバーコードをスキャンして会計をする形態のセルフレジが普及している。スタッフが少ない又はいない店舗においては、セルフレジの操作者の不正行為を自動で検出することが求められている。尚、操作者の不正行為を自動検出したいというニーズは、セルフレジだけでなく、金銭を取り扱うその他の装置においても同様である。
 例えば特許文献1では、キャッシュセンタのソータの操作者の動作と不正行為パターンの動画とを比較することで不正行為が発生していないか判定し、検知された不正の事実と、その証拠とを管理者端末に送信する監視システムが開示されている。監視システムの管理サーバは、保存された動画ファイルを解析し、不正行為パターンに該当する画像データが動画ファイルに含まれているかをチェックする。
特開2020-080082号公報
 ここで、操作者の不正行為をリアルタイムで検出したい場合、監視カメラからの映像を常に解析して、不正行為の有無を確認する必要がある。しかし、解析処理を継続的に実行すると、処理負荷が高くなり、処理するデータ量が膨大になるという問題があった。
 本開示の目的は、上述した課題に鑑み、精算機に関連する不正行為を好適に検出する動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体を提供することにある。
 本開示の一態様にかかる動作検出システムは、
 ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始する動作特定手段と、
 特定した前記少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定手段と、
 判定結果に応じて予め定められた処理を実行する処理制御手段と
 を備える。
 本開示の一態様にかかる動作検出方法は、
 ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始し、
 特定した前記少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定し、
 判定結果に応じて予め定められた処理を実行する。
 本開示の一態様にかかる非一時的なコンピュータ可読媒体は、
 ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始する動作特定処理と、
 特定した前記少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定処理と、
 判定結果に応じて予め定められた処理を実行する処理制御処理と
 をコンピュータに実行させるためのプログラムが格納される。
 本開示により、精算機に関連する不正行為を好適に検出する動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体を提供できる。
実施形態1にかかる動作検出システムの構成を示すブロック図である。 実施形態1にかかる動作検出方法の流れを示すフローチャートである。 実施形態2にかかる動作検出システムの全体構成を示す図である。 実施形態2にかかるサーバ及び端末装置の構成を示すブロック図である。 実施形態2にかかる映像データに含まれるフレーム画像から抽出された骨格情報を示す図である。 実施形態2にかかる映像データに含まれるフレーム画像から抽出された骨格情報を示す図である。 実施形態2にかかる端末装置による映像データの送信方法の流れを示すフローチャートである。 実施形態2にかかるサーバによる登録動作ID及び登録動作シーケンスの登録方法の流れを示すフローチャートである。 実施形態2にかかる登録動作を説明するための図である。 実施形態2にかかる正常動作シーケンスを説明するための図である。 実施形態2にかかる不正動作シーケンスを説明するための図である。 実施形態2にかかるサーバによる動作検出方法の流れを示すフローチャートである。 実施形態3にかかるサーバ及び端末装置の構成を示すブロック図である 実施形態3にかかる不正動作シーケンスを説明するための図である。 実施形態4にかかるサーバ及び端末装置の構成を示すブロック図である 実施形態4にかかるサーバによる動作検出方法の流れを示すフローチャートである。
 以下、実施形態を通じて本開示を説明するが、請求の範囲にかかる開示を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
 <実施形態1>
 まず、本開示の実施形態1について説明する。図1は、実施形態1にかかる動作検出システム10の構成を示すブロック図である。動作検出システム10は、店舗の精算機を訪問したユーザによる、精算機に関連する不正行為を検出するコンピュータシステムである。精算機は、操作者の操作に基づいて金銭処理を実行する装置である。動作検出システム10は、動作特定部18と、判定部20と、処理制御部21とを備える。
 動作特定部18は、動作特定手段とも呼ばれる。動作特定部18は、ユーザが予め定められた精算機を訪問したことを検出したことに応じて、ユーザを撮影した映像データから抽出された骨格情報に基づいて、動作IDの特定を開始する。動作IDは、動作を識別する情報である。1の動作IDは、「かごから商品を出す」、「商品をスキャンする」又は「商品をかごに入れる」といった個別動作を識別してよい。また1の動作IDは、「かごから商品を出し、商品をスキャンし、商品をかごに入れる」という、複数の個別動作が組み合わさった一連の動作を識別してもよい。そして動作特定部18が映像データから特定する動作IDは、1つであってもよいし、複数であってもよい。尚、動作特定部18は、映像データから抽出された骨格情報の全てに基づいて動作IDを特定してもよいし、一部に基づいて動作IDを特定してもよい。
 ここで「ユーザが精算機を訪問したこと」は、開始トリガとも呼ばれる。開始トリガの検出は、精算機周辺の風景を撮影するカメラの映像から人物領域を検出したことであってよい。特に、開始トリガの検出は、同一人物として認識される人物領域を所定時間検出したことであってよい。また、開始トリガは、所定の載置台に商品を入れたかごが置かれたことを、カメラの映像又は荷重センサの計測値から検出したことであってもよい。また、開始トリガの検出は、精算開始ボタンが押されたことを示す操作信号を検出したことであってもよい。また、開始トリガの検出は、精算開始の音声を取得したことであってもよい。
 そして、動作特定部18は、ユーザが精算機から去ったことを検出したことに応じて、動作IDの特定を終了してよい。「ユーザが精算機から去ったこと」は、終了トリガとも呼ばれる。終了トリガの検出は、精算機の周辺の風景を撮影するカメラの映像から人物領域が検出されなくなったことであってよい。特に、終了トリガの検出は、開始トリガ以降、同一人物として認識されていた人物領域が所定時間検出されなくなったことであってよい。また、終了トリガの検出は、所定の載置台に置かれたかごからスキャン前商品がなくなったことを、カメラの映像又は荷重センサの計測値から検出したことであってもよい。また、終了トリガの検出は、精算終了ボタンが押されたことを示す操作信号を検出したことであってもよい。また、終了トリガの検出は、精算完了の音声を取得したことであってもよい。
 判定部20は、判定手段とも呼ばれる。判定部20は、特定した少なくとも1つの動作IDを含む動作シーケンスが、登録動作シーケンスに対応するか否かを判定する。登録動作シーケンスは、精算機に関連する正常行為を定めたものであり、その構成は、動作シーケンステーブル(不図示)に予め登録されている。登録動作シーケンスは、動作データベース(DB)(不図示)に予め登録されている動作IDである登録動作IDを1又は複数含む。尚、登録動作シーケンスが複数の登録動作IDを含む場合は、登録動作シーケンスは、登録動作IDの組み合わせと、各登録動作IDが行われる時系列順序の情報とを含む。例えば、登録動作シーケンスは、複数の登録動作IDを時系列で含んで構成される。
 処理制御部21は、処理制御手段とも呼ばれる。処理制御部21は、上記判定の結果に応じて予め定められた処理を実行する。予め定められた処理とは、ユーザに警告情報を報知することであってもよいし、店舗のスタッフに警告情報を報知することであってもよいし、上記動作シーケンスが登録動作シーケンスに対応しなかった旨を記録することであってもよい。
 図2は、実施形態1にかかる動作検出方法の流れを示すフローチャートである。まず動作検出システム10は、ユーザが精算機を訪問したか否かを判定する(S10)。つまり、動作検出システム10は、開始トリガを検出したか否かを判定する。そしてユーザが精算機を訪問したと判定した場合(S10でYes)、動作特定部18は、映像データから抽出された骨格情報に基づく動作IDの特定を開始する(S11)。判定部20は、S11で特定した動作IDを含む動作シーケンスが登録動作シーケンスに対応するか否かを判定する(S12)。判定部20は、上記動作シーケンスが登録動作シーケンスに対応すると判定した場合(S12でYes)、正常行為が行われたとして、処理を終了する。一方、判定部20は、上記動作シーケンスが登録動作シーケンスに対応すると判定しなかった場合(S12でNo)、不正行為が行われたとして、処理をS13に進める。そして処理制御部21は、所定の処理を実行して(S13)、処理を終了する。
 このように実施形態1によれば、動作検出システム10は、精算機を訪問したユーザの動作の流れが正常か否かを判定することにより、精算機に関連する不正行為を検出する。したがって、スタッフが少ない又はいない店舗においても、ユーザの不正行為を自動検出できる。
 ここで、動作検出システム10では、動作の特定は、ユーザが精算機を訪問することを待って行われるため、処理負荷を軽減し、処理するデータ量を軽減できる。また、動作検出システム10は、ユーザが精算機から去った場合に動作の特定を終了するため、上述した効果がさらに顕著に得られる。これにより、動作検出システム10は、精算機に関連する不正行為を好適に検出できる。
 尚、動作検出システム10では、動作の特定に骨格情報を用いるため、具体的な画素情報を保持する必要がない。したがって、プライバシー性を確保することができる。
 <実施形態2>
 次に、本開示の実施形態2について説明する。図3は、実施形態2にかかる動作検出システム1の全体構成を示す図である。動作検出システム1は、精算機50を訪問したユーザUを監視し、不正行為を検出したことに応じて、所定の処理を実行するコンピュータシステムである。
 一例として、ユーザUが店舗の精算機50で会計をする場合の正常の流れは以下の通りである。
 (1)まずユーザUは、店舗の商品棚から持ち出した商品をかごに入れ、会計時に精算機50を訪問する。(2)ユーザUは、スキャン前かご60の載置台にかごを置く。(3)ユーザUは、スキャン前かご60から商品を取り出す。(4)精算機50のハンドスキャナSを商品のバーコードにかざして、商品をスキャンする。(5)ユーザUは、スキャンした商品を、スキャン済かご70に入れる。(6)ユーザUは、スキャン前かご60からスキャン前の商品がなくなるまで、(3)~(5)の動作を繰り返す。(7)スキャン終了後、ユーザUはスキャン終了ボタンを押す。(8)ユーザUは、スキャンした商品について会計を行う。
 尚、スキャンした商品を入れる場所は、スキャン済かご70に限らない。例えばユーザUは、スキャンした商品を、個人のかばん(いわゆるマイバッグ)に入れてもよいし、任意の空きスペースに入れてもよい。またユーザUは、スキャンした商品をスキャン前かご60に戻してもよい。
 ここで、動作検出システム1は、サーバ100と、端末装置200と、骨格用カメラ300とを備える。サーバ100及び端末装置200は、ネットワークNを介して通信可能に接続されている。ネットワークNは、有線であっても無線であってもよい。
 骨格用カメラ300は、精算機50の前に立ったユーザUを撮影し、ユーザUを監視するカメラである。骨格用カメラ300は、精算機50の前に立ったユーザUの身体の少なくとも一部を撮影できる位置及び角度に配設されている。本実施形態2では、骨格用カメラ300は、ユーザUの上半身を撮影するように構成される。
 端末装置200は、骨格用カメラ300から映像データを取得し、映像データを、ネットワークNを介してサーバ100に送信する。また端末装置200は、サーバ100がユーザUの不正行為を検出したことを示す警告情報を受信し、警告情報を表示部203又は音声出力部204を用いて出力する。端末装置200の表示部203は、ユーザU又は店舗のスタッフが視認しやすい位置に設置されてよい。また端末装置200の音声出力部204は、ユーザU又は店舗のスタッフが音声を聞き取りやすい位置に設置されてよい。
 サーバ100は、端末装置200から受信した映像データに基づいて、ユーザUによる、精算機50に関連する不正行為を検出するコンピュータ装置である。サーバ100は、不正行為を検出した場合、ネットワークNを介して、端末装置200に警告情報を送信する。
 図4は、実施形態2にかかるサーバ100及び端末装置200の構成を示すブロック図である。
 (端末装置200)
 端末装置200は、通信部201と、制御部202と、表示部203と、音声出力部204とを備える。
 通信部201は、通信手段とも呼ばれる。通信部201は、ネットワークNとの通信インタフェースである。また、通信部201は、骨格用カメラ300と接続されており、骨格用カメラ300から所定の時間間隔で映像データを取得する。
 制御部202は、制御手段とも呼ばれる。制御部202は、端末装置200が有するハードウェアの制御を行う。例えば、制御部202は、開始トリガを検出した場合、骨格用カメラ300から取得した映像データをサーバ100に送信し始める。開始トリガの検出は、上述の「ユーザが精算機を訪問したことを検出した」ことを指す。また例えば、制御部202は、終了トリガを検出した場合、骨格用カメラ300から取得した映像データをサーバ100に送信することを終了する。終了トリガの検出は、上述の「ユーザUが精算機50から去ったことを検出した」ことを指す。
 そして制御部202は、通信部201がサーバ100から警告情報を受信した場合、警告情報を表示部203に表示させる。また制御部202は、警告情報を音声出力部204に出力させてもよい。
 表示部203は、表示装置である。音声出力部204は、スピーカを含む音声出力装置である。
 (サーバ100)
 サーバ100は、登録情報取得部101、登録部102、動作DB103、動作シーケンステーブル104、画像取得部105、抽出部107、動作特定部108、生成部109、判定部110、及び処理制御部111を備える。
 登録情報取得部101は、登録情報取得手段とも呼ばれる。登録情報取得部101は、端末装置200からの動作登録要求により、又はサーバ100の管理者の操作により、複数の登録用映像データを取得する。本実施形態2では、各登録用映像データは、人物の正常行為又は不正行為に含まれる個別動作(例えば、かごから商品を出す動作)を示す映像データである。尚、本実施形態2では、登録用映像データは、複数のフレーム画像を含む動画であるが、静止画(1のフレーム画像)であってもよい。
 また登録情報取得部101は、端末装置200からのシーケンス登録要求により、又はサーバ100の管理者の操作により、複数の登録動作ID及び一連の行為においてその動作が行われる時系列順序の情報を取得する。
 登録情報取得部101は、これら取得した情報を、登録部102に供給する。
 登録部102は、登録手段とも呼ばれる。まず登録部102は、動作登録要求に応じて、動作登録処理を実行する。具体的には、登録部102は、後述する抽出部107に登録用映像データを供給し、登録用映像データから抽出された骨格情報を登録骨格情報として抽出部107から取得する。そして登録部102は、取得した登録骨格情報を、登録動作IDに対応付けて動作DB103に登録する。
 次に登録部102は、シーケンス登録要求に応じてシーケンス登録処理を実行する。具体的には、登録部102は、登録動作IDを、時系列順序の情報に基づいて時系列順に並べて、登録動作シーケンスを生成する。このとき登録部102は、シーケンス登録要求が正常動作にかかる場合、生成した登録動作シーケンスを、正常動作シーケンスNSとして動作シーケンステーブル104に登録する。一方、登録部102は、シーケンス登録要求が不正動作にかかる場合、生成した登録動作シーケンスを、不正動作シーケンスISとして動作シーケンステーブル104に登録する。
 動作DB103は、正常行為に含まれる動作の各々に対応する登録骨格情報を、登録動作IDに対応付けて記憶する記憶装置である。また動作DB103は、不正行為に含まれる動作の各々に対応する登録骨格情報を、登録動作IDに対応付けて記憶してもよい。
 動作シーケンステーブル104は、正常動作シーケンスNSと、不正動作シーケンスISとを記憶する。本実施形態2では、動作シーケンステーブル104は、複数の正常動作シーケンスNSと、複数の不正動作シーケンスISとを記憶する。
 画像取得部105は、画像取得手段とも呼ばれる。画像取得部105は、精算機50の運用時に、端末装置200から、骨格用カメラ300が撮影した映像データを取得する。つまり、画像取得部105は、開始トリガが検出されたことに応じて、映像データを取得する。画像取得部105は、取得した映像データに含まれるフレーム画像を抽出部107に供給する。
 抽出部107は、抽出手段とも呼ばれる。抽出部107は、映像データに含まれるフレーム画像から人物の身体の画像領域(身体領域)を検出し、身体画像として抽出する(例えば、切り出す)。そして抽出部107は、機械学習を用いた骨格推定技術を用いて、身体画像において認識される人物の関節等の特徴に基づき人物の身体の少なくとも一部の骨格情報を抽出する。骨格情報は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン(ボーンリンク)」とから構成される情報である。抽出部107は、例えばOpenPose等の骨格推定技術を用いてよい。抽出部107は、抽出した骨格情報を動作特定部108に供給する。
 動作特定部108は、上述した動作特定部18の一例である。動作特定部108は、運用時に取得した映像データから抽出した骨格情報を、動作DB103を用いて動作IDに変換する。これにより動作特定部108は、動作を特定する。具体的には、まず動作特定部108は、動作DB103に登録される登録骨格情報の中から、抽出部107で抽出した骨格情報との類似度が所定閾値以上である登録骨格情報を特定する。そして動作特定部108は、特定した登録骨格情報に対応付けられた登録動作IDを、取得したフレーム画像に含まれる人物に対応する動作IDとして特定する。
 ここで、動作特定部108は、1のフレーム画像に対応する骨格情報に基づいて1の行動IDを特定してもよいし、複数のフレーム画像の各々に対応する骨格情報の時系列データに基づいて1の行動IDを特定してもよい。動作特定部108は、複数のフレーム画像を用いて1の行動IDを特定する場合、動きが大きい骨格情報だけを抽出し、抽出した骨格情報と動作DB103の登録骨格情報とを照合してよい。動きが大きい骨格情報だけを抽出するとは、所定期間内に含まれる異なるフレーム画像の骨格情報の差分が所定量以上の骨格情報を抽出することであってよい。このように少ない照合で済むため、計算負荷を軽減することができるとともに、登録骨格情報の量も少なくて済む。また人によって動作の持続時間が異なるところ、動きが大きい骨格情報だけを照合対象とするため、動作検出にロバスト性を持たせることができる。
 尚、動作IDの特定には、上述した方法の他に、様々な方法が考えられる。例えば動作IDで正解付けされた映像データを学習データとして学習させた動作推定モデルを用いて、対象となる映像データから動作IDを推定する方法が挙げられる。しかしながら、この学習データを集めることが困難であり、コストも高い。これに対して本実施形態2では、動作IDの推定に骨格情報を用い、動作DB103を活用して予め登録された骨格情報と比較する。したがって本実施形態2では、サーバ100は、より容易に動作IDを特定することができる。
 生成部109は、生成手段とも呼ばれる。生成部109は、動作特定部108で特定された複数の動作IDに基づいて動作シーケンスを生成する。動作シーケンスは、複数の動作IDを時系列で含むように構成される。生成部109は、生成した動作シーケンスを、判定部110に供給する。
 判定部110は、上述した判定部20の一例である。判定部110は、生成した動作シーケンスが、動作シーケンステーブル104に登録された正常動作シーケンスNSのいずれかと一致(対応)するかを判定する。
 処理制御部111は、上述した処理制御部21の一例である。処理制御部111は、生成された動作シーケンスが、正常動作シーケンスNSのいずれにも対応しないと判定された場合、端末装置200に警告情報を出力する。
 尚、判定部110は、上記動作シーケンスが正常動作シーケンスNSのいずれにも対応しないと判定した場合、不正動作シーケンスのいずれに対応するかを判定してよい。この場合、処理制御部111は、不正動作シーケンスの種別に応じて予め定められる情報を、端末装置200に出力してよい。一例として、不正動作シーケンスの種別に応じて、警告情報を表示する場合の表示態様(文字のフォント、色、若しくは太さ又は点滅等)を変えてもよいし、警告情報を音声出力する場合の音量又は音声自体を変えてもよい。これにより、店舗のスタッフは、不正行為の内容を認識し、不正行為に対して迅速かつ適切に対処できる。また処理制御部111は、不正動作が行われた時刻、場所、及び映像を、不正動作シーケンスの種別の情報とともに履歴情報として記録してもよい。これにより、店舗のスタッフは、不正行為の内容を認識し、不正行為に対する予防策を適切に講じることが可能となる。
 図5は、実施形態2にかかる映像データに含まれるフレーム画像400から抽出された骨格情報を示す図である。フレーム画像400には、ハンドスキャナSを用いて商品P1のスキャン動作を行うユーザUを正面から撮影した場合のユーザUの上半身の画像領域が含まれている。また図5に示す骨格情報には、上半身から検出された、複数のキーポイント及び複数のボーンが含まれている。一例として、図5では、キーポイントとして、右耳A11、左耳A12、右目A21、左目A22、鼻A3、首A4、右肩A51、左肩A52、右肘A61、左肘A62、右手A71、及び左手A72が示されている。
 サーバ100は、このような骨格情報と、上半身に対応する登録骨格情報とを比較し、これらが類似するか否かを判定することで、各動作を特定する。例えばスキャン動作の特定は、右手及び左手が接近したかが重要となり、「かごから商品を出す」又は「商品をかごに入れる」動作は、フレーム画像400における右手及び左手の位置が重要となる。したがってサーバ100は、右手A71及び左手A72の位置に重みをつけて類似度を算出してよい。またサーバ100は、右手A71及び左手A72に加えて、右肩A51、左肩A52、右肘A61及び左肘A62に重みをつけて類似度を算出してもよい。
 尚、骨格用カメラ300は、ユーザUの少なくとも手領域を上面から撮影するものであってもよい。図6は、実施形態2にかかるフレーム画像500から抽出された骨格情報を示す図である。フレーム画像500は、ハンドスキャナSを用いて商品P1のスキャン動作を行うユーザUを上面から撮影した場合のユーザUの手領域の画像領域が含まれている。そして一例として、図6では、キーポイントとして、右手A71及び左手A72が示されている。そしてサーバ100は、フレーム画像500から抽出した骨格情報と、手領域に対応する登録骨格情報とを比較して、これらが類似するか否かを判定することで、各動作を判定してもよい。
 図7は、実施形態2にかかる端末装置200による映像データの送信方法の流れを示すフローチャートである。まず端末装置200の制御部202は、開始トリガを検出したか否かを判定する(S20)。制御部202は、開始トリガを検出したと判定した場合(S20でYes)、サーバ100への、骨格用カメラ300から取得した映像データの送信を開始する(S21)。一方、制御部202は、開始トリガを検出したと判定しない場合(S20でNo)、S20に示す処理を繰り返す。
 次に、端末装置200の制御部202は、終了トリガを検出したか否かを判定する(S22)。制御部202は、終了トリガを検出したと判定した場合(S22でYes)、サーバ100への、骨格用カメラ300から取得した映像データの送信を終了する(S23)。一方、制御部202は、終了トリガを検出したと判定しない場合(S22でNo)、映像データの送信を実行しながら、S22に示す処理を繰り返す。
 このように、映像データの送信期間を、所定の開始トリガと終了トリガの間に限定することで、通信データ量を最低限に抑えることができる。また期間外においては、サーバ100における動作検出処理を省略できるため、計算リソースを節約できる。
 図8は、実施形態2にかかるサーバ100による登録動作ID及び登録動作シーケンスの登録方法の流れを示すフローチャートである。まずサーバ100の登録情報取得部101は、登録用映像データ及び登録動作IDを含む動作登録要求を端末装置200から受信する(S30)。次に、登録部102は、登録用映像データを抽出部107に供給する。登録用映像データを取得した抽出部107は、登録用映像データに含まれるフレーム画像から身体画像を抽出する(S31)。次に、抽出部107は、身体画像から骨格情報を抽出する(S32)。次に、登録部102は、抽出部107から骨格情報を取得し、取得した骨格情報を登録骨格情報として、登録動作IDに対応付けて動作DB103に登録する(S33)。尚、登録部102は、身体画像から抽出された全ての骨格情報を登録骨格情報としてもよいし、一部の骨格情報(例えば肩、肘及び手の骨格情報)のみを登録骨格情報としてもよい。
 図9は、実施形態2にかかる登録動作を説明するための図である。一例として、動作DB103には、「A」~「E」の登録動作IDを有する5つの登録動作の登録骨格情報が記憶されていてよい。登録動作「A」は、スキャン前かご60から商品を取り出す動作である。登録動作「B」は、ハンドスキャナSを用いて商品をスキャンする動作である。登録動作「C」は、スキャン済かご70に商品を入れる動作である。登録動作「D」は、スキャン終了ボタンを押す動作である。登録動作「E」は、精算機に数量を入力する動作である。
 図8に戻り、説明を続ける。次に、登録情報取得部101は、複数の登録動作ID及び各動作の時系列順序の情報を含むシーケンス登録要求を端末装置200から受信する(S34)。次に、登録部102は、時系列順序の情報に基づいて登録動作IDを並べた登録動作シーケンス(正常動作シーケンスNS又は不正動作シーケンスIS)を、動作シーケンステーブル104に登録する(S35)。そしてサーバ100は、処理を終了する。
 図10は、実施形態2にかかる正常動作シーケンスNSを説明するための図である。一例として、動作シーケンステーブル104には、「11」~「14」の正常動作シーケンスIDを有する4つの正常動作シーケンスNSが少なくとも含まれていてよい。正常動作シーケンス「11」は、1回スキャンしてスキャンが終了するシーケンス(A→B→C→D)である。正常動作シーケンス「12」は、2回スキャンしてスキャンが終了するシーケンス(A→B→C→A→B→C→D)である。正常動作シーケンス「13」は、1回スキャンして、数量を入力するシーケンス(A→B→C→E→D)である。正常動作シーケンス「14」は、1回スキャンして数量を入力した後、もう1回スキャンして、スキャンが終了するシーケンス(A→B→C→E→A→B→C→D)である。
 図11は、実施形態2にかかる不正動作シーケンスISを説明するための図である。動作シーケンステーブル104には、「21」~「22」の不正動作シーケンスIDを有する2つの不正動作シーケンスNSが少なくとも含まれていてよい。不正動作シーケンス「21」は、商品をスキャンしないで、スキャン前かご60からスキャン済かご70に入れる動作を含むシーケンス(?→A→C→?)である。尚、「?」は、任意の動作を示す。また、不正動作シーケンス「22」は、開始トリガと終了トリガとの間に、登録動作IDのいずれも特定されなかったシーケンスであり、例えばユーザUが精算機50を立ち寄ったが何もせず立ち去った場合を示している。
 図12は、実施形態2にかかるサーバ100による動作検出方法の流れを示すフローチャートである。まずサーバ100の画像取得部105は、端末装置200から映像データの取得を開始した場合(S40でYes)、抽出部107は、映像データに含まれるフレーム画像から身体画像を抽出する(S41)。次に抽出部107は、身体画像から骨格情報を抽出する(S42)。動作特定部108は、抽出した骨格情報の少なくとも一部と、動作DB103に登録されている各登録骨格情報との間の類似度を算出し、類似度が所定閾値以上の登録骨格情報に対応付けられた登録動作IDを、動作IDとして特定する(S43)。次に、生成部109は、動作IDを動作シーケンスに追加する。具体的には、生成部109は、初回サイクルでは、S43で特定した動作IDを動作シーケンスとし、次回以降のサイクルでは、S43で特定した動作IDを、既に生成した動作シーケンスに追加する。そしてサーバ100は、スキャンが終了したか、又は映像データの取得が終了したか否かを判定する(S45)。尚、サーバ100は、現サイクルのS43で特定された動作が登録動作ID「D」の動作である場合、スキャンが終了したと判定してよい。サーバ100は、スキャンが終了したか、又は映像データの取得が終了したと判定した場合(S45でYes)、処理をS46に進め、そうでない場合(S45でNo)、S41に戻し、動作シーケンスの追加処理を繰り返す。
 S46において、判定部110は、動作シーケンスが動作シーケンステーブル104のいずれかの正常動作シーケンスNSに対応するか否かを判定する。判定部110は、動作シーケンスが正常動作シーケンスNSに対応する場合(S46でYes)、処理をS49に進め、対応しない場合(S46でNo)、処理をS47に進める。
 S47において、判定部110は、動作シーケンスが動作シーケンステーブル104の不正動作シーケンスISのいずれに対応するかを判定することにより、不正動作の種別を判定する。そして処理制御部111は、不正動作の種別に応じた警告情報を、端末装置200に送信する(S48)。そしてサーバ100は、処理をS49に進める。
 S49において、サーバ100は、映像データの取得が終了したか否かを判定する。サーバ100は、映像データの取得が終了したと判定した場合(S49でYes)、処理を終了する。一方、サーバ100は、映像データの取得が終了したと判定しない場合(S49でNo)、処理をS41に戻し、動作シーケンスの追加処理を繰り返す。処理をS41に戻すことで、スキャン終了後からユーザUが精算機50を去るまでの間の動作を監視することができる。
 このように実施形態2によれば、サーバ100は、精算機50を訪問したユーザUの動作の流れを示した動作シーケンスを、正常動作シーケンスNSと比較することで、ユーザUの動作が正常か否かを判定する。これにより、精算機50を用いた操作の流れに即した複数の正常動作シーケンスNSを事前に登録しておくことで、実態に即した不正動作の検出が実現できる。尚、実施形態2についても、実施形態1と同様の効果を奏する。
 <実施形態3>
 次に、本開示の実施形態3について説明する。実施形態3は、所定の動作の特定に、映像データに加えて音声データを用いることに特徴を有する。例えば、所定の動作はスキャン動作である。
 図13は、実施形態3にかかるサーバ100a及び端末装置200aの構成を示すブロック図である。端末装置200aは、収音部205を含む点で端末装置200と相違する。収音部205は、精算機50の周辺の音声を収集する。制御部202は、映像データをサーバ100aに送信する場合、音声データもサーバ100aに送信する。
 サーバ100aは、動作特定部108に代えて、音声取得部112及び動作特定部108aを備える。音声取得部112は、端末装置200から音声データを取得し、動作特定部108aに供給する。
 動作特定部108aは、抽出部107で抽出された骨格情報、動作DB103における登録骨格情報、及び音声取得部112が取得した音声データに基づいて、動作IDを特定する。例えば動作特定部108aは、抽出部107で抽出された骨格情報と、所定の動作を示す登録動作IDの登録骨格情報との類似度が所定閾値以上である場合、音声データに所定の音声が含まれるか否かを判定する。そして動作特定部108aは、音声データに所定の音声が含まれる場合は、上記動作を示す登録動作IDを、動作IDとして特定する。一方、動作特定部108aは、所定の音声が含まれない場合は、上記動作を示す登録動作IDを、動作IDとして特定しない。
 例えば所定の動作とは、商品をスキャンする動作であってよい。この場合、動作特定部108aは、抽出した骨格情報と、スキャン動作の登録骨格情報との類似度が所定閾値以上である場合、正常にスキャンされた場合に発生する電子音が音声データに含まれるか否かを判定する。そして動作特定部108aは、電子音が含まれなかった場合は、スキャン動作の登録動作IDを動作IDとして特定しない。この場合、動作特定部108aは、ユーザUがスキャンのフリだけして実際にはスキャンしていない動作「B’」を特定してよい。この動作は、例えば商品のバーコードが無い面にハンドスキャナSをかざす動作が含まれる。
 図14は、実施形態3にかかる不正動作シーケンスを説明するための図である。図14は、不正動作シーケンス「21」~「22」に加えて、不正動作シーケンス「23」が追加されている。不正動作シーケンス「23」は、ユーザUがスキャンのフリだけして実際にはスキャンしていない動作「B’」を含むシーケンス(?→A→B’→C→?)である。
 このようにサーバ100aが骨格情報と音声とを組み合わせて動作を特定することで、検出したい不正動作のバリエーションを増やすことができる。
 <実施形態4>
 次に、本開示の実施形態4について説明する。実施形態4は、サーバが、ユーザUが持ち出した商品の点数(商品数)に基づいて動作シーケンスを判定することに特徴を有する。
 図15は、実施形態4にかかるサーバ100b及び端末装置200の構成を示すブロック図である。端末装置200は、骨格用カメラ300に加えて、商品用カメラ350からも映像データを取得する。商品用カメラ350は、ユーザUが持ち出した商品を撮影するカメラである。例えば商品用カメラ350は、スキャン前かご60及びスキャン済かご70の少なくとも一方を上方から撮影できる位置に配設されてよい。
 サーバ100bは、判定部110に代えて、商品数特定部113及び判定部110bを備える点でサーバ100と相違する。
 商品数特定部113は、商品数特定手段とも呼ばれる。商品数特定部113は、商品用カメラ350の映像を端末装置200から取得し、商品用カメラ350の映像に基づいて、物体検出手法により商品数を特定する。例えば商品用カメラ350がスキャン前かご60の上方から撮影するカメラである場合、商品数特定部113は、開始トリガに応じて取得した商品用カメラ350の映像から、商品数を特定してよい。また例えば商品用カメラ350がスキャン済かご70の上方から撮影するカメラである場合、商品数特定部113は、終了トリガに応じて取得した商品用カメラ350の映像から、商品数を特定してよい。この場合、商品数特定部113は、終了トリガに代えて、スキャン前かご60の重量が所定閾値未満となった場合に取得した商品用カメラ350の映像を、商品数の特定に用いてもよい。
 判定部110bは、生成部109が生成した動作シーケンスが、登録動作シーケンスのうち、商品数に応じた登録動作シーケンスに対応するか否かを判定する。例えば、商品数が2であれば、生成した動作シーケンスと、商品数2に応じた正常動作シーケンスNS(図10の正常動作シーケンス「12」又は「13」)とを比較し、生成した動作シーケンスに対応する正常動作シーケンスNSがあるか否かを判定する。
 図16は、実施形態4にかかるサーバ100bによる動作検出方法の流れを示すフローチャートである。図16に示すステップは、図12に示すS46に代えて、S50~S51を含む。
 S45においてサーバ100bは、スキャンが終了したか、又は映像データの取得が終了したと判定した場合(S45でYes)、処理をS50に進める。S50において、商品数特定部113は、商品用カメラ350の映像に基づいて商品数を特定し、動作シーケンステーブル104に含まれる正常動作シーケンスNSのうち、特定した商品数に応じた正常動作シーケンスNSを特定する。そしてS51において、判定部110bは、動作シーケンスが、特定した正常動作シーケンスNSに対応するか否かを判定する。判定部110bは、動作シーケンスが、特定した正常動作シーケンスNSに対応する場合(S51でYes)、処理をS49に進め、対応しない場合(S51でNo)、処理をS47に進める。
 このように実施形態4によれば、サーバ100bは、動作シーケンスの判定に商品数を用いるため、より詳細な判定が可能となり、判定精度が向上する。これにより、例えば、ユーザUが複数の商品を手に持って1点のみをスキャンした場合にも、不正動作として検出することが可能となる。
 なお、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば実施形態3と実施形態4を組み合わせることも可能である。
 また例えば、上述の実施形態2~4では、登録情報取得部101は、動作登録時に個別動作を示す登録用映像データを取得し、登録部102は、登録用映像データごとに骨格情報と動作IDとを動作DB103に登録した。しかし、登録情報取得部101は、複数の個別動作を含む一連の動作(例えば、かごから商品を出し、商品をスキャンし、商品をかごに入れる動作)を示す登録用映像データと、各個別動作の出現順序の情報とを取得してよい。そして登録部102は、登録用映像データに含まれる各個別動作について、骨格情報を抽出し、骨格情報を、各個別動作に対応する動作IDとともに動作DB103に登録してよい。
 また、上述の実施形態2~4では、サーバ100,100a,100bが抽出処理、動作特定処理、シーケンス生成処理、及び判定処理を行うとした。しかし、処理の一部又は全部を、端末装置200が行ってもよいし、ネットワークNに接続された外部装置(不図示)が行ってもよい。
 上述の実施形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、プロセッサにコンピュータプログラムを実行させることにより実現することも可能である。
 上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 1,1b,10 動作検出システム
 18 動作特定部
 20 判定部
 21 処理制御部
 50 精算機
 60 スキャン前かご
 70 スキャン済かご
 100,100a,100b サーバ
 101 登録情報取得部
 102 登録部
 103 動作DB
 104 動作シーケンステーブル
 105 画像取得部
 107 抽出部
 108,108a 動作特定部
 109 生成部
 110,110b 判定部
 111 処理制御部
 112 音声取得部
 113 商品数特定部
 200,200a 端末装置
 201 通信部
 202 制御部
 203 表示部
 204 音声出力部
 205 収音部
 300 骨格用カメラ
 350 商品用カメラ
 400,500 フレーム画像
 S ハンドスキャナ
 N ネットワーク

Claims (10)

  1.  ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始する動作特定手段と、
     特定した前記少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定手段と、
     判定結果に応じて予め定められた処理を実行する処理制御手段と
     を備える動作検出システム。
  2.  前記動作特定手段は、前記ユーザが前記精算機から去ったことを検出したことに応じて、前記少なくとも1つの動作IDの特定を終了する
     請求項1に記載の動作検出システム。
  3.  前記動作特定手段は、前記ユーザが前記精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、複数の動作IDの特定を開始し、
     前記判定手段は、特定した前記複数の動作IDを時系列で含む動作シーケンスが前記登録動作シーケンスに対応するか否かを判定し、
     前記処理制御手段は、前記動作シーケンスが前記登録動作シーケンスに対応しない場合、前記予め定められた処理を実行する
     請求項1又は2に記載の動作検出システム。
  4.  前記ユーザが持ち出した商品を撮影した映像データに基づいて、商品数を特定する商品数特定手段をさらに備え、
     前記判定手段は、前記動作シーケンスが、前記登録動作シーケンスのうち、前記商品数に応じた登録動作シーケンスに対応するか否かを判定する
     請求項1から3のいずれか一項に記載の動作検出システム。
  5.  前記処理制御手段は、前記動作シーケンスが前記登録動作シーケンスに対応しない場合、前記動作シーケンスに応じて予め定められる情報を出力する
     請求項1から4のいずれか一項に記載の動作検出システム。
  6.  前記動作特定手段は、前記骨格情報の少なくとも一部と、スキャン動作を示す登録動作IDの登録骨格情報との類似度が所定閾値以上である場合であっても、所定の音声を取得しない場合は、前記スキャン動作を示す登録動作IDを、動作IDとして特定しない
     請求項1から5のいずれか一項に記載の動作検出システム。
  7.  人物の所定の動作を示す登録用映像データと、少なくとも1つの登録動作IDとを取得する登録情報取得手段と、
     前記登録用映像データに含まれるフレーム画像から抽出された骨格情報を、登録骨格情報として、前記少なくとも1つの登録動作IDに対応付けて登録し、前記少なくとも1つの登録動作IDを含んだ登録動作シーケンスを登録する登録手段と
     をさらに備える
     請求項1から6のいずれか一項に記載の動作検出システム。
  8.  前記動作特定手段は、前記映像データに含まれる異なるフレーム画像から抽出された骨格情報の少なくとも一部の差分が所定量以上である場合、前記異なるフレーム画像から抽出された前記骨格情報の少なくとも一部と前記登録骨格情報とを照合して、前記動作IDを特定する
     請求項7に記載の動作検出システム。
  9.  ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始し、
     特定した前記少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定し、
     判定結果に応じて予め定められた処理を実行する
     動作検出方法。
  10.  ユーザが予め定められた精算機を訪問したことを検出したことに応じて、前記ユーザを撮影した映像データから抽出された骨格情報の少なくとも一部に基づいて、少なくとも1つの動作IDの特定を開始する動作特定処理と、
     特定した前記少なくとも1つの動作IDを含む動作シーケンスが、予め登録されている登録動作シーケンスに対応するか否かを判定する判定処理と、
     判定結果に応じて予め定められた処理を実行する処理制御処理と
     をコンピュータに実行させるためのプログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2021/027844 2021-07-28 2021-07-28 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体 WO2023007601A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/274,620 US20240096182A1 (en) 2021-07-28 2021-07-28 Action detection system, action detection method, and non-transitory computer-readable medium
PCT/JP2021/027844 WO2023007601A1 (ja) 2021-07-28 2021-07-28 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体
JP2023537803A JPWO2023007601A5 (ja) 2021-07-28 動作検出システム、動作検出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/027844 WO2023007601A1 (ja) 2021-07-28 2021-07-28 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2023007601A1 true WO2023007601A1 (ja) 2023-02-02

Family

ID=85087543

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/027844 WO2023007601A1 (ja) 2021-07-28 2021-07-28 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体

Country Status (2)

Country Link
US (1) US20240096182A1 (ja)
WO (1) WO2023007601A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115861A (zh) * 2023-10-19 2023-11-24 四川弘和数智集团有限公司 手套检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069419A (ja) * 2013-09-30 2015-04-13 沖電気工業株式会社 自動取引装置、サーバ及び監視システム
WO2015173869A1 (ja) * 2014-05-12 2015-11-19 富士通株式会社 商品情報出力方法、商品情報出力プログラムおよび制御装置
JP2016224734A (ja) * 2015-05-29 2016-12-28 東芝テック株式会社 商品情報処理装置
JP2017199188A (ja) * 2016-04-27 2017-11-02 東芝テック株式会社 商品販売データ処理装置、商品販売データ処理システムおよびプログラム
WO2019124111A1 (ja) * 2017-12-21 2019-06-27 ソニー株式会社 制御装置および制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069419A (ja) * 2013-09-30 2015-04-13 沖電気工業株式会社 自動取引装置、サーバ及び監視システム
WO2015173869A1 (ja) * 2014-05-12 2015-11-19 富士通株式会社 商品情報出力方法、商品情報出力プログラムおよび制御装置
JP2016224734A (ja) * 2015-05-29 2016-12-28 東芝テック株式会社 商品情報処理装置
JP2017199188A (ja) * 2016-04-27 2017-11-02 東芝テック株式会社 商品販売データ処理装置、商品販売データ処理システムおよびプログラム
WO2019124111A1 (ja) * 2017-12-21 2019-06-27 ソニー株式会社 制御装置および制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115861A (zh) * 2023-10-19 2023-11-24 四川弘和数智集团有限公司 手套检测方法、装置、电子设备及存储介质
CN117115861B (zh) * 2023-10-19 2024-01-26 四川弘和数智集团有限公司 手套检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20240096182A1 (en) 2024-03-21
JPWO2023007601A1 (ja) 2023-02-02

Similar Documents

Publication Publication Date Title
US10846537B2 (en) Information processing device, determination device, notification system, information transmission method, and program
JP6443842B2 (ja) 顔検出装置、顔検出システム、及び顔検出方法
CN110309801B (zh) 一种视频分析方法、装置、系统、存储介质及计算机设备
JP2019193089A (ja) 映像解析装置
US20230410514A1 (en) Information processing apparatus, information processing method, and program
WO2023007601A1 (ja) 動作検出システム、動作検出方法、及び非一時的なコンピュータ可読媒体
JP6302865B2 (ja) 販売データ処理装置およびプログラム
JP2016131288A (ja) 情報処理装置及びプログラム
JP6289308B2 (ja) 情報処理装置およびプログラム
US20230102033A1 (en) Payment processing system, payment processing method, and recording medium
JP2020095651A (ja) 生産性評価システム、生産性評価装置、生産性評価方法、及びプログラム
JP7039084B1 (ja) セルフレジ監視システム及びセルフレジ監視方法
EP3989105A1 (en) Embedded device based detection system
JP7010030B2 (ja) 店内監視装置、店内監視方法、および店内監視プログラム
US20190370774A1 (en) Information processing apparatus and method of controlling an information processing apparatus
CN113129934A (zh) 一种具有人脸识别身份验证功能的双录系统
JP6471924B2 (ja) 顔認証装置及び顔認証方法
JPWO2020178893A1 (ja) 辞書生成装置、生体認証装置、辞書生成方法、およびプログラム
JP6261529B2 (ja) Pos端末及びプログラム
JP6389141B2 (ja) サーバおよびプログラム
CN115546703B (zh) 自助收银的风险识别方法、装置、设备及存储介质
JP7387981B2 (ja) 画像処理装置、画像処理方法、プログラム
JP2022011704A (ja) 画像処理装置、画像処理方法およびプログラム
CN114898445A (zh) 身份识别方法、设备、终端、服务器以及可读存储介质
CN117373073A (zh) 基于机器人的测控方法、系统、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21951809

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18274620

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023537803

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE