WO2021131024A1 - 処理装置、処理方法及びプログラム - Google Patents

処理装置、処理方法及びプログラム Download PDF

Info

Publication number
WO2021131024A1
WO2021131024A1 PCT/JP2019/051452 JP2019051452W WO2021131024A1 WO 2021131024 A1 WO2021131024 A1 WO 2021131024A1 JP 2019051452 W JP2019051452 W JP 2019051452W WO 2021131024 A1 WO2021131024 A1 WO 2021131024A1
Authority
WO
WIPO (PCT)
Prior art keywords
reporting
operated
notification
person
condition
Prior art date
Application number
PCT/JP2019/051452
Other languages
English (en)
French (fr)
Inventor
大輝 山崎
龍司 若草
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021566728A priority Critical patent/JP7355120B2/ja
Priority to PCT/JP2019/051452 priority patent/WO2021131024A1/ja
Priority to US17/788,785 priority patent/US11869244B2/en
Publication of WO2021131024A1 publication Critical patent/WO2021131024A1/ja
Priority to US18/512,309 priority patent/US20240087326A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Definitions

  • the present invention relates to a processing device, a processing method and a program.
  • a reporting device that notifies the police to that effect may be installed on the street or on the street.
  • Patent Document 1 discloses a self-supporting security light that allows a whistleblower to make a call with the police via an intercom when an emergency such as an incident or accident occurs. Further, Patent Document 1 discloses that a voice message is transmitted to a person in the vicinity of a security light in order to prevent the reporting device from being pressed due to mischief or erroneous operation.
  • Patent Document 1 only gives a warning regarding mischief and erroneous operation by voice. If the reporting device is pressed due to mischief or erroneous operation, the call processing with the police will be performed. Responding to reports due to mischief or erroneous operation puts a heavy burden on the responder (police).
  • An object of the present invention is to reduce the frequency of reports due to mischief or erroneous operation.
  • a detection means for detecting that the reporting device has been operated, and When it is detected that the reporting device has been operated, an acquisition means for acquiring at least one of an image generated by the camera and a voice collected by the microphone, and A means for determining whether at least one of the image and the sound satisfies the reporting condition, and When it is determined that the notification condition is satisfied, an output means for outputting notification information indicating that the notification device has been operated and an output means.
  • a processing device having the above is provided.
  • the computer Detects that the reporting device has been operated and When it is detected that the reporting device has been operated, at least one of the image generated by the camera and the voice collected by the microphone is acquired. Judging whether at least one of the image and the sound satisfies the reporting condition, When it is determined that the notification condition is satisfied, a processing method for outputting notification information indicating that the notification device has been operated is provided.
  • Detection means for detecting that the reporting device has been operated, When it is detected that the reporting device has been operated, an acquisition means for acquiring at least one of an image generated by the camera and a voice collected by the microphone. A means for determining whether at least one of the image and the sound satisfies the reporting condition, An output means that outputs notification information indicating that the notification device has been operated when it is determined that the notification condition is satisfied.
  • a program is provided to function as.
  • the frequency of reports due to mischief or erroneous operation is reduced.
  • the reporting device 1 is installed at an arbitrary position on the street, on the street, in a public facility, or the like.
  • a data collection device 2 including at least one of a camera and a microphone is installed around the notification device 1.
  • the camera is installed so as to photograph the surroundings of the reporting device 1.
  • the microphone is installed so as to collect the sound around the reporting device 1.
  • the reporting device 1 and the processing device 10 are connected to each other so as to be able to communicate with each other by wire and / or wirelessly. Further, the data collection device 2 and the processing device 10 are connected to each other so as to be able to communicate with each other by wire and / or wirelessly.
  • the processing device 10 When the processing device 10 detects that the reporting device 1 has been operated based on the signal from the reporting device 1, the data (at least one of the image data and the voice data) generated by the data collecting device 2 satisfies a predetermined reporting condition. To judge. Then, when the processing device 10 determines that the reporting condition is satisfied, the processing device 10 transmits the reporting information indicating that the reporting device 1 has been operated to the reporting destination device 3.
  • the reporting device 3 and the processing device 10 are connected to each other so as to be able to communicate with each other by wire and / or wirelessly.
  • the reporting destination device 3 may be, for example, a police device, a security company device, or a device managed by another person.
  • the processing device 10 determines the necessity of reporting based on the data generated by the data collecting device 2, that is, whether it is a mischief or an erroneous operation, and determines that the reporting is necessary. You can make a report in case. According to such a processing device 10, the frequency of reporting due to mischief or erroneous operation is reduced.
  • Each functional unit of the processing device 10 is a storage unit (stored from the stage of shipping the device in advance) such as a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program loaded in the memory, and a hard disk for storing the program.
  • a storage unit such as a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program loaded in the memory, and a hard disk for storing the program.
  • it can also store programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet), and it is realized by any combination of hardware and software centered on the network connection interface. Program.
  • CDs Compact Discs
  • FIG. 2 is a block diagram illustrating a hardware configuration of the processing device 10.
  • the processing device 10 includes a processor 1A, a memory 2A, an input / output interface 3A, a peripheral circuit 4A, and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • the processing device 10 does not have to have the peripheral circuit 4A.
  • the processing device 10 may be composed of a plurality of physically and / or logically separated devices, or may be composed of one physically and / or logically integrated device. When the processing device 10 is composed of a plurality of physically and / or logically separated devices, each of the plurality of devices can be provided with the above hardware configuration.
  • the bus 5A is a data transmission path for the processor 1A, the memory 2A, the peripheral circuit 4A, and the input / output interface 3A to send and receive data to and from each other.
  • the processor 1A is, for example, an arithmetic processing unit such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, a memory such as a RAM (RandomAccessMemory) or a ROM (ReadOnlyMemory).
  • the input / output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. ..
  • the input device is, for example, a keyboard, a mouse, a microphone, a physical button, a touch panel, or the like.
  • the output device is, for example, a display, a speaker, a printer, a mailer, or the like.
  • the processor 1A can issue commands to each module and perform calculations based on the calculation results thereof.
  • FIG. 3 shows an example of a functional block diagram of the processing device 10.
  • the processing device 10 includes a detection unit 11, an acquisition unit 12, a determination unit 13, and an output unit 14.
  • the detection unit 11 detects that the reporting device 1 has been operated.
  • the reporting device 1 is installed at an arbitrary position on the street, on the street, in a public facility, or the like.
  • the police and the like are notified to that effect.
  • the reporting device 1 may include a button.
  • the operation to be performed in an emergency may be the pressing of the button.
  • the reporting device 1 may include other input devices such as a touch panel, a mouse, and a keyboard. Then, the operation performed in an emergency may be a predetermined input operation via these input devices.
  • the operation performed in an emergency is preferably simple and easy, such as pressing a button.
  • the reporting device 1 When the reporting device 1 receives a predetermined operation (eg, pressing a button, etc.), it transmits to that effect to the processing device 10.
  • the detection unit 11 detects that the reporting device 1 has been operated based on the signal received from the reporting device 1.
  • reporting device 1 and the processing device 10 may have a many-to-one relationship or a one-to-one relationship.
  • the acquisition unit 12 acquires the data generated by the data collecting device 2.
  • the data acquisition device 2 includes at least one of a camera and a microphone.
  • the data generated by such a data acquisition device 2 includes at least one of an image and an audio.
  • the camera is installed so as to take a picture of the surroundings of the reporting device 1.
  • the camera is installed at a position and orientation capable of photographing a person who operates the reporting device 1, a person who is in the vicinity of the person who operates the reporting device 1, and the like.
  • the microphone is installed so as to collect the sound around the reporting device 1.
  • the microphone is in a position where it can collect the remarks of the person who operates the reporting device 1, the remarks of people around the person who operates the reporting device 1, the voices generated by the actions of these people, and the like. And installed in the orientation.
  • the data generated by the data collecting device 2 is included in the storage device in the data collecting device 2, the storage device in the processing device 10, and the storage device in another device configured to be communicable with the data collecting device 2. It accumulates in at least one. Then, when it is detected that the reporting device 1 has been operated, the acquisition unit 12 acquires a predetermined part of the data accumulated as described above.
  • the acquisition unit 12 acquires the data generated by the data collection device 2 from the start timing before the operation timing when the notification device 1 is operated to the end timing after the operation timing. That is, the acquisition unit 12 acquires data before and after the operation timing.
  • the start timing is t1 second before the operation timing.
  • the end timing is t2 seconds after the operation timing.
  • t1 and t2 may have the same value or may have different values.
  • the acquisition unit 12 may acquire the data generated by the data collection device 2 from the operation timing in which the notification device 1 is operated to the end timing after the operation timing. That is, the acquisition unit 12 may acquire data after the operation timing.
  • the end timing is t2 seconds after the operation timing.
  • the acquisition unit 12 may acquire the data generated by the data collection device 2 from the start timing before the operation timing when the notification device 1 is operated to the operation timing. That is, the acquisition unit 12 may acquire data before the operation timing.
  • the start timing is t1 second before the operation timing.
  • acquisition means “the own device goes to fetch the data stored in another device or storage medium” based on the user input or the instruction of the program (active). Acquisition) ”, for example, requesting or inquiring about another device to receive the data, accessing another device or a storage medium to read the data, and the like. Further, “acquisition” means “inputting data output from another device to the own device (passive acquisition)” based on user input or program instruction, for example, distribution (or distribution (or). , Transmission, push notification, etc.) may be included. In addition, “acquisition” means to select and acquire from received data or information, and “edit data (text conversion, data sorting, partial data extraction, file format change, etc.)". It may include “to generate new data and acquire the new data”.
  • the determination unit 13 determines whether the data (at least one of the image and the sound) acquired by the acquisition unit 12 satisfies the reporting condition.
  • the determination unit 13 extracts at least one of the person who operated the reporting device 1 and the person who is in the vicinity of the person who operated the reporting device 1 from the images acquired by the acquiring unit 12 as analysis targets. For example, the determination unit 13 may extract a person who comes into contact with the reporting device 1 (a person who touches it by hand, etc.) at the timing when the reporting device 1 is operated as a person who operates the reporting device 1. Then, the determination unit 13 is "a person who is within a predetermined distance from the person who operated the reporting device 1", "another person who is within a predetermined distance from the reporting device 1", or "another person in the image".
  • the "other person” is a person other than the person who operated the reporting device 1. Since the means for extracting a person from the image and the means for estimating the actual distance between two points in the image are widely known, the description thereof is omitted here.
  • the determination unit 13 determines whether the reporting condition is satisfied based on at least one of the behavior and facial expression of the person extracted as the analysis target. In the present embodiment, the determination unit 13 determines that the notification condition is satisfied when at least one of the behavior and facial expression of the person extracted as the analysis target corresponds to the predefined behavior and facial expression required for notification.
  • the behaviors required for reporting by the person who operated the reporting device 1 include "care about the surroundings" and "restlessness".
  • the detection of the behavior that cares about the surrounding state may be detected based on, for example, the movement of the face.
  • the detection of restless behavior may be detected based on, for example, the movement of the body.
  • a part of the body is constantly moving without resting for a predetermined time or longer and the speed of change (calculated based on the movement distance of the moving part within a predetermined time, etc.) is equal to or higher than the reference level, calm down. You may judge that there is no such thing.
  • the facial expression required for reporting by the person who operated the reporting device 1 is fear or the like.
  • the behavior and facial expression required for reporting by a person in the vicinity of the person who operated the reporting device 1 may be the same as the behavior and facial expression required for reporting by the person who operated the reporting device 1. This assumes that the person around the person who operated the reporting device 1 is a friend of the person who operated the reporting device 1 and is involved in some trouble like the person who operated the reporting device 1. It was done.
  • the behavior and facial expression required for reporting by a person in the vicinity of the person who operates the reporting device 1 may be the behavior and facial expression that such a person tends to take.
  • the behaviors required for reporting by a person in the vicinity of the person who operated the reporting device 1 are "to stare at the person who operated the reporting device 1 without distracting the line of sight” and “to hit or kick a nearby object”. , “Open your mouth wide and say something to intimidate” and so on.
  • the detection of the behavior of staring at the person who operates the reporting device 1 without diverting the line of sight may be detected based on, for example, the movement of the face. As an example, when the face is always facing the person who operated the reporting device 1 for a predetermined time or longer, it is determined that the person who operated the reporting device 1 is staring at the person who operated the reporting device 1 without turning his / her line of sight. May be good.
  • the behavior of hitting or kicking a surrounding object may be detected based on, for example, the movement of the body.
  • a part of the body (arms and legs) moves and comes into contact with surrounding objects, and the speed of the part of the body (calculated based on the movement distance of the moving part within a predetermined time, etc.) is above the standard level. If this is the case, it may be determined that the player has hit or kicked a nearby object.
  • the detection of the behavior of threatening to say something with the mouth wide open may be detected based on, for example, the orientation of the face or the movement of the mouth. As an example, if the mouth moves with the face facing the person who operated the reporting device 1, and there is a moment when the mouth opens wider than the reference level during the movement, open the mouth wide and say something. You may judge that it is intimidating.
  • the facial expressions required for reporting by a person in the vicinity of the person who operated the reporting device 1 are anger and the like.
  • the determination unit 13 may determine that the reporting condition is satisfied when the person around the person who operates the reporting device 1 is on the blacklist of dangerous persons prepared in advance.
  • the appearance feature amount (facial feature amount, etc.) of the dangerous person may be registered. Then, the determination unit 13 may determine whether or not the person around the person who operates the reporting device 1 is a person on the blacklist based on the feature amount.
  • the determination unit 13 determines that the reporting condition is satisfied when the voice includes a predefined voice that requires reporting.
  • the voice required for reporting may be a scream, a yelling voice, or the like, or may be a predetermined remark content.
  • the prescribed content of the statement may be something that the victim may say, such as "stop” or "forgive", or the perpetrator may say “wait”, "do not allow", etc. It may be one with. Since the means for detecting screams and yells from the voice and the means for identifying the content of the remark contained in the voice are widely known, the description thereof is omitted here.
  • the voice required for reporting may be the voice of a person on the blacklist of dangerous persons prepared in advance. That is, the determination unit 13 may determine that the reporting condition is satisfied when the voice includes the voice of a person on the blacklist of the dangerous person.
  • the voiceprint of the voice of a dangerous person may be registered in the blacklist. Then, the determination unit 13 may determine whether or not the voice of the person on the blacklist is included in the voice based on the voiceprint.
  • the output unit 14 When it is determined that the notification condition is satisfied, the output unit 14 outputs notification information indicating that the notification device 1 has been operated. Specifically, the output unit 14 transmits the report information to the predetermined report destination device 3.
  • the reporting destination device 3 may be, for example, a police device, a security company device, or a device managed by another person.
  • the output unit 14 may include the data (at least one of the image and the voice) acquired by the acquisition unit 12 and the information indicating the installed position of the operated notification device 1 in the notification information.
  • the flowchart of FIG. 4 shows the entire flow from the operation detection of the reporting device 1 to the output of the reporting information.
  • the acquisition unit 12 receives the data generated by the data collection device 2 (at least one of the image and the voice). (S11). For example, the acquisition unit 12 receives data generated by the data collection device 2 between the start timing before the operation timing when the reporting device 1 is operated and the end timing after the operation timing, that is, the data before and after the operation timing. To get.
  • the determination unit 13 determines whether the data acquired by the acquisition unit 12 in S11 satisfies a predetermined reporting condition (S12). Then, when it is determined that the reporting condition is satisfied (Yes in S13), the output unit 14 transmits the reporting information indicating that the reporting device 1 has been operated to the reporting destination device 3 (S14). On the other hand, if it is not determined that the reporting condition is satisfied (No in S13), the output unit 14 does not transmit the reporting information to the reporting destination device 3.
  • the output unit 14 may include the data (at least one of the image and the voice) acquired by the acquisition unit 12 and the information indicating the installed position of the operated notification device 1 in the notification information.
  • the report destination device 3 that has received the report information is provided with information indicating the operated report device 1 on the terminal of a person (police officer, security guard, etc.) near the operated report device 1. You may send a request to rush there. It should be noted that the request may include at least one of an image taken around the operated reporting device 1 and a voice collected around the operated reporting device 1. Then, the reporting destination device 3 may receive an answer from the terminal as to whether or not it is possible to rush to the operated reporting device 1. In this case, the reporting destination device 3 manages the position information of each terminal of a plurality of persons (police officers, guards, etc.), and based on the management information, the person who is near the operated reporting device 1 is selected. Can be identified.
  • FIG. 5 shows an example of the processing flow of S12 of FIG.
  • the acquisition unit 12 acquires both the image and the sound in S11, and the determination unit 13 determines whether the reporting condition is satisfied based on both the image and the sound.
  • the determination unit 13 determines that the reporting condition is satisfied (S22).
  • the determination unit 13 determines that the report condition is satisfied (S22) when the image does not satisfy the report condition (No in S20) but the voice satisfies the report condition (Yes in S21).
  • the determination unit 13 determines that the reporting condition is not satisfied (S23).
  • FIG. 6 shows an example of the processing flow for determining whether the reporting condition is satisfied based on the image.
  • the determination unit 13 determines whether the reporting condition is satisfied based on both the behavior and facial expression of the person to be analyzed.
  • the determination unit 13 extracts at least one of the person who operated the reporting device 1 and the person around the person who operated the reporting device 1 from the image as an analysis target (S30).
  • the determination unit 13 determines that the notification condition is satisfied (S32).
  • the determination unit 13 determines that the notification conditions are not satisfied (S33).
  • FIG. 7 shows an example of the processing flow for determining whether the reporting condition is satisfied based on voice.
  • the judgment unit 13 determines that the notification condition is satisfied (S41).
  • the voice does not include the voice required for reporting (No in S40)
  • the processing device 10 of the present embodiment described above determines the necessity of reporting based on the data generated by the data collecting device 2, that is, whether it is mischief or erroneous operation, and determines that it is necessary. If you do, you can make a report. According to such a processing device 10, the frequency of reporting due to mischief or erroneous operation is reduced.
  • the processing device 10 can determine whether or not it is a mischief or an erroneous operation based on the behavior and facial expression of at least one of the person who operated the reporting device 1 and the person around it. Specifically, the processing device 10 can determine whether or not the behavior or facial expression of those persons is mischief or erroneous operation based on whether or not the person needs to be notified. According to such a processing device 10, mischief and erroneous operation can be detected with high accuracy.
  • the processing device 10 determines whether or not it is a mischief or an erroneous operation based on the content of remarks made by at least one of the person who operated the reporting device 1 and the people around it, and the voice generated by the actions of those people. Can be done. Specifically, the processing device 10 can determine whether or not there is mischief or erroneous operation based on whether or not the voice that requires notification is included in the voice. According to such a processing device 10, mischief and erroneous operation can be detected with high accuracy.
  • the processing device 10 can determine whether or not there is mischief or erroneous operation based on not only the image and voice after the operation timing when the reporting device 1 is operated but also the image and voice before the operation timing. According to such a processing device 10, mischief and erroneous operation can be detected with high accuracy.
  • the determination unit 13 of the present embodiment determines whether or not the reporting condition is satisfied based on whether or not at least one of the behavior and facial expression of the person extracted as the analysis target corresponds to the predefined behavior and facial expression that does not require notification. .. The determination unit 13 determines that the notification condition is not satisfied when the behavior and facial expression do not require notification.
  • the behavior of the person who operated the reporting device 1 that does not require reporting is “laughing”, “smiling”, “yawning”, “does not care about the surroundings”, and “calmness”. There is an example.
  • facial expressions of the person who operated the reporting device 1 that do not require reporting are smile, joy, peace, calmness, and the like.
  • the behavior and facial expression of the person who operates the reporting device 1 that does not require reporting is the same as the behavior and facial expression of the person who operates the reporting device 1 that does not require reporting. This assumes that the person around the person who operated the reporting device 1 is a friend of the person who operated the reporting device 1 and is mischievous with the person who operated the reporting device 1. Is.
  • the determination unit 13 sets the reporting conditions. You may decide that it does not meet.
  • the appearance feature amount (facial feature amount, etc.) of the mischievous addict may be registered in the blacklist. Then, the determination unit 13 may determine whether or not the person who operated the reporting device 1 and the person in the vicinity thereof are on the blacklist based on the feature amount.
  • the determination unit 13 can determine that the notification condition is not satisfied when the voice includes a predefined voice that does not require notification.
  • the voice that does not require a report may be a laughing voice or the like, or may be a predetermined remark content.
  • the prescribed content may be something that a mischievous person may say, such as “Stop it", “I don't know”, “Do it quickly”, “I made a mistake”, “I made a mistake”, " It may be something that a person who has made an erroneous operation may make a statement, such as "I've done it" or "What should I do?"
  • the voice that does not need to be reported may be the voice of a person on the blacklist of mischievous addicts prepared in advance. That is, the determination unit 13 may determine that the reporting condition is not satisfied when the voice includes the voice of a person on the blacklist of the mischievous addict.
  • the voiceprint of the voice of a mischievous addict may be registered in the blacklist. Then, the determination unit 13 may determine whether or not the voice of the person on the blacklist is included in the voice based on the voiceprint.
  • FIG. 8 shows an example of the flow of processing for determining whether the reporting condition is satisfied based on the image.
  • the determination unit 13 determines whether the reporting condition is satisfied based on both the behavior and facial expression of the person to be analyzed.
  • the determination unit 13 extracts at least one of the person who operated the reporting device 1 and the person around the person who operated the reporting device 1 from the image as an analysis target (S50).
  • the determination unit 13 determines that the notification condition is not satisfied (S53).
  • the determination unit 13 determines that the notification conditions are satisfied (S52). ..
  • FIG. 9 shows an example of the flow of processing for determining whether the reporting condition is satisfied based on voice.
  • the judgment unit 13 determines that the notification condition is not satisfied (S62).
  • the voice does not include a predefined voice that does not require notification (No in S60)
  • the processing device 10 of the present embodiment determines whether or not the behavior or facial expression of at least one of the person who operated the reporting device 1 and the surrounding persons is mischief or erroneous operation based on whether or not the reporting is unnecessary. Can be done. According to such a processing device 10, mischief and erroneous operation can be detected with high accuracy.
  • the processing device 10 whether or not the voice generated by the person who operated the reporting device 1 and at least one of the surrounding people and the voice generated by the actions of those people include voices that do not require reporting. It is possible to judge whether it is a mischief or an erroneous operation based on the fact. According to such a processing device 10, mischief and erroneous operation can be detected with high accuracy.
  • the processing devices 10 of the first and second embodiments transmit the report information to the report destination device 3 in response to the operation of the report device 1.
  • the processing device 10 may have a function of transmitting report information to the report destination device 3 without operating the report device 1.
  • the processing device 10 may perform a process of constantly monitoring the data generated by the data collecting device 2 and detecting an abnormality. Then, when the processing device 10 detects an abnormality in the data generated by the data collecting device 2, the processing device 10 may transmit the report information to the report destination device 3.
  • the content detected by the processing device 10 as an abnormality may be, for example, that a person runs toward the reporting device 1. This can be detected based on the image.
  • the processing device 10 may detect a scream, a yelling voice, or the like as an abnormality from the voice.
  • the processing device 10 may detect violent acts such as hitting and kicking based on an image.
  • the processing device 10 that can make a report without operating the report device 1 based on the situation around the report device 1, relief for a person or the like who has fallen into such a situation is realized.
  • the acquisition means is at least the image generated by the camera from the start timing before the operation timing when the notification device is operated to the end timing after the operation timing, and the sound collected by the microphone.
  • the processing apparatus according to 1, wherein one is acquired. 3.
  • the processing device according to 1 or 2, wherein the camera photographs the surroundings of the reporting device, and the microphone collects sounds around the reporting device.
  • the judgment means is The person who operated the reporting device was extracted from the image as an analysis target.
  • the processing apparatus according to any one of 1 to 3, which determines whether or not the reporting condition is satisfied based on the behavior of the person extracted as the analysis target.
  • the judgment means is From the image, a person in the vicinity of the person who operated the reporting device is extracted as an analysis target.
  • the processing apparatus according to any one of 1 to 4, which determines whether or not the reporting condition is satisfied based on at least one of the behavior and facial expression of the person extracted as the analysis target. 6. 4.
  • the determination means determines that the notification condition is satisfied when at least one of the behavior and facial expression of the person extracted as the analysis target corresponds to the predefined behavior and facial expression required for notification.
  • the determination means is described in 4 or 5 for determining that the notification condition is not satisfied when at least one of the behavior and facial expression of the person extracted as the analysis target corresponds to the predefined behavior and facial expression that does not require notification.
  • the judgment means is The processing device according to any one of 1 to 7, which determines that the notification condition is satisfied when the voice includes a voice that requires a notification that is defined in advance.
  • the judgment means is The processing device according to any one of 1 to 7, which determines that the notification condition is not satisfied when the voice includes a predefined voice that does not require notification. 10.
  • the computer Detects that the reporting device has been operated and When it is detected that the reporting device has been operated, at least one of the image generated by the camera and the voice collected by the microphone is acquired. Judging whether at least one of the image and the sound satisfies the reporting condition, A processing method for outputting notification information indicating that the notification device has been operated when it is determined that the notification condition is satisfied.
  • 11. Computer, Detection means for detecting that the reporting device has been operated When it is detected that the reporting device has been operated, an acquisition means for acquiring at least one of an image generated by the camera and a voice collected by the microphone.
  • a means for determining whether at least one of the image and the sound satisfies the reporting condition An output means that outputs notification information indicating that the notification device has been operated when it is determined that the notification condition is satisfied.
  • a program that functions as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Alarm Systems (AREA)

Abstract

本発明は、通報装置が操作されたことを検出する検出部(11)と、通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得部(12)と、画像及び音声の少なくとも一方が通報条件を満たすか判断する判断部(13)と、通報条件を満たすと判断された場合、通報装置が操作された旨を示す通報情報を出力する出力部(14)と、を有する処理装置(10)を提供する。

Description

処理装置、処理方法及びプログラム
 本発明は、処理装置、処理方法及びプログラムに関する。
 ボタンを押下されるとその旨を警察に通報する通報装置が路上や街頭等に設置される場合がある。
 特許文献1は、事件、事故などの緊急事態が発生したときに、通報者が押すことによって、インターフォンで警察と通話ができる自立型の防犯灯を開示している。また、特許文献1は、いたずらや誤操作によって通報装置が押下されることを防止するために、防犯灯の近辺にいる人に音声のメッセージを発信することを開示している。
特開2007-72541号
 特許文献1に開示の技術は、音声でいたずらや誤操作に関する警告を行うだけである。いたずらや誤操作で通報装置が押下された場合には、警察との通話処理が行われてしまう。いたずらや誤操作による通報への対応は、対応者(警察)にとって大きな負担となる。
 本発明は、いたずらや誤操作による通報の頻度を軽減することを課題とする。
 本発明によれば、
 通報装置が操作されたことを検出する検出手段と、
 前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得手段と、
 前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断する判断手段と、
 前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する出力手段と、
を有する処理装置が提供される。
 また、本発明によれば、
 コンピュータが、
  通報装置が操作されたことを検出し、
  前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得し、
  前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断し、
  前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する処理方法が提供される。
 また、本発明によれば、
 コンピュータを、
  通報装置が操作されたことを検出する検出手段、
  前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得手段、
  前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断する判断手段、
  前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する出力手段、
として機能させるプログラムが提供される。
 本発明によれば、いたずらや誤操作による通報の頻度が軽減される。
 上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の処理装置の概要を説明するための図である。 本実施形態の処理装置のハードウエア構成の一例を示す図である。 本実施形態の処理装置の機能ブロック図の一例である。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。
<第1の実施形態>
 まず、図1を用いて本実施形態の処理装置10の概要を説明する。図示するように、路上、街頭、公共施設等の任意の位置に通報装置1が設置される。そして、通報装置1の周辺にカメラ及びマイクの少なくとも一方を備えるデータ収集装置2が設置される。カメラは、通報装置1の周辺を撮影するように設置される。マイクは、通報装置1の周辺の音声を集音するように設置される。通報装置1と処理装置10とは、有線及び/又は無線で互いに通信可能に接続される。また、データ収集装置2と処理装置10とは、有線及び/又は無線で互いに通信可能に接続される。
 処理装置10は、通報装置1からの信号に基づき通報装置1が操作されたことを検出すると、データ収集装置2が生成したデータ(画像データ及び音声データの少なくとも一方)が所定の通報条件を満たすか判断する。そして、処理装置10は、通報条件を満たすと判断した場合、通報装置1が操作された旨を示す通報情報を通報先装置3に送信する。通報先装置3と処理装置10とは、有線及び/又は無線で互いに通信可能に接続される。通報先装置3は、例えば警察の装置であってもよいし、警備会社の装置であってもよいし、その他の者が管理する装置であってもよい。
 このように、処理装置10は、通報装置1が操作された場合、データ収集装置2が生成したデータに基づき通報の要否、すなわちいたずらや誤操作でないか等を判断し、通報が必要と判断した場合に通報を行うことができる。このような処理装置10によれば、いたずらや誤操作による通報の頻度が軽減される。
 次に、処理装置10の構成を詳細に説明する。まず、処理装置10のハードウエア構成の一例を説明する。
 処理装置10の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図2は、処理装置10のハードウエア構成を例示するブロック図である。図2に示すように、処理装置10は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置10は周辺回路4Aを有さなくてもよい。なお、処理装置10は物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。処理装置10が物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
 図3に、処理装置10の機能ブロック図の一例を示す。図示するように、処理装置10は、検出部11と、取得部12と、判断部13と、出力部14とを有する。
 検出部11は、通報装置1が操作されたことを検出する。通報装置1は、路上、街頭、公共施設等の任意の位置に設置される。緊急時に通報装置1を操作すると、その旨が警察等に通報される。例えば、通報装置1はボタンを備えてもよい。そして、緊急時に行う操作は、当該ボタンの押下であってもよい。その他、通報装置1はタッチパネル、マウス、キーボード等のその他の入力装置を備えてもよい。そして、緊急時に行う操作は、これらの入力装置を介した所定の入力操作であってもよい。しかし、緊急時に行われる操作は、ボタンの押下のように、シンプルで容易なものが好ましい。
 通報装置1は、所定の操作(例:ボタンの押下等)を受け付けると、その旨を処理装置10に送信する。検出部11は、通報装置1から受信した信号に基づき、通報装置1が操作されたことを検出する。
 なお、通報装置1と処理装置10とは多対1の関係であってもよいし、1対1の関係であってもよい。
 取得部12は、通報装置1が操作されたことが検出されると、データ収集装置2が生成したデータを取得する。データ収集装置2は、カメラ及びマイクの少なくとも一方を備える。このようなデータ収集装置2が生成したデータは、画像及び音声の少なくとも一方を含む。
 カメラは、通報装置1の周辺を撮影するように設置される。例えば、カメラは、通報装置1を操作する人、通報装置1を操作する人の周辺にいる人等を撮影できるような位置及び向きで設置される。マイクは、通報装置1の周辺の音声を集音するように設置される。例えば、マイクは、通報装置1を操作する人の発言内容や、通報装置1を操作する人の周辺にいる人の発言内容や、これらの人の行動等により生じた音声等を集音できる位置及び向きで設置される。
 データ収集装置2が生成したデータは、データ収集装置2内の記憶装置、処理装置10内の記憶装置、及び、データ収集装置2と通信可能に構成されたその他の装置内の記憶装置の中の少なくとも1つに蓄積されていく。そして、取得部12は、通報装置1が操作されたことが検出されると、上述のように蓄積されているデータの中から所定の一部のデータを取得する。
 例えば、取得部12は、通報装置1が操作された操作タイミングより前の開始タイミングから、操作タイミングより後の終了タイミングまでの間にデータ収集装置2が生成したデータを取得する。すなわち、取得部12は、操作タイミングの前後のデータを取得する。開始タイミングは、操作タイミングよりもt1秒前である。終了タイミングは、操作タイミングよりもt2秒後である。なお、t1とt2は同じ値であってもよいし、異なる値であってもよい。
 その他、取得部12は、通報装置1が操作された操作タイミングから、操作タイミングより後の終了タイミングまでの間にデータ収集装置2が生成したデータを取得してもよい。すなわち、取得部12は、操作タイミングより後のデータを取得してもよい。終了タイミングは、操作タイミングよりもt2秒後である。
 その他、取得部12は、通報装置1が操作された操作タイミングより前の開始タイミングから、操作タイミングまでの間にデータ収集装置2が生成したデータを取得してもよい。すなわち、取得部12は、操作タイミングより前のデータを取得してもよい。開始タイミングは、操作タイミングよりもt1秒前である。
 なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。
 判断部13は、取得部12が取得したデータ(画像及び音声の少なくとも一方)が通報条件を満たすか判断する。
 最初に、画像に基づき通報条件を満たすか判断する処理の一例を説明する。まず、判断部13は、取得部12が取得した画像の中から通報装置1を操作した人物及び通報装置1を操作した人物の周辺にいる人物の少なくとも一方を、解析対象として抽出する。例えば、判断部13は、通報装置1が操作されたタイミングで通報装置1と接触した人物(手で触れた人物等)を、通報装置1を操作した人物として抽出してもよい。そして、判断部13は、「通報装置1を操作した人物から所定の距離以内にいる人物」、「通報装置1から所定の距離以内にいるその他の人物」又は「画像の中のその他の人物」を、通報装置1を操作した人物の周辺にいる人物として抽出してもよい。「その他の人物」は通報装置1を操作した人物以外の人物である。画像内から人物を抽出する手段や、画像の中の2点間の実際の距離を推定する手段は広く知られているので、ここでの説明は省略する。
 そして、判断部13は、解析対象として抽出した人物の挙動及び表情の少なくとも一方に基づき、通報条件を満たすか判断する。本実施形態では、判断部13は、解析対象として抽出した人物の挙動及び表情の少なくとも一方が、予め定義された通報必要な挙動及び表情に該当する場合、通報条件を満たすと判断する。
 例えば、通報装置1を操作した人物の通報必要な挙動は、「周囲の様子を気にする」、「落ち着きがない」等が例示される。周囲の様子を気にする挙動の検出は、例えば、顔の動きに基づき検出してもよい。一例として、所定時間以上静止することなく、常に顔の向きが上下左右に変化している場合、周囲の様子を気にしていると判断してもよい。また、落ち着きがない挙動の検出は、例えば、身体の動きに基づき検出してもよい。一例として、所定時間以上静止することなく常に身体の一部が動いており、その変化のスピード(動いている部分の所定時間内における移動距離に基づき算出等)が基準レベル以上である場合、落ち着きがないと判断してもよい。
 また、通報装置1を操作した人物の通報必要な表情は、恐怖等である。
 また、通報装置1を操作した人物の周辺にいる人物の通報必要な挙動及び表情は、通報装置1を操作した人物の通報必要な挙動及び表情と同じであってもよい。これは、通報装置1を操作した人物の周辺にいる人物は、通報装置1を操作した人物の仲間であり、通報装置1を操作した人物と同様に、何らかのトラブルに巻き込まれている状況を想定したものである。
 なお、通報装置1を操作した人物の周辺にいる人物は、通報装置1を操作した人物に危害を加えようとしている可能性もある。そこで、通報装置1を操作した人物の周辺にいる人物の通報必要な挙動及び表情は、このような人物がとりがちな挙動及び表情であってもよい。
 例えば、通報装置1を操作した人物の周辺にいる人物の通報必要な挙動は、「視線を逸らすことなく通報装置1を操作した人物をじっと見る」、「周辺の物を叩いたり蹴ったりする」、「口を大きく開けて何かを発言し威嚇する」等が例示される。視線を逸らすことなく通報装置1を操作した人物をじっと見る挙動の検出は、例えば、顔の動きに基づき検出してもよい。一例として、所定時間以上の間、常に顔の向きが通報装置1を操作した人物の方に向いている場合、視線を逸らすことなく通報装置1を操作した人物をじっと見ていると判断してもよい。また、周辺の物を叩いたり蹴ったりする挙動は、例えば、身体の動きに基づき検出してもよい。一例として、身体の一部(腕や足)が動いて周辺の物と接触し、その身体の一部のスピード(動いている部分の所定時間内における移動距離に基づき算出等)が基準レベル以上である場合、周辺の物を叩いたり蹴ったりしたと判断してもよい。口を大きく開けて何かを発言し威嚇する挙動の検出は、例えば、顔の向きや口の動きに基づき検出してもよい。一例として、通報装置1を操作した人物の方に顔が向いている状態で口が動き、その動きの間に口が基準レベル以上大きく開く瞬間がある場合、口を大きく開けて何かを発言し威嚇していると判断してもよい。
 また、通報装置1を操作した人物の周辺にいる人物の通報必要な表情は、怒り等である。
 なお、上述した通報必要な挙動及びその検出方法はあくまで一例であり、これに限定されない。また、画像解析で表情を判定する手段は広く知られているので、ここでの説明は省略する。
 その他の例として、判断部13は、通報装置1を操作した人物の周辺にいる人物が予め用意された危険人物のブラックリストに載っている場合、通報条件を満たすと判断してもよい。ブラックリストには、危険人物の外観の特徴量(顔の特徴量等)が登録されていてもよい。そして、判断部13は、当該特徴量に基づき、通報装置1を操作した人物の周辺にいる人物がブラックリストに載っている人物か否かを判断してもよい。
 次に、音声に基づき通報条件を満たすか判断する処理の一例を説明する。判断部13は、音声の中に予め定義された通報必要な音声が含まれる場合、通報条件を満たすと判断する。通報必要な音声は、悲鳴、怒鳴り声等であってもよいし、所定の発言内容であってもよい。所定の発言内容は、「やめて」、「許して」等、被害者側が発言する可能性のあるものであってもよいし、「待て」、「許さない」等、加害者側が発言する可能性のあるものであってもよい。音声の中から悲鳴や怒鳴り声等を検出する手段や、音声に含まれる発言内容を特定する手段は広く知られているので、ここでの説明は省略する。
 その他、通報必要な音声は、予め用意された危険人物のブラックリストに載っている人物の声であってもよい。すなわち、判断部13は、音声の中に、危険人物のブラックリストに載っている人物の声が含まれる場合、通報条件を満たすと判断してもよい。ブラックリストには、危険人物の声の声紋が登録されていてもよい。そして、判断部13は、当該声紋に基づき、音声の中にブラックリストに載っている人物の声が含まれるか否かを判断してもよい。
 出力部14は、通報条件を満たすと判断された場合、通報装置1が操作された旨を示す通報情報を出力する。具体的には、出力部14は、通報情報を所定の通報先装置3に送信する。通報先装置3は、例えば警察の装置であってもよいし、警備会社の装置であってもよいし、その他の者が管理する装置であってもよい。なお、出力部14は、通報情報の中に、取得部12が取得したデータ(画像及び音声の少なくとも一方)や、操作された通報装置1の設置位置を示す情報等を含めてもよい。
 次に、図4乃至図7のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
 図4のフローチャートは、通報装置1の操作検出から通報情報の出力までの全体の流れを示す。
 検出部11が通報装置1からの信号に基づき通報装置1が操作されたことを検出すると(S10のYes)、取得部12は、データ収集装置2が生成したデータ(画像及び音声の少なくとも一方)を取得する(S11)。例えば、取得部12は、通報装置1が操作された操作タイミングより前の開始タイミングから、操作タイミングより後の終了タイミングまでの間にデータ収集装置2が生成したデータ、すなわち操作タイミングの前後のデータを取得する。
 その後、判断部13は、S11で取得部12が取得したデータが所定の通報条件を満たすか判断する(S12)。そして、通報条件を満たすと判断された場合(S13のYes)、出力部14は、通報装置1が操作された旨を示す通報情報を通報先装置3に送信する(S14)。一方、通報条件を満たすと判断されなかった場合(S13のNo)、出力部14は、通報情報を通報先装置3に送信しない。出力部14は、通報情報の中に、取得部12が取得したデータ(画像及び音声の少なくとも一方)や、操作された通報装置1の設置位置を示す情報等を含めてもよい。
 なお、図示しないが、通報情報を受信した通報先装置3は、操作された通報装置1の近くにいる者(警察官、警備員等)の端末に、操作された通報装置1を示す情報及びそこに駆け付けるリクエストを送信してもよい。なお、このリクエストの中に、操作された通報装置1の周辺を撮影した画像、及び、操作された通報装置1の周辺で集音された音声の少なくとも一方が含まれてもよい。そして、通報先装置3は、操作された通報装置1に駆け付けることが可能か否かの回答を端末から受信してもよい。この場合、通報先装置3は、複数の者(警察官、警備員等)各々の端末の位置情報を管理しておき、当該管理情報に基づき、操作された通報装置1の近くにいる者を特定することができる。
 図5は、図4のS12の処理の流れの一例を示す。当該例では、取得部12はS11で画像及び音声の両方を取得し、判断部13は画像及び音声の両方に基づき通報条件を満たすか判断する。
 判断部13は、画像が通報条件を満たす場合(S20のYes)、通報条件を満たすと判断する(S22)。
 また、判断部13は、画像が通報条件を満たさないが(S20のNo)、音声が通報条件を満たす場合(S21のYes)、通報条件を満たすと判断する(S22)。
 そして、判断部13は、画像が通報条件を満たさず(S20のNo)、かつ、音声も通報条件を満たさない場合(S21のNo)、通報条件を満たさないと判断する(S23)。
 図6は、画像に基づき通報条件を満たすか判断する処理の流れの一例を示す。当該例では、判断部13は、解析対象の人物の挙動及び表情の両方に基づき通報条件を満たすか判断する。
 判断部13は、画像の中から通報装置1を操作した人物、及び、通報装置1を操作した人物の周辺の人物の少なくとも一方を解析対象として抽出する(S30)。解析対象の人物の挙動及び表情の少なくとも一方が、予め定義された通報必要な挙動及び表情に該当する場合(S31のYes)、判断部13は、通報条件を満たすと判断する(S32)。一方、解析対象の人物の挙動及び表情のいずれもが、予め定義された通報必要な挙動及び表情に該当しない場合(S31のNo)、判断部13は、通報条件を満たさないと判断する(S33)。
 図7は、音声に基づき通報条件を満たすか判断する処理の流れの一例を示す。判断部13は、音声の中に、予め定義された通報必要な音声が含まれる場合(S40のYes)、通報条件を満たすと判断する(S41)。一方、音声の中に、予め定義された通報必要な音声が含まれない場合(S40のNo)、通報条件を満たさないと判断する(S42)。
 以上説明した本実施形態の処理装置10は、通報装置1が操作された場合、データ収集装置2が生成したデータに基づき通報の要否、すなわちいたずらや誤操作でないか等を判断し、必要と判断した場合に通報を行うことができる。このような処理装置10によれば、いたずらや誤操作による通報の頻度が軽減される。
 また、処理装置10は、通報装置1を操作した人物、及び、その周辺の人物の少なくとも一方の挙動や表情等に基づき、いたずらや誤操作でないか判断することができる。具体的には、処理装置10は、それらの人物の挙動や表情が、通報必要なものであるか否かに基づき、いたずらや誤操作でないか判断することができる。このような処理装置10によれば、いたずらや誤操作を高精度に検出することができる。
 また、処理装置10は、通報装置1を操作した人物、及び、その周辺の人物の少なくとも一方による発言内容や、それらの人の行動により生じた音声等に基づき、いたずらや誤操作でないか判断することができる。具体的には、処理装置10は、音声の中に通報必要な音声が含まれるか否かに基づき、いたずらや誤操作でないか判断することができる。このような処理装置10によれば、いたずらや誤操作を高精度に検出することができる。
 また、処理装置10は、通報装置1が操作された操作タイミングより後の画像や音声のみならず、操作タイミングより前の画像や音声に基づき、いたずらや誤操作でないか判断することができる。このような処理装置10によれば、いたずらや誤操作を高精度に検出することができる。
<第2の実施形態>
 本実施形態の判断部13は、解析対象として抽出した人物の挙動及び表情の少なくとも一方が、予め定義された通報不要な挙動及び表情に該当するか否かに基づき、通報条件を満たすか判断する。判断部13は、通報不要な挙動及び表情に該当する場合、通報条件を満たさないと判断する。
 例えば、通報装置1を操作した人物の通報不要な挙動は、「笑っている」、「笑顔である」、「あくびをしている」、「周囲の様子を気にしてない」、「落ち着きがある」等が例示される。
 また、通報装置1を操作した人物の通報不要な表情は、笑顔、喜び、安らか、冷静等である。
 また、通報装置1を操作した人物の周辺にいる人物の通報不要な挙動及び表情は、通報装置1を操作した人物の通報不要な挙動及び表情と同じである。これは、通報装置1を操作した人物の周辺にいる人物は、通報装置1を操作した人物の仲間であり、通報装置1を操作した人物と一緒にいたずら等をしている状況を想定したものである。
 その他の例として、判断部13は、通報装置1を操作した人物、及び、その周辺にいる人物の中のいずれかが、予め用意されたいたずら常習犯のブラックリストに載っている場合、通報条件を満たさないと判断してもよい。ブラックリストには、いたずら常習犯の外観の特徴量(顔の特徴量等)が登録されていてもよい。そして、判断部13は、当該特徴量に基づき、通報装置1を操作した人物、及び、その周辺にいる人物がブラックリストに載っている人物か否かを判断してもよい。
 また、判断部13は、音声の中に予め定義された通報不要な音声が含まれる場合、通報条件を満たさないと判断することができる。通報不要な音声は、笑い声等であってもよいし、所定の発言内容であってもよい。所定の発言内容は、「やめとけよ」、「知らないぞ」、「早くやれよ」等、いたずらをしている者が発言する可能性のあるものであってもよいし、「間違えた」、「しまった」、「どうしよう」等、誤操作をした者が発言する可能性のあるものであってもよい。
 その他、通報不要な音声は、予め用意されたいたずら常習犯のブラックリストに載っている人物の声であってもよい。すなわち、判断部13は、音声の中に、いたずら常習犯のブラックリストに載っている人物の声が含まれる場合、通報条件を満たさないと判断してもよい。ブラックリストには、いたずら常習犯の声の声紋が登録されていてもよい。そして、判断部13は、当該声紋に基づき、音声の中にブラックリストに載っている人物の声が含まれるか否かを判断してもよい。
 次に、処理装置10の処理の流れの一例を説明する。図8は、画像に基づき通報条件を満たすか判断する処理の流れの一例を示す。当該例では、判断部13は、解析対象の人物の挙動及び表情の両方に基づき通報条件を満たすか判断する。
 判断部13は、画像の中から通報装置1を操作した人物、及び、通報装置1を操作した人物の周辺の人物の少なくとも一方を解析対象として抽出する(S50)。解析対象の人物の挙動及び表情の少なくとも一方が、予め定義された通報不要な挙動及び表情に該当する場合(S51のYes)、判断部13は、通報条件を満たさないと判断する(S53)。一方、解析対象の人物の挙動及び表情のいずれもが、予め定義された通報不要な挙動及び表情に該当しない場合(S51のNo)、判断部13は、通報条件を満たすと判断する(S52)。
 図9は、音声に基づき通報条件を満たすか判断する処理の流れの一例を示す。判断部13は、音声の中に、予め定義された通報必要な音声が含まれる場合(S60のYes)、通報条件を満たさないと判断する(S62)。一方、音声の中に、予め定義された通報不要な音声が含まれない場合(S60のNo)、通報条件を満たすと判断する(S61)。
 処理装置10のその他の構成は、第1の実施形態と同様である。
 本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。また、処理装置10は、通報装置1を操作した人物、及び、その周辺の人物の少なくとも一方の挙動や表情が、通報不要なものであるか否かに基づき、いたずらや誤操作でないか判断することができる。このような処理装置10によれば、いたずらや誤操作を高精度に検出することができる。
 また、処理装置10は、通報装置1を操作した人物、及び、その周辺の人物の少なくとも一方による発言内容や、それらの人の行動により生じた音声の中に通報不要な音声が含まれるか否かに基づき、いたずらや誤操作でないか判断することができる。このような処理装置10によれば、いたずらや誤操作を高精度に検出することができる。
<変形例>
 ここで、第1及び第2の実施形態に適用可能な処理装置10の変形例を説明する。第1及び第2の実施形態の処理装置10は、通報装置1の操作に応じて通報情報を通報先装置3に送信した。変形例として、処理装置10は、通報装置1の操作なしで通報情報を通報先装置3に送信する機能を備えてもよい。具体的には、処理装置10は、データ収集装置2が生成したデータを常時監視し、異常を検出する処理を行ってもよい。そして、処理装置10は、データ収集装置2が生成したデータの中で異常を検出した場合、通報情報を通報先装置3に送信してもよい。
 処理装置10が異常として検出する内容は、例えば、人が通報装置1の方に向かって走ってくることであってもよい。これは、画像に基づき検出することができる。その他、処理装置10は、音声の中から、悲鳴、怒鳴り声等を異常として検出してもよい。その他、処理装置10は、殴る、蹴る等の暴力行為を、画像に基づき検出してもよい。
 例えば、通報装置1を操作するために通報装置1のそばまで来たが、邪魔をされ、通報装置1を操作できないという状況に陥る人が発生し得る。通報装置1の周辺の様子に基づき、通報装置1への操作なしで通報できる処理装置10によれば、このような状況に陥った人等の救済が実現される。
 以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 通報装置が操作されたことを検出する検出手段と、
 前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得手段と、
 前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断する判断手段と、
 前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する出力手段と、
を有する処理装置。
2. 前記取得手段は、前記通報装置が操作された操作タイミングより前の開始タイミングから前記操作タイミングより後の終了タイミングまでの間に前記カメラが生成した画像、及び、前記マイクが集音した音声の少なくとも一方を取得する1に記載の処理装置。
3. 前記カメラは前記通報装置の周辺を撮影し、前記マイクは前記通報装置の周辺の音声を集音する1又は2に記載の処理装置。
4. 前記判断手段は、
  前記画像の中から前記通報装置を操作した人物を解析対象として抽出し、
  前記解析対象として抽出した人物の挙動に基づき、前記通報条件を満たすか判断する1から3のいずれかに記載の処理装置。
5. 前記判断手段は、
  前記画像の中から前記通報装置を操作した人物の周辺にいる人物を解析対象として抽出し、
  前記解析対象として抽出した人物の挙動及び表情の少なくとも一方に基づき、前記通報条件を満たすか判断する1から4のいずれかに記載の処理装置。
6. 前記判断手段は、前記解析対象として抽出した人物の挙動及び表情の少なくとも一方が、予め定義された通報必要な挙動及び表情に該当する場合、前記通報条件を満たすと判断する4又は5に記載の処理装置。
7. 前記判断手段は、前記解析対象として抽出した人物の挙動及び表情の少なくとも一方が、予め定義された通報不要な挙動及び表情に該当する場合、前記通報条件を満たさないと判断する4又は5に記載の処理装置。
8. 前記判断手段は、
  前記音声の中に予め定義された通報必要な音声が含まれる場合、前記通報条件を満たすと判断する1から7のいずれかに記載の処理装置。
9. 前記判断手段は、
  前記音声の中に予め定義された通報不要な音声が含まれる場合、前記通報条件を満たさないと判断する1から7のいずれかに記載の処理装置。
10. コンピュータが、
  通報装置が操作されたことを検出し、
  前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得し、
  前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断し、
  前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する処理方法。
11. コンピュータを、
  通報装置が操作されたことを検出する検出手段、
  前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得手段、
  前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断する判断手段、
  前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する出力手段、
として機能させるプログラム。

Claims (10)

  1.  通報装置が操作されたことを検出する検出手段と、
     前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得手段と、
     前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断する判断手段と、
     前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する出力手段と、
    を有する処理装置。
  2.  前記取得手段は、前記通報装置が操作された操作タイミングより前の開始タイミングから前記操作タイミングより後の終了タイミングまでの間に前記カメラが生成した画像、及び、前記マイクが集音した音声の少なくとも一方を取得する請求項1に記載の処理装置。
  3.  前記カメラは前記通報装置の周辺を撮影し、前記マイクは前記通報装置の周辺の音声を集音する請求項1又は2に記載の処理装置。
  4.  前記判断手段は、
      前記画像の中から前記通報装置を操作した人物を解析対象として抽出し、
      前記解析対象として抽出した人物の挙動に基づき、前記通報条件を満たすか判断する請求項1から3のいずれか1項に記載の処理装置。
  5.  前記判断手段は、
      前記画像の中から前記通報装置を操作した人物の周辺にいる人物を解析対象として抽出し、
      前記解析対象として抽出した人物の挙動及び表情の少なくとも一方に基づき、前記通報条件を満たすか判断する請求項1から4のいずれか1項に記載の処理装置。
  6.  前記判断手段は、前記解析対象として抽出した人物の挙動及び表情の少なくとも一方が、予め定義された通報必要な挙動及び表情に該当する場合、前記通報条件を満たすと判断する請求項4又は5に記載の処理装置。
  7.  前記判断手段は、前記解析対象として抽出した人物の挙動及び表情の少なくとも一方が、予め定義された通報不要な挙動及び表情に該当する場合、前記通報条件を満たさないと判断する請求項4又は5に記載の処理装置。
  8.  前記判断手段は、
      前記音声の中に予め定義された通報必要な音声が含まれる場合、前記通報条件を満たすと判断する請求項1から7のいずれか1項に記載の処理装置。
  9.  コンピュータが、
      通報装置が操作されたことを検出し、
      前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得し、
      前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断し、
      前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する処理方法。
  10.  コンピュータを、
      通報装置が操作されたことを検出する検出手段、
      前記通報装置が操作されたことが検出されると、カメラが生成した画像、及び、マイクが集音した音声の少なくとも一方を取得する取得手段、
      前記画像及び前記音声の少なくとも一方が通報条件を満たすか判断する判断手段、
      前記通報条件を満たすと判断された場合、前記通報装置が操作された旨を示す通報情報を出力する出力手段、
    として機能させるプログラム。
PCT/JP2019/051452 2019-12-27 2019-12-27 処理装置、処理方法及びプログラム WO2021131024A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021566728A JP7355120B2 (ja) 2019-12-27 2019-12-27 処理装置、処理方法及びプログラム
PCT/JP2019/051452 WO2021131024A1 (ja) 2019-12-27 2019-12-27 処理装置、処理方法及びプログラム
US17/788,785 US11869244B2 (en) 2019-12-27 2019-12-27 Notification device, notification method, and notification storage medium
US18/512,309 US20240087326A1 (en) 2019-12-27 2023-11-17 Notification device, notification method, and notification storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/051452 WO2021131024A1 (ja) 2019-12-27 2019-12-27 処理装置、処理方法及びプログラム

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/788,785 A-371-Of-International US11869244B2 (en) 2019-12-27 2019-12-27 Notification device, notification method, and notification storage medium
US18/512,309 Continuation US20240087326A1 (en) 2019-12-27 2023-11-17 Notification device, notification method, and notification storage medium

Publications (1)

Publication Number Publication Date
WO2021131024A1 true WO2021131024A1 (ja) 2021-07-01

Family

ID=76573847

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/051452 WO2021131024A1 (ja) 2019-12-27 2019-12-27 処理装置、処理方法及びプログラム

Country Status (3)

Country Link
US (2) US11869244B2 (ja)
JP (1) JP7355120B2 (ja)
WO (1) WO2021131024A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7355050B2 (ja) * 2021-03-04 2023-10-03 トヨタ自動車株式会社 車両制御装置、車両制御方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0935133A (ja) * 1995-07-14 1997-02-07 Safety- Net:Kk 非常通報機能を有した自動販売機及びこれを用いた通信警備システム
JP2011073819A (ja) * 2009-09-30 2011-04-14 Mitsubishi Electric Building Techno Service Co Ltd エレベータのインターホン装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072541A (ja) 2005-09-05 2007-03-22 Hitachi Ltd 誤報いたずら対策用無線タグ付名札および誤報いたずら対策用通報装置
JP2007251697A (ja) * 2006-03-16 2007-09-27 Chugoku Electric Power Co Inc:The 機器監視制御システム、方法およびプログラム
KR101659027B1 (ko) * 2014-05-15 2016-09-23 엘지전자 주식회사 이동 단말기 및 차량 제어 장치
JP7296838B2 (ja) 2019-09-26 2023-06-23 株式会社デンソーテン 緊急通報装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0935133A (ja) * 1995-07-14 1997-02-07 Safety- Net:Kk 非常通報機能を有した自動販売機及びこれを用いた通信警備システム
JP2011073819A (ja) * 2009-09-30 2011-04-14 Mitsubishi Electric Building Techno Service Co Ltd エレベータのインターホン装置

Also Published As

Publication number Publication date
US11869244B2 (en) 2024-01-09
JPWO2021131024A1 (ja) 2021-07-01
US20220358766A1 (en) 2022-11-10
US20240087326A1 (en) 2024-03-14
JP7355120B2 (ja) 2023-10-03

Similar Documents

Publication Publication Date Title
JP4912606B2 (ja) 監視装置、監視センタ、監視システムおよび監視方法
US7944353B2 (en) System and method for detecting and broadcasting a critical event
JP2005346254A (ja) 危機監視システム
JP5902966B2 (ja) 救助活動支援システム
KR102069270B1 (ko) 화재감지 기능을 갖는 cctv시스템 및 그 제어방법
JP6801459B2 (ja) 情報処理装置、いじめ発見方法、情報処理システム、および、コンピュータプログラム
KR101321447B1 (ko) 네트워크를 통한 현장 모니터링 방법, 및 이에 사용되는 관리 서버
CN116170566A (zh) 一种智慧楼宇监控管理方法、装置、电子设备及存储介质
JP6084257B2 (ja) 救助活動支援システム
US20240087326A1 (en) Notification device, notification method, and notification storage medium
JP2012208793A (ja) 警備装置
JP6026115B2 (ja) 救助活動支援システム
KR102240089B1 (ko) 개인 위험 상태 감지 기반 상황 정보 획득 장치
FI20195002A1 (en) A method of using machine-readable code to control a camera to detect and monitor objects
CN114332760A (zh) 噪声行为监控方法、装置及电子设备
JP2013225248A (ja) 音識別システム、音識別装置、音識別方法およびプログラム
JP2019040495A (ja) 情報処理装置、情報処理方法、及び、プログラム
CN112580390B (zh) 基于智能音箱的安防监控方法、装置、音箱和介质
KR20190023544A (ko) IoT 센서와 연계된 사운드 기반의 디지털 영상저장 장치 및 방법
CN110659603A (zh) 一种数据处理方法及装置
JP2007114940A (ja) 訪問者通知・警告システム,方法,携帯端末およびプログラム
CN112435423B (zh) 一种监控方法及装置
CN111669540A (zh) 一种基于ai技术的监控系统及方法
JP2017107583A (ja) 救助活動支援システム
JP2019095843A (ja) インシデント検知システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957167

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566728

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19957167

Country of ref document: EP

Kind code of ref document: A1