WO2021186692A1 - Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法 - Google Patents

Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法 Download PDF

Info

Publication number
WO2021186692A1
WO2021186692A1 PCT/JP2020/012393 JP2020012393W WO2021186692A1 WO 2021186692 A1 WO2021186692 A1 WO 2021186692A1 JP 2020012393 W JP2020012393 W JP 2020012393W WO 2021186692 A1 WO2021186692 A1 WO 2021186692A1
Authority
WO
WIPO (PCT)
Prior art keywords
input data
user
labeled
unit
trained model
Prior art date
Application number
PCT/JP2020/012393
Other languages
English (en)
French (fr)
Inventor
祐馬 河合
Original Assignee
Toa株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toa株式会社 filed Critical Toa株式会社
Priority to US17/911,218 priority Critical patent/US20230095124A1/en
Priority to CN202080098417.XA priority patent/CN115280333A/zh
Priority to EP20925603.1A priority patent/EP4105845A4/en
Priority to JP2022507979A priority patent/JP7407271B2/ja
Priority to PCT/JP2020/012393 priority patent/WO2021186692A1/ja
Publication of WO2021186692A1 publication Critical patent/WO2021186692A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19697Arrangements wherein non-video detectors generate an alarm themselves
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B29/00Checking or monitoring of signalling or alarm systems; Prevention or correction of operating errors, e.g. preventing unauthorised operation
    • G08B29/18Prevention or correction of operating errors
    • G08B29/185Signal analysis techniques for reducing or preventing false alarms or for enhancing the reliability of the system
    • G08B29/186Fuzzy logic; neural networks

Definitions

  • the present disclosure relates to an AI control device, a server device connected to the AI control device, and an AI control method.
  • Patent Document 1 a learned model construction device and an abnormality detection device for performing abnormality detection using sound information around a production device are known (see Patent Document 1).
  • the trained model building apparatus acquires audio data including the audio of a worker located in the vicinity of the production apparatus, and also acquires the degree of abnormality related to the production line as a label, and the audio data and the label
  • a trained model of the degree of anomaly is constructed by supervised learning using the set as learning data.
  • the abnormality detection device determines the degree of abnormality in the determination data using the constructed trained model and the determination data.
  • An object of the present disclosure is an AI control device, a server device connected to an AI control device, which can reduce the burden on the user in generating a trained model and can realize an arbitrary event detection means using the trained model. And an AI control method.
  • the AI controller identifies individual users from multiple users, receives input data, and connects to a server device that generates a trained model based on the input data for each user.
  • It is a possible AI control device, and includes a first control unit and a first communication unit connected to the server device.
  • the first control unit acquires the input data, associates the identification information that can identify the user of the AI control device with the acquired input data, and transmits the input data to the server device via the first communication unit.
  • the first control unit is a trained model generated separately from the trained models of other users by the server device using the transmitted acquired input data, and is unknown by learning the characteristics of the acquired input data.
  • a trained model that detects input data with the same characteristics from the input data is executed.
  • the server device is a server device that can be connected to a plurality of AI control devices used by a plurality of users, and is connected to a second control unit and the plurality of AI control devices. It includes a second communication unit and a second storage unit.
  • the second control unit receives input data associated with the identification information of each user from the AI control devices of a plurality of users via the second communication unit, and stores the received input data in the second storage unit.
  • the received input data is used to learn the characteristics of the received input data for each user, and a trained model that detects the input data having the same characteristics from the unknown input data is generated.
  • the second control unit causes the generated trained model to be stored in the second storage unit for each user.
  • the AI control method is an AI control method using a server device that can be connected to a plurality of AI control devices, and identifies each user from the AI control devices of a plurality of users.
  • Receiving input data associated with information storing the received input data in the storage unit, learning the characteristics of the received input data for each user using the received input data, unknown input data It includes generating a trained model that detects input data having the same characteristics from, and storing the generated trained model in a storage unit for each user.
  • the burden on the user in generating the trained model can be reduced, and any event can be performed using the trained model.
  • a detection means can be realized.
  • FIG. 1 shows the overall configuration of the system according to the first embodiment.
  • FIG. 2 shows the configuration of the AI control device according to the first embodiment.
  • FIG. 3 shows the configuration of the server device according to the first embodiment.
  • FIG. 4A shows an example of a user management table managed in the server device.
  • FIG. 4B shows an example of a billing table managed in the server device.
  • FIG. 5 is a flowchart showing an operation for machine learning by the AI control device.
  • FIG. 6 is a flowchart showing a machine learning operation by the server device.
  • FIG. 7 shows an example of a display interface for the user to input a label.
  • FIG. 8A shows an example of a display interface showing related information.
  • FIG. 8B shows an example of reference information for calculating the relevance of label names.
  • FIG. 9 shows an example of a display interface showing billing information.
  • FIG. 10 is a flowchart showing the operation of abnormality detection by the AI control device.
  • FIG. 11A shows an example of microphone position information referred to by the AI control device according to another embodiment.
  • FIG. 11B shows an example of speaker position information referred to by the AI control device according to another embodiment.
  • FIG. 11C shows an example of the position information of the surveillance camera referred to by the AI control device according to the other embodiment.
  • Embodiment 1 The system 1 including the AI control device 10 and the server device 30 shown in FIG. 1 makes it possible to generate a sensor that responds to an arbitrary event (abnormal sound, etc.) so as to be suitable for each user.
  • an arbitrary event abnormal sound, etc.
  • the server device 30 is a machine learning server, and generates and manages a trained model for each user based on the input data received for each user. Based on this trained model, the AI control device 10 functions as a sensor that reacts to a sound including an unknown sound when an event occurs. As a result, each user can generate a sensor suitable for himself / herself.
  • the AI control device 10 is a device used by each user UserA, UserB ...
  • the AI control device 10 is connected to equipment including a broadcasting device 20 and a surveillance camera 40 installed in facilities such as offices, factories, commercial facilities, and public facilities.
  • One AI control device 10 may be connected to a plurality of equipments, or the AI control device 10 may be connected to each equipment. Further, the AI control device 10 may be mounted as a control device in the equipment.
  • Each equipment is provided with a contact input terminal that receives a signal from the AI control device 10 and a relay circuit that operates the equipment according to the signal received from the contact input terminal, as will be described later.
  • the broadcasting device 20 includes at least a contact input terminal, a holding unit for holding broadcast audio, and a speaker.
  • the broadcasting device 20 outputs the broadcasting sound held by the holding unit from the speaker in response to the signal received from the contact input terminal to expand the sound.
  • the surveillance camera 40 includes at least a contact input terminal and a recording unit.
  • the surveillance camera 40 records the captured image according to the signal received from the contact input terminal.
  • the input data is voice data in which the user labels the scream as a keyword, and a case where a sensor for detecting the scream as an abnormality detection is generated is taken as an example.
  • the AI control device 10 includes a control unit 11, a RAM 12, a ROM 14, a storage unit 13, a display unit 15, an operation unit 16, a communication unit 17, a microphone 18, and a contact output.
  • a unit 19 is provided.
  • the control unit 11 (an example of the first control unit) includes, for example, an AI chip and a processor such as a CPU, GPU, or FPGA capable of high-speed processing.
  • the control unit 11 executes each function of the AI control device 10 by reading the computer program stored in the ROM 14 and the storage unit 13 into the RAM 12 and executing the program.
  • the control unit 11 executes a program based on the learned model generated by the server device 30 to execute the functions of the input data acquisition unit 111, the labeling unit 112, the abnormality detection unit 113, and the equipment operation command unit 114. do.
  • the microphone 18 (an example of an input unit) is a built-in microphone built in the AI control device 10 or at least one external microphone connected to the AI control device 10 via an external input terminal such as an XLR connector (not shown). ).
  • the microphone 18 is used for voice acquisition for input data (voice data) used for machine learning by the server 23 described later, and voice acquisition for abnormality detection operation described later.
  • the microphone 18 may be a plurality of external microphones connected via different external input terminals.
  • a plurality of external microphones 18 may be provided in association with the plurality of equipments and devices. For example, when a plurality of equipments are installed in different areas, each external microphone 18 is arranged via an external input terminal so that different external microphones 18 are arranged in these areas together with the equipments. It should be connected to.
  • the input data acquisition unit 111 acquires voice data input by the user.
  • the voice data includes a plurality of sample sounds that the user determines to be "screaming".
  • the audio data is input via, for example, the microphone 18.
  • the labeled voice data is acquired by repeatedly inputting the sample sound through the microphone 18 and assigning the same label by the labeling unit 112 described later.
  • the audio data may be acquired from an audio file that has been acquired in advance and stored in the storage unit 13. Further, the sample sound collected through the microphone 18 is temporarily stored in the storage unit 13, and the user may collectively give the same label to the stored sample sound.
  • the labeling unit 112 assigns a label to the audio data acquired by the input data acquisition unit 111. Labeling is executed in response to input by the user using the display interface described later.
  • the labeled voice data (hereinafter, referred to as labeled voice data or labeled input data) is transmitted to the server device 30 via the communication unit 17.
  • the abnormality detection unit 113 acquires the sound picked up from the microphone 18 and determines the abnormality based on the learned model generated by the server device 30.
  • the equipment operation command unit 114 When an abnormality is determined, the equipment operation command unit 114 generates a signal for operating the equipment (broadcasting device 20, surveillance camera 40, etc.) to which the AI control device 10 is connected. The generated signal is transmitted to the equipment via the contact output unit 19.
  • the contact of the relay circuit of the equipment In the equipment, the contact of the relay circuit of the equipment is turned on by receiving the signal, and the equipment operates. For example, when the sound acquired from the microphone 18 is determined to be "screaming", the equipment is turned on, the broadcasting device 20 outputs the broadcasting sound (warning sound), and the surveillance camera 40 outputs the video. Start recording.
  • the equipment device operation command unit 114 is the same as the equipment device (corresponding to the microphone 18) close to the microphone 18 that has acquired the sound determined to be abnormal.
  • a signal is transmitted from the output terminal connected to the equipment installed in the area) to operate the equipment.
  • the storage unit 13 is composed of a semiconductor memory, an HDD, or the like.
  • the storage unit 13 has an identification information storage unit 131 that stores the identification information of the AI control device 10.
  • the storage unit 13 also has a trained model storage unit 132 (an example of a storage unit) that stores a trained model including a program and parameters generated and updated by machine learning, as will be described later.
  • the trained model may be stored in the server device 30 and only temporarily stored in the AI control device 10. In this case, the trained model storage unit 132 may be included in a part of the control unit 11. Further, a part or all of the storage unit 13 may be provided as another storage device.
  • the display unit 15 is composed of, for example, a liquid crystal display or an organic EL display.
  • the display unit 15 may include a touch panel.
  • the display unit 15 may be a separate display that can be connected to the AI control device 10.
  • the operation unit 16 is provided with, for example, a keyboard, a mouse, a touch panel, etc., and is input-operated by the user according to the screen displayed on the display unit 15.
  • the communication unit 17 (an example of the first communication unit) is an interface for connecting to a network, for example, an antenna for wireless communication or a network card that can be connected by wire.
  • the communication unit 17 is connected to the server device 30 via an internal network such as a LAN or WAN and the Internet.
  • the contact output unit 19 (an example of an external interface) has an output terminal connected to equipment such as a broadcasting device 20 and a surveillance camera 40, and transmits a signal generated by the equipment operation command unit 114.
  • the contact output unit 19 has a plurality of output terminals, and the AI control device 10 may be connected to each of a plurality of broadcasting devices 20 and a plurality of surveillance cameras 40 having different areas for each output terminal.
  • Server device 30 The server device 30 is connected to the AI control device 10 used by a plurality of users via the Internet.
  • the server device 30 is managed by a business operator that manages equipment and a business operator that provides services using machine learning.
  • the server device 30 (an example of the server device) includes a control unit 31, a RAM 32, a ROM 34, a storage unit 33, and a communication unit 37.
  • the control unit 31 (an example of the second control unit) is composed of, for example, an AI chip, and includes a processor such as a CPU or GPU capable of high-speed processing.
  • the control unit 31 executes each function of the server device 30 by reading the computer program stored in the ROM 34 and the storage unit 33 into the RAM 32 and executing the program.
  • the control unit 31 executes the functions of the input data management unit 311 and the learning unit 312, among other things.
  • the input data management unit 311 stores voice data, which is input data acquired from the AI control device 10 of each user, in the storage unit 33. At this time, the input data management unit 311 generates or updates a user management table, which will be described later, according to the user identification information, the labeled voice data, and the availability information transmitted from the AI control device 10 of each user. do. The input data management unit 311 further, in response to a request from the AI control device 10, transmits billing information to the AI control device 10 with reference to a user management table described later.
  • the input data management unit 311 generates and updates the reference information for determining the similarity between the label names based on the labeled voice data acquired from the AI control device 10 of each user.
  • the reference information is information in which the concept of the label name is associated with each other according to a predetermined criterion. Predetermined criteria are, for example, whether or not the concept of one label name (subordinate concept) inherits the concept of the other label name (superordinate concept), and the concepts of label names are synonyms or synonyms. It is a standard such as whether there is.
  • the input data management unit 311 generates, for example, reference information represented by a hierarchical structure as shown in FIG. 8B, and stores it in the storage unit 33. When the input data management unit 311 acquires the labeled voice data from the user's AI control device 10, for example, if a new label name is given, the input data management unit 311 updates the reference information.
  • the input data management unit 311 generates relevance information in response to a request from the user's AI control device 10.
  • the relevance information includes the labeled audio data having a high degree of relevance and the relevance degree with respect to the target labeled audio data.
  • the input data management unit 311 refers to the above-mentioned reference information and calculates the degree of relevance. For example, as shown in FIGS. 8A and 8B, the voice data with the label name "female scream" is given the label name "female scream” (or female scream, etc.), which is a synonym.
  • the relevance of the voice data is calculated to be 100%.
  • the relevance of the voice data with the label name "scream” is calculated to be 80% with respect to the voice data with the label name "scream of a woman".
  • the relevance of the voice data with the label name "scream” is calculated to be 0% with respect to the voice data with the label name "door open / close”.
  • the input data management unit 311 reads the voice data having a relatively high degree of relevance (for example, 60% or more) calculated in this way from the input data storage unit 334, and includes the relevance degree, and the requested AI control device 10 Generate relevance information to send to.
  • the learning unit 312 performs machine learning based on the acquired voice data in response to a request from the AI control device 10, and constructs a learned model for each user. Specifically, a learned model is constructed that autonomously learns the characteristics of the acquired voice data and detects the voice having the same characteristics with respect to the input of an unknown sound.
  • Machine learning is performed, for example, by using a regression algorithm that executes classification of supervised learning, or by using a deep learning neural network.
  • Machine learning carries out so-called supervised learning.
  • Labeled voice data is used for machine learning as correct answer data.
  • non-correct answer data prepared in advance for example, voice data that is not "scream” with respect to the labeled voice data of "scream" may be used for machine learning.
  • the server device 30 may use an existing AI platform, a machine learning engine, or other machine learning service to train an existing trained model using labeled voice data and execute machine learning.
  • the storage unit 33 (an example of a second storage unit or a storage unit) is composed of a semiconductor memory, an HDD, or the like.
  • the storage unit 33 includes a user management table storage unit 331, a billing table storage unit 332, a learned model storage unit 333 stored for each user, and an input data storage unit 334 in which voice data is stored for each label.
  • a part or all of the storage unit 33 may be provided as another storage device including a database.
  • the user management table storage unit 331 stores the user management table 331a as shown in FIG. 4A.
  • the user management table 331a stores the user identification information, the label, the identification information of the audio data corresponding to the label, and the usability information in association with each other.
  • the availability information indicates whether or not to allow other users to use the voice data.
  • the availability information may be permitted or disallowed only by a specific user. For example, it may be possible to identify a competitor and set a disapproval.
  • the billing table storage unit 332 stores the billing table 332a as shown in FIG. 4B.
  • the billing table 332a is a table for calculating the usage fee when the AI control device 10 generates the trained model by the server device 30 and charging the user of the AI control device 10.
  • the billing table 332a is information indicating a unit price for generating a trained model.
  • the billing table 332a includes a basic usage fee for machine learning (100 yen in the example of FIG. 4B) using labeled voice data with one label, and labeled voice of another user during device learning.
  • An additional charge for using the data 50 yen in the example of FIG. 4B
  • an additional cost when the availability information of the labeled voice data is "permission" (positive availability information) (example in FIG. 4B).
  • -50 yen that is, a discount of 50 yen
  • the trained model storage unit 333 stores the trained model generated by the learning unit 312 for each user.
  • the input data storage unit 334 stores voice data for each label.
  • the labeled voice data acquired from each user is classified by label by the input data management unit 311 and stored in the input data storage unit 334.
  • the audio data may be classified by label according to the above-mentioned reference information. For example, in the case of the label name “scream”, as shown in FIG. 8B, the voice data of the superordinate concept “scream” includes the subordinate concepts “female scream”, “outdoor scream”, and “indoor scream”. It is classified so that the voice data to which the label name of "" is given is also included.
  • the communication unit 37 (an example of the second communication unit) is an interface for connecting to a network, for example, an antenna for wireless communication or a network card that can be connected by wire.
  • the communication unit 37 is connected to the AI control devices 10 of a plurality of users via an internal network such as LAN or WAN and the Internet.
  • FIG. 5 shows an operation for executing machine learning by AI control device 10 shown in FIG.
  • the AI control device 10 accepts the input of a label for the voice data which is the input data (S101).
  • the display unit 15 displays the display interface 15a as shown in FIG. 7.
  • the display interface 15a (an example of a label input interface) includes an interface for inputting a label and an interface for inputting data availability information.
  • the availability information indicates permission / non-permission of the voice data to be used by another user.
  • the user of the AI control device 10 inputs a label for the target voice data via the operation unit 16. For example, enter the label the keyword "female scream".
  • the label may be input directly by the user, or may be selected by the user by displaying a preset list of labels.
  • the input data acquisition unit 111 acquires the voice data (S102), and the labeling unit 112 adds the label received in step S101 to the voice data (S103).
  • the control unit 11 transmits the labeled voice data associated with the user's identification information to the server device 30 via the communication unit 17 together with the data availability information (S104).
  • the above-mentioned relevance information is received from the server device 30 and displayed on the display unit 15 (S105).
  • the display unit 15 displays the display interface 15b as shown in FIG. 8A.
  • the display interface 15b displays the degree of relevance (%) of each voice data of another user to the voice data, the label name of each voice data, and the number of samples.
  • control unit 11 transmits a data usage request of the selected other user to the server device 30 via the communication unit 17. (S107).
  • the display unit 15 displays the display interface 15c as shown in FIG.
  • the display interface 15c displays the charge for using the machine learning of this time by the server device 30 (machine learning usage charge) and the charge for using the voice data of another user who requested it.
  • the display unit 15 uses the machine. Only the learning usage fee is displayed on the display unit 15 as billing information.
  • the user inputs whether or not to accept the presented billing information via the display interface 15c.
  • the control unit 11 requests the server device 30 to start machine learning (S109).
  • step S106 when the voice data of another user is not used at all (No in S106), the display unit 15 may not display the billing information.
  • steps S101 to S103 is not limited to the above.
  • the label input may be accepted and labeling may be executed.
  • FIG. 6 shows the operation of server device 30.
  • the input data management unit 311 of the control unit 31 acquires the voice data received from the AI control device 10 and the availability information of the data (S111).
  • the input data management unit 311 determines the identification information of the received user (S112), classifies and stores the received labeled voice data in the input data storage unit 334 for each label, and manages the user as shown in FIG. 4A.
  • Table 331a is updated (S113).
  • the input data management unit 311 generates the above-mentioned relevance information and transmits it to the AI control device 10 corresponding to the identification information of the user (S114). At this time, the input data management unit 311 also refers to the availability information of the voice data of the other user, and excludes the relevance information of the voice data of the other user who cannot be used without generating it.
  • the relevance information is generated as follows.
  • the input data management unit 311 receives a label of audio data labeled by the user (hereinafter referred to as a target label) and a plurality of audio data labels (other labels) classified and stored in the input data storage unit 334. compare.
  • the input data management unit 311 calculates the degree of relevance (%) of the target label to the target label based on the criteria shown in FIG. 8B.
  • the input data management unit 311 identifies audio data to which a label having a relevance degree of a predetermined value or more (for example, 60% or more) is given among other labels.
  • the input data management unit 311 extracts voice data whose label relevance is equal to or higher than a predetermined value from the input data storage unit 334, generates relevance information including the voice data and the calculated relevance, and controls AI. It is transmitted to the device 10.
  • the voice data of the other user is acquired from the input data storage unit 334 (S116).
  • the input data management unit 311 generates billing information and transmits it to the AI control device 10 (S117).
  • step S117 the input data management unit 311 charges the billing table according to whether the availability information acquired in step S111 is "usable” or “unusable", and whether or not there is a usage request in step S115.
  • the billing amount is calculated with reference to 332a, and billing information indicating the amount is generated.
  • step S111 is based on a basic charge of 100 yen for generating a trained model based on voice data with one label (“scream” in the example of this embodiment). If the usability information acquired in step 2 is "usable”, 50 yen is discounted, and if the usage request is received in step S115 (Yes in S115), 50 yen is added and the billing amount is calculated.
  • NS the basic charge of 100 yen for generating a trained model based on voice data with one label
  • Machine learning is executed by the learning unit 312 (S118).
  • the voice data of another user is not used (No in S115)
  • machine learning is executed based only on the voice data acquired from the user.
  • a learned model that learns the characteristics of the voice data acquired from the user and detects unknown sounds having the same characteristics is constructed.
  • machine learning is executed based on the voice data of the other user specified in addition to the voice data acquired from the user.
  • a learned model that learns the characteristics of the voice data acquired from the user and the voice data of another designated user and detects an unknown sound having the same characteristics is constructed.
  • the generated trained model is stored in the trained model storage unit 333 in correspondence with the identification information of the user (S120).
  • the generated trained model is transmitted to the AI control device 10 of the corresponding user and stored in the trained model storage unit 132 of the storage unit 13.
  • the transmission of the trained model from the server device 30 to the AI control device 10 may be automatically performed in response to the end of machine learning, or may be performed in response to a request from the AI control device 10. ..
  • the AI control device 10 detects anomalies using the trained model generated by the server 23.
  • FIG. 10 shows the operation of abnormality detection by the AI control device 10.
  • the AI control device 10 receives the voice from the microphone 18 (S121).
  • the abnormality detection unit 113 of the control unit 11 of the AI control device 10 reads and executes the trained model stored in the trained model storage unit 132, and whether or not the received voice is abnormal based on the above-mentioned trained model. Is determined (S122). That is, it is determined that an abnormality has occurred (abnormality exists) by detecting the voice having the learned characteristic by the trained model. This means that the user originally detects the sound corresponding to the label (“scream” in this embodiment) attached in steps S101 to S103 of FIG. 5 to determine the abnormality. In the present embodiment, when the voice corresponding to the scream is detected, it is determined that there is an abnormality (Yes in S123).
  • the equipment operation command unit 114 transmits a signal via the contact output unit 19 in response to the determination that there is an abnormality (S124). As described above, when a plurality of microphones 18 are connected, the equipment operation command unit 114 connects the contact output unit 19 to the broadcasting device 20 or the surveillance camera 40 corresponding to the microphone 18 that has received the sound determined to be abnormal. A signal is transmitted via (S124).
  • the designated equipment is operated by the equipment operation command unit 114 (S125). For example, the equipment is turned on, the broadcasting device 20 outputs a warning voice, and the surveillance camera 40 starts recording video.
  • the AI control device 10 has a mode (machine learning mode) for executing an operation for machine learning (steps S101 to S109 in FIG. 5) and a mode (abnormality) for executing an abnormality detection operation (steps S121 to S125 in FIG. 10). It may have a detection mode) and switch between these modes to execute each operation.
  • the microphone 18 functions to acquire labeled voice data in the machine learning mode, and functions to acquire an unknown sound for abnormality determination in the abnormality detection mode.
  • the AI control device 10 operates in the machine learning mode when the trained model is not stored in the trained model storage unit 132, and automatically responds to the trained model being stored in the trained model storage unit 132. It may be configured to switch to the abnormality detection mode.
  • the AI control device 10 acquires input data (for example, voice data), and associates the input data with identification information that can identify the user of the AI control device 10 to the server device 30.
  • the AI control device 10 is a trained model generated separately from the trained models of other users by the server device 30, and is an input data that learns the characteristics of the input data and has the characteristics from the unknown input data.
  • a trained model that detects the occurrence of a predetermined event (for example, a scream). Therefore, the burden on the user in generating the trained model can be reduced, and an arbitrary event detection means can be realized by using the trained model.
  • the AI control device 10 displays a display interface 15a for receiving a label input on the display unit 15, and attaches a label to the input data according to the label input. Therefore, the user can easily perform labeling on the input data.
  • the AI control device 10 causes the display unit 15 to display the relevance degree information indicating the relevance degree between the labeled input data and the labeled input data of another user calculated by the server device 30. Therefore, the user can selectively use the input data that is the input data of another user and has a high relevance, and the user himself collects a large amount of sample sounds and creates the labeled voice data. There is no need to do it. Therefore, the burden on the user in generating the trained model can be further reduced, and the accuracy of the trained model can be improved.
  • the server device 30 receives input data associated with the identification information of each user from the AI control devices 10 of a plurality of users, stores the received input data in the storage unit 33, and inputs the same. Using the data, each user learns the characteristics of the input data, generates a trained model that detects the input data having the same characteristics from the unknown input data, and divides the generated trained model by label. Let the storage unit 33. Therefore, the input data can be shared among a plurality of users, the burden on the user in generating the trained model can be further reduced, and the accuracy of the trained model can be improved.
  • the server device 30 stores and manages the availability information of the input data of each user in the storage unit 33. Therefore, the use of the user's input data by other users is restricted, and the input data is protected.
  • a fee for the user to use machine learning is presented to the user based on the availability information and the billing information managed by the server device 30.
  • Billing varies depending on whether or not the user allows the use of his / her input data, or depending on the amount of input data used by other users. Therefore, the user is given an incentive to allow the use of his / her own input data and to use the input data of another user, and can promote the use of the input data in each user's machine learning. ..
  • the AI control device 10 operates the connected broadcasting device 20 and the surveillance camera 40 based on the abnormality detection using the learned model. Therefore, the AI control device 10 can have a general-purpose configuration, and can realize a device that is highly convenient for the user.
  • machine learning was executed when the input data from the AI control device 10 was transmitted, but whether or not to execute machine learning may be performed after waiting for the input from the user. good.
  • the user may input the input data multiple times and execute machine learning when a certain amount of data is obtained.
  • the AI control device 10 determines an abnormality, the equipment is operated, but the present invention is not limited to this.
  • the AI control device 10 may notify the facility manager or the security room.
  • the AI control device 10 may be able to use only the data of another user without having its own input data. For example, after the label input operation to the display interface 15a shown in FIG. 7 (S101 in FIG. 5), the AI control device 10 transmits a data use request of another user to the server device 30 (S107 in the same). ..
  • the display unit 15 displays relevance information and billing information between the label input by the user and the labeled input data of another user (S105 and S108 of the same).
  • the machine learning request is transmitted to the server device 30 (S109).
  • the server device 30 executes machine learning for the user based on the input data of another designated user.
  • the availability information of the data was transmitted to the server device 30 together with the labeled input data, but it may be possible to transmit it separately.
  • the user may be able to change the availability information of the data at any time through the input operation.
  • the AI control device 10 operates the equipment by the contact output via the contact output unit 19, but is not limited to this.
  • the AI control device 10 may operate the equipment through the communication unit 17.
  • each equipment has a network connection having an IP address.
  • the equipment operation command unit 114 of the control unit 11 of the AI control device 10 shown in FIG. 1 generates a signal for operating the equipment, and the IP of the equipment via the communication unit 17. It is transmitted to the address, and the equipment is operated in the same manner as in the first embodiment.
  • the microphones 18 are also converted to IP and via the communication unit 17. It may be connected.
  • the management computer (not shown) connected to the AI control device 10 (storage unit 13) or the AI control device 10 includes identification information (IP address) of each microphone 18 and position information in which each microphone 18 is installed in the facility. (Fig. 11A), the identification information (IP address) of each equipment, and the equipment information (FIG. 11B, 11C) in which the equipment is installed in the facility. To hold.
  • the equipment operation command unit 114 identifies the position information of the microphone 18 that has acquired the sound determined to be abnormal by referring to the information shown in FIG.
  • the equipment operation command unit 114 further identifies the equipment close to the microphone 18 from the position information of the speaker shown in FIG. 11B and the position information of the surveillance camera shown in FIG. 11C, and transmits a signal to the equipment. Operate in the same manner as in Form 1. For example, when there are a plurality of broadcasting devices 20 installed in the facility, the AI control device 10 refers to the position information shown in FIG. 11B and is located near the microphone 18 that detects the sound determined to be "screaming". A signal is transmitted by designating the IP addresses of one or more broadcasting devices 20, the broadcasting device 20 is turned on, and a warning sound is output.
  • the input data is an example of voice data, but the input data is not limited to this.
  • the input data may be image data.
  • the AI control device 10 may include a camera that acquires an image instead of the microphone 18.
  • the image data acquired from the surveillance camera 40 may be used.
  • the machine uses image data whose label is a label desired by the user, for example, a keyword such as "suspicious operation", "action in which people are fighting each other", or “state in which a person has fallen down” as input data. Learning is executed, the features of the image data are learned, and a trained model that detects an image having the features from an unknown image (video) is generated.
  • the equipment is turned on and other operations (for example, the broadcasting device 20 is turned on, the warning sound is output, or the surveillance camera 40 starts recording the image) as in the first embodiment. Etc.) to start.
  • the input data management unit 311 of the server device 30 calculates the degree of relevance according to the degree of similarity between the label names of the user's input data, but the present invention is not limited to this.
  • the similarity of the input data itself may be calculated.
  • the input data is audio data
  • it may be calculated according to the closeness of the numerical values of the characteristic parameters of the audio data such as the height of the frequency and the magnitude of the amplitude.
  • the degree of similarity between the motion pattern and the posture pattern in the image may be calculated as the degree of relevance.
  • the degree of relevance may be calculated by taking into account the degree of similarity between business types among users, the degree of similarity between the types of facilities that use the AI control device 10, and the like.
  • the server device 30 stores in advance a data set acquired from a user other than the user (for example, a data set provided by an AI platform or a company that provides a machine learning service) in the storage unit 33.
  • a data set acquired from a user other than the user for example, a data set provided by an AI platform or a company that provides a machine learning service
  • the requested user may be allowed to use the dataset.
  • the AI control device 10 assigns a label to the input data by the user inputting the label, but the present invention is not limited to this.
  • the server device 30 may acquire unlabeled input data from the AI control device 10, automatically analyze the input data, and assign a label.
  • the AI control device 10 has both a function for machine learning and an abnormality detection function, but is not limited thereto.
  • the user may label the input data by another computer terminal instead of the AI control device 10 and send it to the server device 30 to execute machine learning.
  • the AI control device 10 may acquire the trained model from the server device 30 and perform an abnormality detection operation.
  • anomaly detection is not limited to detection of dangerous events, but may include detection of any state or action that the user desires to detect, that is, detection of a predetermined event.
  • the control units 11 and 31 of the AI control device 10 and the server device 30 may include a processor composed of a dedicated electronic circuit designed to realize a predetermined function. Further, the control units 11 and 31 may be realized by various processors such as DSP, FPGA, and ASIC. The processor may consist of one or more processors.
  • the execution order of the processing of the flowcharts shown in FIGS. 5, 6 and 10 is not necessarily limited to the description of the above-described embodiment, and the execution order is changed within a range that does not deviate from the gist of the invention. Or can be run in parallel. Further, when a plurality of processes are included in one step, the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the machine learning method and abnormality detection method executed by the AI control device 10 and / or the server device 30, a computer program executing the method, and a computer-readable recording medium on which the computer program is recorded are disclosed in the present disclosure. Is included in the range of.
  • the computer program may be acquired via a telecommunication line, a wireless or wired communication line, a network represented by the Internet, or the like.
  • a part or all of the AI control device 10 and / or the server device 30 according to the present disclosure shall have a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed. Can be done.
  • the device includes a case where it means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether or not all the components are in the same housing. In addition, all or some of the components may be installed in a place other than the facility.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Acoustics & Sound (AREA)
  • Finance (AREA)
  • Multimedia (AREA)
  • Accounting & Taxation (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数のユーザーから個々のユーザーを識別して入力データを受信し、ユーザー毎に入力データに基づいて学習済モデルを生成するサーバー装置(30)に接続可能なAI制御装置(10)は、制御部(11)と、サーバー装置(30)に接続される通信部(17)とを備える。制御部(11)は、入力データを取得し、AI制御装置(10)のユーザーを識別可能な識別情報と取得入力データとを対応付けて、サーバー装置(30)に通信部(17)を介して送信する。制御部(11)は、送信された取得入力データを使用してサーバー装置(30)により他のユーザーの学習済モデルとは別に生成された学習済モデルであって、取得入力データの特徴を学習して未知の入力データから同特徴を有する入力データを検知する学習済モデルを実行する。

Description

AI制御装置、AI制御装置に接続されるサーバー装置、及びAI制御方法
 本開示は、AI制御装置、AI制御装置に接続されるサーバー装置、及びAI制御方法に関する。
 従来、生産装置周辺の音情報を用いて異常検出を行うための学習済モデル構築装置及び異常検出装置が知られている(特許文献1を参照)。特許文献1においては、学習済モデル構築装置は、生産装置の近傍に位置した作業者の音声を含む音声データを取得するとともに、生産ラインに関する異常度をラベルとして取得し、音声データとラベルとの組みを学習データとして教師あり学習を行うことにより、異常度についての学習済モデルを構築する。異常検出装置は、構築された学習済モデルと判定データとを用いて、判定データの異常度を判定する。
 学習済モデルを構築するために十分な学習データを得ることはユーザーには負担が重く、また学習済モデルから得られる出力の精度を上げることが難しい。
 本開示の目的は、学習済モデルの生成においてユーザーの負担を軽減でき、且つ学習済モデルを使用して任意のイベント検知手段を実現できる、AI制御装置、AI制御装置に接続されるサーバー装置、及びAI制御方法を提供する。
 本開示の一の観点によれば、AI制御装置は、複数のユーザーから個々のユーザーを識別して入力データを受信し、ユーザー毎に入力データに基づいて学習済モデルを生成するサーバー装置に接続可能なAI制御装置であって、第1制御部と、サーバー装置に接続される第1通信部とを備える。第1制御部は、入力データを取得し、AI制御装置のユーザーを識別可能な識別情報と同取得入力データとを対応付けて、サーバー装置に第1通信部を介して送信する。第1制御部は、送信された取得入力データを使用してサーバー装置により他のユーザーの学習済モデルとは別に生成された学習済モデルであって、取得入力データの特徴を学習して未知の入力データから同特徴を有する入力データを検知する学習済モデルを実行する。
 本開示の他の観点によれば、サーバー装置は、複数のユーザーが使用する複数のAI制御装置に接続可能なサーバー装置であって、第2制御部と、複数のAI制御装置に接続される第2通信部と、第2記憶部とを備える。第2制御部は、複数のユーザーのAI制御装置から、第2通信部を介して、各ユーザーの識別情報と対応付けた入力データを受信し、同受信入力データを第2記憶部に記憶し、受信入力データを使用して、ユーザー毎に、受信入力データの特徴を学習して、未知の入力データから同特徴を有する入力データを検知する学習済モデルを生成する。第2制御部は、生成された学習済モデルをユーザー毎に第2記憶部にさせる。
 本開示の更に他の観点によれば、AI制御方法は、複数のAI制御装置に接続可能なサーバー装置を用いたAI制御方法であって、複数のユーザーのAI制御装置から、各ユーザーの識別情報と対応付けた入力データを受信すること、同受信入力データを記憶部に記憶すること、受信入力データを使用して、ユーザー毎に、受信入力データの特徴を学習すること、未知の入力データから同特徴を有する入力データを検知する学習済モデルを生成すること、生成された学習済モデルをユーザー毎に記憶部にさせること、を含む。
 本開示に係るAI制御装置、AI制御装置に接続されるサーバー装置、及びAI制御方法によれば、学習済モデルの生成においてユーザーの負担を軽減でき、且つ学習済モデルを使用して任意のイベント検知手段を実現できる。
図1は、実施形態1に係るシステムの全体構成を示す。 図2は、実施形態1に係るAI制御装置の構成を示す。 図3は、実施形態1に係るサーバー装置の構成を示す。 図4Aは、サーバー装置において管理されるユーザー管理テーブルの一例を示す。 図4Bは、サーバー装置において管理される課金テーブルの一例を示す。 図5は、AI制御装置による機械学習のための動作を示すフローチャートである。 図6は、サーバー装置による機械学習動作を示すフローチャートである。 図7は、ユーザーがラベルを入力するための表示インターフェースの一例を示す。 図8Aは、関連情報を示す表示インターフェースの一例を示す。 図8Bは、ラベル名の関連度を算出するための基準情報の例を示す。 図9は、課金情報を示す表示インターフェースの一例を示す。 図10は、AI制御装置による異常検知の動作を示すフローチャートである。 図11Aは、その他実施形態に係るAI制御装置が参照するマイクの位置情報の例を示す。 図11Bは、その他実施形態に係るAI制御装置が参照するスピーカーの位置情報の例を示す。 図11Cは、その他実施形態に係るAI制御装置が参照する監視カメラの位置情報の例を示す。
 1.実施形態1
 図1に示すAI制御装置10及びサーバー装置30を含むシステム1は、任意のイベント(異常音等)に反応するセンサーを、ユーザー毎に適するように生成することを可能にする。ユーザーが使用するAI制御装置10を介して、ユーザーが反応させたいイベント、例えば、悲鳴やドアの開閉等の異常音を表すキーワードをラベルとする入力データを収集し、サーバー装置30に送信する。サーバー装置30は、機械学習サーバーであり、ユーザー毎に受信する入力データに基づいて、ユーザー毎に学習済モデルを生成し、管理する。AI制御装置10は、この学習済モデルに基づいて、イベントが発生したときの未知音を含む音に反応するセンサーとして機能する。この結果、各ユーザーが自身に適したセンサーを生成することが可能となる。
 図1に示すように、AI制御装置10は各ユーザーUserA、UserB・・・が使用する装置である。AI制御装置10は、オフィス、工場、商業施設、公共施設等の施設内に設置された放送装置20、監視カメラ40を含む設備機器に接続される。なお、一つのAI制御装置10が、複数の設備機器に接続されてもよいし、設備機器毎にAI制御装置10が接続されてもよい。また、AI制御装置10は設備機器の中の制御装置として搭載されていてもよい。
 各設備機器は、後述するようにAI制御装置10から信号を受信する接点入力端子と、接点入力端子から受信した信号に応じて設備機器を作動させるリレー回路とを備える。
 放送装置20は、少なくとも、接点入力端子と、放送音声を保持する保持部と、スピーカーとを含む。放送装置20は、接点入力端子から受信した信号に応じて、保持部に保持された放送音声をスピーカーから出力し拡声を行う。
 監視カメラ40は、少なくとも、接点入力端子と録画部とを含む。監視カメラ40は、接点入力端子から受信した信号に応じて、撮像した映像を録画する。
 以下、本実施形態に係るAI制御装置10及びサーバー装置30を含むシステム1の構成及びその動作について説明する。
 なお、以下の説明においては、入力データはユーザーが悲鳴をキーワードとしてラベル付けする音声データであり、異常検知としての悲鳴を検知するセンサーを生成する場合を例に挙げる。
 1-1.構成
 1-1-1.AI制御装置10
 図2に示すように、AI制御装置10(AI制御装置の一例)は、制御部11、RAM12、ROM14、記憶部13、表示部15、操作部16、通信部17、マイク18、及び接点出力部19を備える。
 制御部11(第1制御部の一例)は、例えばAIチップにより構成され、高速処理が可能なCPUやGPU、FPGA等のプロセッサを含む。制御部11は、ROM14や記憶部13に記憶されるコンピュータープログラムをRAM12に読み出して実行することにより、AI制御装置10の各機能を実行する。制御部11は、とりわけ、サーバー装置30により生成される学習済モデルによるプログラムを実行して、入力データ取得部111、ラベリング部112、異常検知部113、及び設備機器作動指令部114の機能を実行する。
 マイク18(入力部の一例)は、AI制御装置10に内蔵された内蔵マイク、又はXLRコネクター等の外部入力端子を介してAI制御装置10に接続された少なくとも1つの外部マイクである(図示省略)。マイク18は、後述するサーバー23による機械学習に用いる入力データ(音声データ)のための音声取得や、後述する異常検知動作のための音声取得に用いられる。マイク18は、個々に異なる外部入力端子を介して接続された複数の外部マイクであってもよい。AI制御装置10が複数の設備機器に接続される場合、複数の設備機器に対応付けて複数の外部マイク18を備えるようにしてもよい。例えば、複数の設備機器がそれぞれ異なるエリアに設置される場合、設備機器と共にこれらのエリアにそれぞれ異なる外部マイク18が配置されるように、各外部マイク18が外部入力端子を介してAI制御装置10に接続されるとよい。
 入力データ取得部111は、ユーザーにより入力される音声データを取得する。音声データは、ユーザーが「悲鳴」と判断する複数のサンプル音を含む。音声データは、例えば、マイク18を介して入力される。例えば、マイク18を介して繰り返しサンプル音を入力し、後述するラベリング部112により、同一のラベルを付与することにより、ラベル付き音声データを取得する。なお、音声データは、予め取得され記憶部13に記憶された音声ファイルから取得してもよい。また、マイク18を介して収集されたサンプル音は、記憶部13に一旦記憶され、ユーザーは記憶されたサンプル音に対して一括して同一のラベルを付与してもよい。
 ラベリング部112は、入力データ取得部111により取得された音声データに対して、ラベルを付与する。ラベルの付与は後述する表示インターフェースを用いたユーザーによる入力に応じて実行される。ラベルが付与された音声データ(以下、ラベル付き音声データ、又はラベル付き入力データと呼ぶ)は、通信部17を介して、サーバー装置30に送信される。
 異常検知部113は、マイク18から収音された音声を取得し、サーバー装置30により生成された学習済モデルに基づき異常を判定する。
 設備機器作動指令部114は、異常が判定された場合、AI制御装置10が接続される設備機器(放送装置20、監視カメラ40等)を作動させるための信号を生成する。生成された信号は、接点出力部19を介して設備機器に送信される。設備機器においては、信号を受信することにより設備機器のリレー回路の接点がONとなり、設備機器が作動する。例えば、マイク18からの取得した音が「悲鳴」と判定された場合、設備機器をONにするとともに、放送装置20であれば放送音声(警告音声)を出力し、監視カメラ40であれば映像の録画を開始する。
 AI制御装置10がエリアの異なる複数の設備機器に接続されている場合、設備機器作動指令部114は、異常と判定された音声を取得したマイク18に近い設備機器(マイク18に対応して同じエリアに設置された設備機器)に接続された出力端子から信号を送信し、設備機器を作動させる。
 記憶部13は、半導体メモリやHDD等により構成される。記憶部13は、AI制御装置10の識別情報を記憶する識別情報記憶部131を有する。記憶部13はまた、後述するように、機械学習により生成され更新されるプログラム及びパラメータを含む学習済モデルを記憶する学習済モデル記憶部132(記憶部の一例)有する。なお、学習済モデルはサーバー装置30において記憶され、AI制御装置10には一時的に記憶されるだけでもよい。この場合、学習済モデル記憶部132は制御部11の一部に含まれていてもよい。また、記憶部13の一部又は全ては、別の記憶装置として備えられていてもよい。
 表示部15は、例えば、液晶ディスプレイ又は有機ELディスプレイにより構成される。表示部15はタッチパネルを含んでいてもよい。表示部15は、AI制御装置10に接続可能な別体のディスプレイであってもよい。
 操作部16は、例えば、キーボード、マウス、タッチパネル等を備え、表示部15にされた画面にしたがってユーザーにより入力操作される。
 通信部17(第1通信部の一例)は、ネットワークに接続するためのインターフェースであり、例えば無線通信用のアンテナや有線で接続可能なネットワークカードである。通信部17は、LANやWAN等の内部ネットワーク及びインターネットを介してサーバー装置30に接続される。
 接点出力部19(外部インターフェースの一例)は、放送装置20、監視カメラ40等の設備機器に接続される出力端子を有し、設備機器作動指令部114が生成した信号を送信する。接点出力部19は複数の出力端子を有し、AI制御装置10は、出力端子毎に、エリアの異なる複数の放送装置20、複数の監視カメラ40のそれぞれに接続されていてもよい。
 1-1-2.サーバー装置30
 サーバー装置30は、インターネットを介して複数のユーザーが使用するAI制御装置10に接続される。サーバー装置30は、設備機器を管理する事業者や機械学習を使用したサービスを提供する事業者によって管理される。
 図3に示すように、サーバー装置30(サーバー装置の一例)は、制御部31、RAM32、ROM34、記憶部33、及び通信部37を備える。
 制御部31(第2制御部の一例)は、例えばAIチップにより構成され、高速処理が可能なCPUやGPU等のプロセッサを含む。制御部31は、ROM34や記憶部33に記憶されるコンピュータープログラムをRAM32に読み出して実行することにより、サーバー装置30の各機能を実行する。制御部31は、とりわけ、入力データ管理部311及び学習部312の機能を実行する。
 入力データ管理部311は、各ユーザーのAI制御装置10から取得する入力データである音声データを記憶部33に記憶する。このとき、入力データ管理部311は、各ユーザーのAI制御装置10から送信されるユーザー識別情報、ラベル付き音声データ、及び使用可否情報に応じて、後述するユーザー管理テーブルを生成したり更新したりする。入力データ管理部311は更に、AI制御装置10からの要求に応じて、後述するユーザー管理テーブルを参照して、課金情報をAI制御装置10に送信する。
 入力データ管理部311は、各ユーザーのAI制御装置10から取得するラベル付き音声データに基づき、ラベル名間の類似性を判定するための基準情報を生成し、更新する。基準情報は、ラベル名の概念を所定の基準に従って関連付けた情報である。所定の基準は、例えば、一方のラベル名の概念(下位概念)が他方のラベル名の概念(上位概念)を承継する関係であるか否かや、ラベル名の概念同士が同義語や類義語であるか等の基準である。入力データ管理部311は、例えば、図8Bに示すような階層構造により表現される基準情報を生成し、記憶部33に記憶する。入力データ管理部311は、ユーザーのAI制御装置10からラベル付き音声データを取得したとき、例えば新たなラベル名が付されている場合は、当該基準情報を更新する。
 入力データ管理部311は、ユーザーのAI制御装置10からの要求に応じて関連度情報を生成する。関連度情報は、対象となるラベル付き音声データに対して、関連度の高いラベル付き音声データとその関連度とを含む。入力データ管理部311は、上述した基準情報を参照し、関連度を算出する。例えば、図8A及び図8Bに示すように、「女性の悲鳴」というラベル名を付した音声データに対して、同義語の「女性の悲鳴」(或いは女性の叫び声等)というラベル名を付した音声データの関連度は100%と算出される。また、例えば「女性の悲鳴」というラベル名を付した音声データに対して、「悲鳴」というラベル名を付した音声データの関連度は80%と算出される。一方、例えば「ドア開閉」というラベル名を付した音声データに対して、「悲鳴」というラベル名を付した音声データの関連度は0%と算出される。入力データ管理部311は、このように算出された関連度が比較的高い(例えば、60%以上)音声データを入力データ記憶部334より読み出し、関連度を含め、要求のあったAI制御装置10に送信するための関連度情報を生成する。
 学習部312は、AI制御装置10からの要求に応じて、取得した音声データに基づいて機械学習を行い、当該ユーザー毎の学習済モデルを構築する。具体的には、取得した音声データの特徴を自律的に学習し、未知音の入力に対して同特徴を有する音声を検知する学習済みモデルを構築する。
 機械学習は、例えば、教師あり学習の分類を実行する回帰アルゴリズムを用いて行われたり、ディープラーニングのニューラルネットワークを用いて行われる。機械学習は、いわゆる教師あり学習を実行する。ラベル付き音声データは正解データとして機械学習に使用される。なお、機械学習には、予め準備された非正解データ(例えば、「悲鳴」のラベル付け音声データに関し、「悲鳴」でない音声データ)が使用されてもよい。
 サーバー装置30は、既存のAIプラットフォーム、機械学習エンジン、その他機械学習サービスを使用して、既存の学習済モデルに対しラベル付き音声データを用いて訓練を行い、機械学習を実行してもよい。
 記憶部33(第2記憶部又は記憶部の一例)は、半導体メモリやHDD等により構成される。記憶部33は、ユーザー管理テーブル記憶部331、課金テーブル記憶部332、ユーザー毎に記憶された学習済モデル記憶部333、及びラベル別に音声データが記憶された入力データ記憶部334を含む。なお、記憶部33の一部又は全ては、データベースを含む別の記憶装置として備えられていてもよい。
 ユーザー管理テーブル記憶部331は、図4Aに示すようなユーザー管理テーブル331aを記憶する。ユーザー管理テーブル331aは、ユーザーの識別情報と、ラベルと、当該ラベルに対応する音声データの識別情報と、使用可否情報とを対応づけて記憶する。使用可否情報は、当該音声データを他のユーザーが使用することを許可するか否かを示す。なお、使用可否情報は、特定のユーザーのみ許可又は不許可としてもよい。例えば、競合会社を特定して不許可を設定できるようにしてもよい。
 課金テーブル記憶部332は、図4Bに示すような課金テーブル332aを記憶する。課金テーブル332aは、AI制御装置10がサーバー装置30により学習済モデルを生成する際の利用料金を計算し、AI制御装置10のユーザーに対して課金するためのテーブルである。例えば、課金テーブル332aは、学習済モデルを生成するための単価を示す情報である。例えば、課金テーブル332aは、ラベルを1つ付してラベル付き音声データを使用した機械学習の基本利用料金(図4Bの例では100円)と、機器学習の際に他のユーザーのラベル付き音声データを使用する場合の追加料金(図4Bの例では50円)と、ラベル付き音声データの使用可否情報が「許可」(肯定的な使用可否情報)であるときの追加費用(図4Bの例では-50円、すなわち50円の割引)とを含む。
 学習済モデル記憶部333は、学習部312により生成された学習済モデルをユーザー毎に記憶する。
 入力データ記憶部334は、ラベル別に音声データを記憶する。各ユーザーから取得されたラベル付き音声データは、入力データ管理部311により、ラベル別に分類され、入力データ記憶部334に記憶される。なお、音声データのラベル別の分類は、上述した基準情報に応じて行われてもよい。例えば、ラベル名「悲鳴」の場合、図8Bに示すように、上位概念である「悲鳴」の音声データには、下位概念である「女性の悲鳴」、「屋外の悲鳴」、「屋内の悲鳴」のラベル名が付与された音声データも含まれるように分類される。
 通信部37(第2通信部の一例)は、ネットワークに接続するためのインターフェースであり、例えば無線通信用のアンテナや有線で接続可能なネットワークカードである。通信部37は、LANやWAN等の内部ネットワーク及びインターネットを介して複数のユーザーのAI制御装置10に接続される。
 1-2.動作
 図5から図10を参照しながら、AI制御装置10(図2)及びサーバー装置30の動作について説明する。
 1-2-1.AI制御装置10による機械学習のための動作
 図5は、図2に示すAI制御装置10による機械学習を実行するための動作を示す。AI制御装置10は、入力データである音声データに対するラベルの入力を受け付ける(S101)。このとき、表示部15は、図7に示すような表示インターフェース15aを表示する。表示インターフェース15a(ラベル入力インターフェースの一例)は、ラベルを入力するためのインターフェースと、データの使用可否情報を入力するためインターフェースとを含む。使用可否情報は、当該音声データを他のユーザーが使用することの許可/不許可を示す。AI制御装置10のユーザーは、操作部16を介して、対象の音声データに対するラベルを入力する。例えば、キーワード「女性の悲鳴」というラベルを入力する。なお、ラベルの入力はユーザーにより直接入力されてもよいし、予め設定されたラベルのリストを表示させることによりユーザーが選択できるようにしてもよい。
 入力データ取得部111により音声データが取得され(S102)、ラベリング部112により、ステップS101で受け付けられたラベルが音声データに付与される(S103)。
 制御部11は、ユーザーの識別情報に対応づけたラベル付き音声データを、データの使用可否情報とともに、通信部17を介してサーバー装置30に送信する(S104)。
 サーバー装置30から、上述した関連度情報を受信し、表示部15に表示する(S105)。例えば、表示部15は、図8Aに示すような表示インターフェース15bを表示する。表示インターフェース15bは、当該音声データに対する、他のユーザーの各音声データの関連度(%)や、各音声データのラベル名やサンプル数を表示する。この表示インターフェース15bを介して他のユーザーの音声データを選択入力することにより、当該ユーザーは、他のユーザーの音声データを使用する旨の要求をサーバー装置30に送信する。
 なお、関連度情報として表示される他のユーザーの音声データは、当該他のユーザーが使用可否情報において許可しているデータに限られる。
 他のユーザーの音声データを使用するとの入力を受け付けると(S106のYes)、制御部11は、選択された他のユーザーのデータの使用要求を、通信部17を介してサーバー装置30に送信する(S107)。
 サーバー装置30から課金情報を受信し、表示部15に表示する(S108)。
 他のユーザーにより収集された音声データを使用する場合(S106のYes)、表示部15は、図9に示すような表示インターフェース15cを表示する。表示インターフェース15cは、サーバー装置30による今回の機械学習を利用するための料金(機械学習利用料金)に加え、要求した他のユーザーの音声データの使用料金を表示する。
 他のユーザーの音声データを全く使用しない場合(S106のNo)、つまり図8Aの表示インターフェース15bにおいて、「全て使用せず、機械学習を開始する」が選択された場合、表示部15は、機械学習利用料金のみを、課金情報として表示部15に表示する。
 当該ユーザーは、表示インターフェース15cを介して、提示された課金情報に承諾するか否かを入力する。承諾することが入力されると、制御部11は、サーバー装置30に対し機械学習の開始を要求する(S109)。
 ステップS106において、他のユーザーの音声データを全く使用しない場合(S106のNo)においては、表示部15は、課金情報を表示しないようにしてもよい。
 ステップS101~S103の順序は、上記に限定されない。音声データを取得してから、ラベル入力を受け付け、ラベリングを実行してもよい。
 1-2-2.サーバー装置30による機械学習の動作
 図6は、サーバー装置30の動作を示す。制御部31の入力データ管理部311は、AI制御装置10から受信した音声データ及びデータの使用可否情報を取得する(S111)。入力データ管理部311は、受信したユーザーの識別情報を判定し(S112)、受信したラベル付けされた音声データをラベル毎に入力データ記憶部334に分類し記憶すると共に、図4Aに示すユーザー管理テーブル331aを更新する(S113)。
 入力データ管理部311は、上述した関連度情報を生成し、当該ユーザーの識別情報に対応するAI制御装置10に送信する(S114)。このとき、入力データ管理部311は、他のユーザーの音声データの使用可否情報も参照して、使用不可の他のユーザーの音声データの関連度情報は生成せず、除外する。
 関連度情報の生成は次のように実行される。入力データ管理部311は、ユーザーからラベル付き音声データのラベル(以下、対象ラベルと呼ぶ)と、入力データ記憶部334において分類され記憶されている複数の音声データのラベル(他のラベル)とを比較する。入力データ管理部311は、対象ラベルに対し、図8Bに示すような基準に基づき対象ラベルに対する他のラベルの関連度(%)を算出する。入力データ管理部311は、他のラベルのうち関連度が所定値以上(例えば、60%以上)のラベルが付与された音声データを特定する。入力データ管理部311は、ラベルの関連度が所定値以上の音声データを、入力データ記憶部334より抽出して、当該音声データと算出した関連度とを含む関連度情報を生成し、AI制御装置10に送信する。
 関連度情報を参照したAI制御装置10より他のユーザーの音声データの使用要求を受信した場合(S115のYes)、当該他のユーザーの音声データを入力データ記憶部334より取得する(S116)。
 入力データ管理部311は、課金情報を生成し、AI制御装置10に送信する(S117)。ステップS117では、入力データ管理部311は、ステップS111で取得した使用可否情報が「使用可」であるか「使用不可」に応じて、及びステップS115での使用要求の有無に応じて、課金テーブル332aを参照して課金金額が算出し、当該金額を示す課金情報を生成する。図4Bに示す課金テーブル322aを参照すると、1つのラベル(本実施形態の例では「悲鳴」)が付された音声データに基づく学習済モデルを生成する基本料金ある100円をベースとして、ステップS111で取得した使用可否情報が「使用可」である場合には50円が割り引かれ、ステップS115で使用要求を受信した(S115のYes)場合には50円が追加されて、課金金額が算出される。
 学習部312により機械学習を実行する(S118)。他のユーザーの音声データを使用しない場合(S115のNo)、当該ユーザーから取得した音声データのみに基づき機械学習を実行する。これにより、当該ユーザーから取得した音声データの特徴を学習して、同特徴を有する未知音を検知する学習済モデルが構築される。他のユーザーの音声データを使用する場合(S115のYes)、当該ユーザーから取得した音声データに加えて指定された他のユーザーの音声データに基づき、機械学習を実行する。これにより、当該ユーザーから取得した音声データ及び指定された他のユーザーの音声データの特徴を学習して、同特徴を有する未知音を検知する学習済モデルが構築される。
 機械学習を終了すると(S119のYes)、生成された学習済モデルを、当該ユーザーの識別情報に対応させて学習済モデル記憶部333に記憶する(S120)。
 生成された学習済モデルは、対応するユーザーのAI制御装置10に送信され、記憶部13の学習済モデル記憶部132に記憶される。サーバー装置30からAI制御装置10への学習済モデルの送信は、機械学習の終了に応答して自動的に行われてもよいし、AI制御装置10からの要求に応じて行われてもよい。
 1-2-3.AI制御装置10による異常検知動作
 AI制御装置10は、サーバー23により生成された学習済モデルを用いて異常検知を行う。図10は、AI制御装置10による異常検知の動作を示す。AI制御装置10は、マイク18からの音声を受信する(S121)。
 AI制御装置10の制御部11の異常検知部113は、学習済モデル記憶部132に記憶された学習済モデルを読み出して実行し、受信した音声が、上述した学習済モデルに基づき異常か否かの判定を行う(S122)。すなわち、学習済モデルにより、学習された特徴を有する音声が検知されることで、異常が発生したこと(異常あり)を判定する。これは、もともとユーザーが図5のステップS101~S103にて付したラベル(本実施形態では「悲鳴」)に対応する音声を検知して異常を判定することを意味する。本実施形態では、悲鳴に対応する音声が検知された場合、異常有りと判定する(S123のYes)。設備機器作動指令部114は、異常有りとの判定に応じて、接点出力部19を介して信号を送信する(S124)。上述したように、複数のマイク18が接続されている場合、設備機器作動指令部114は、異常と判定した音声を受信したマイク18に対応する放送装置20や監視カメラ40に、接点出力部19を介して信号を送信する(S124)。
 設備機器作動指令部114により、指定された設備機器を作動させる(S125)。例えば、当該設備機器をONにするとともに、放送装置20であれば警告音声を出力し、監視カメラ40であれば映像の録画を開始する。
 AI制御装置10は、機械学習のための動作(図5のステップS101~S109)を実行するモード(機械学習モード)と、異常検知動作(図10のステップS121~S125)を実行するモード(異常検知モード)とを有し、これらのモードを切り替えてそれぞれの動作を実行するようにしてもよい。マイク18は、機械学習モード時には、ラベル付き音声データを取得するために機能し、異常検知モード時には、異常判定のために未知音を取得するために機能する。AI制御装置10は、学習済モデル記憶部132に学習済モデルが記憶されていないときは機械学習モードで動作し、学習済モデル記憶部132に学習済モデルが記憶されたことに応じて自動的に異常検知モードに切り替わるように構成されてもよい。
 1-3.特徴等
 上記実施形態1に係るAI制御装置10は、入力データ(例えば、音声データ)を取得し、入力データを、AI制御装置10のユーザーを識別可能な識別情報と対応付けてサーバー装置30に送信する。AI制御装置10は、サーバー装置30により、他のユーザーの学習済モデルとは別に生成された学習済モデルであって、入力データの特徴を学習して未知の入力データからその特徴を有する入力データを検知する学習済モデルを実行することにより、所定のイベント(例えば、悲鳴)の発生を検知する。このため、学習済モデルの生成においてユーザーの負担を軽減でき、且つ学習済モデルを使用して任意のイベント検知手段を実現できる。
 上記実施形態1に係るAI制御装置10は、ラベルの入力を受け付けるための表示インターフェース15aを表示部15に表示させ、ラベルの入力に応じて入力データに対しラベルを付ける。このため、ユーザーは簡単に入力データに対してラベリングを実行することができる。
 上記実施形態1に係るAI制御装置10は、サーバー装置30により算出された、ラベル付き入力データと他のユーザーのラベル付き入力データとの関連度を示す関連度情報を表示部15に表示させる。このため、ユーザーは、他のユーザーの入力データであって且つ関連度の高い入力データを選択的に使用することが可能となり、ユーザーが自ら大量のサンプル音を収集してラベル付き音声データを作成する必要性がなくなる。よって、学習済モデルの生成においてユーザーの負担を更に軽減できると共に、学習済モデルの精度を向上させることができる。
 上記実施形態1に係るサーバー装置30は、複数のユーザーのAI制御装置10から、各ユーザーの識別情報と対応付けた入力データを受信し、受信した入力データを記憶部33に記憶し、同入力データを使用して、ユーザー毎に、入力データの特徴を学習して、未知の入力データから同特徴を有する入力データを検知する学習済モデルを生成し、生成された学習済モデルを、ラベル別に記憶部33にさせる。このため、複数のユーザー間で入力データをシェアすることが可能となり、学習済モデルの生成においてユーザーの負担を更に軽減できると共に、学習済モデルの精度を向上させることができる。
 上記実施形態1に係るサーバー装置30は、各ユーザーの入力データの使用可否情報を記憶部33に記憶し、管理する。このため、ユーザーの入力データを他のユーザーが使用することは制限されるため、入力データは保護される。
 上記実施形態1に係るAI制御装置10及びサーバー装置30は、サーバー装置30により管理される上記使用可否情報と課金情報とに基づき、ユーザーが機械学習を使用する場合の料金がユーザーに提示される。課金は、ユーザーが自身の入力データの使用を許可しているか否かに応じて、或いは、他のユーザーの入力データの使用量に応じて、異なる。よって、ユーザーは、自身の入力データの使用を許可することや、他のユーザーの入力データを使用することに対しインセンティブが与えられ、各ユーザーの機械学習における入力データの使用を促進することができる。
 上記実施形態1に係るAI制御装置10は、学習済モデルを用いた異常検知に基づいて、接続された放送装置20や監視カメラ40を作動させる。このため、AI制御装置10は汎用的な構成をとることができ、ユーザーとって利便性の高い装置を実現できる。
 1-4.変形例
 上記例においては、AI制御装置10からの入力データの送信時に機械学習を実行していたが、機械学習を実行するか否かは、ユーザーからの入力を待ってから行うようにしてもよい。例えば、ユーザーが複数回にわたって入力データを入力し、ある程度のデータ量が得られたときに機械学習を実行するようにしてもよい。
 上記例においては、AI制御装置10が異常を判定した場合、設備機器を作動させていたが、これに限定されない。例えば、AI制御装置10は、施設の管理者や警備室に通報を行うようにしてもよい。
 AI制御装置10は、自身の入力データがなくとも、他のユーザーのデータの使用のみができるようにしてもよい。例えば、図7に示す表示インターフェース15aに対してラベルの入力操作後(図5のS101)、AI制御装置10はサーバー装置30に対し、他のユーザーのデータの使用要求を送信する(同S107)。表示部15には、当該ユーザーが入力したラベルと、他のユーザーのラベル付き入力データとの関連度情報及び課金情報を表示(同S105及びS108)する。ユーザーが関連度情報に基づき他のユーザーのラベル付き入力データを選択し、課金を承諾すると、サーバー装置30に機械学習要求を送信する(同S109)。サーバー装置30は、当該ユーザーについて、指定された他のユーザーの入力データに基づき機械学習を実行する。
 上記例において、データの使用可否情報は、ラベル付き入力データと共にサーバー装置30に送信していたが、別途送信できるようにしてもよい。また、ユーザーは、入力操作を介して、いつでもデータの使用可否情報を変更できるようにしてもよい。
 2.その他実施形態
 以上のように、本出願において開示する技術の例示として、各実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略等を行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。
 (1)実施形態1においては、AI制御装置10は、接点出力部19を介しての接点出力により設備機器を作動させたが、これに限定されない。AI制御装置10は、通信部17を介して、設備機器を作動させるようにしてもよい。
 この場合、各設備機器は、IPアドレスを有するネットワーク接続部を有する。図1に示すAI制御装置10の制御部11の設備機器作動指令部114は、異常が判定された場合、設備機器を作動させるための信号を生成し、通信部17を介して設備機器のIPアドレス宛てに送信し、実施形態1と同様に設備機器を作動させる。更に、上述したように、異なるエリアにわたって複数の設備機器(放送装置20、監視カメラ40)と、これらに対応する複数のマイク18を設置する場合、マイク18もIP化して通信部17を介して接続されるようにしてもよい。このような構成の場合、各マイク18の位置情報と設備機器の位置情報とを登録しておき、異常と判定された音声を取得したマイク18の近傍の設備機器を作動させるように構成してもよい。AI制御装置10(記憶部13)又はAI制御装置10に接続される管理コンピューター(図示省略)は、各マイク18の識別情報(IPアドレス)と施設内における各マイク18が設置された位置情報とを対応付けたマイク情報(図11A)と、各設備機器の識別情報(IPアドレス)と、施設内における設備機器が設置された位置情報とを対応づけた設備機器情報(図11B、図11C)を保持する。異常が検知された場合、設備機器作動指令部114は、図11Aに示す情報を参照して、異常と判定された音声を取得したマイク18の位置情報を特定する。設備機器作動指令部114は更に、図11Bに示すスピーカーの位置情報や図11Cに示す監視カメラの位置情報から、当該マイク18に近い設備機器を特定し、当該設備機器に信号を送信して実施形態1と同様に作動させる。例えば、施設内に複数設置される放送装置20がある場合、AI制御装置10は、図11Bに示す位置情報を参照し、「悲鳴」と判定された音を検知したマイク18に近傍にある一つ又は複数の放送装置20のIPアドレスを指定して、信号を送信し、当該放送装置20をONにし、警告音声を出力させる。
 (2)実施形態1において、入力データは音声データを例にしていたがこれに限定されない。例えば、入力データは画像データであってもよい。この場合、AI制御装置10は、マイク18の代わりに画像を取得するカメラを備えるとよい。また、監視カメラ40から取得される画像データを用いてもよい。画像データにおいて、ユーザーが所望するラベル、例えば、「不審な動作」、「人同士が争っている動作」、「人が倒れた状態」等のキーワードをラベルとする画像データを入力データとして、機械学習を実行し、画像データの特徴を学習して未知の画像(映像)から当該特徴を有する画像を検知する学習済モデルを生成する。また、画像データから異常を検知した場合は、実施形態1と同様に、設備機器のONやその他の作動(例えば、放送装置20のONや警告音声の出力、或いは監視カメラ40による画像の録画開始等)を開始する。
 (3)実施形態1及び上記例において、サーバー装置30の入力データ管理部311は、ユーザーの入力データのラベル名間の類似度に応じて関連度を算出していたが、これに限定されない。ラベル名間の類似度に加えて或いは代えて、入力データそのものの類似度を算出してもよい。例えば、入力データが音声データである場合、周波数の高さや振幅の大きさ等の音声データの特徴パラメータの数値の近さに応じて算出するようにしてもよい。入力データが画像データの場合、画像中の動作パターンや姿勢パターンの類似度を関連度として算出するようにしてもよい。
 更に、関連度は、ユーザー間の業態の類似度や、AI制御装置10を使用する施設の種類の類似度等を加味して、算出してもよい。
 (4)実施形態1及び上記例において、サーバー装置30は、記憶部33にユーザー以外から取得したデータセット(例えば、AIプラットフォームや機械学習サービスを提供する会社から提供されるデータセット)を予め記憶しておき、要求のあったユーザーに当該データセットの使用を許可してもよい。
 (5)実施形態1及び上記例において、AI制御装置10は、ユーザーがラベルを入力することにより入力データにラベルを付与しているが、これに限定されない。サーバー装置30は、AI制御装置10からラベル付けされていない入力データを取得し、自動的に入力データを解析し、ラベルを付与するようにしてもよい。
 (6)実施形態1及び上記例において、AI制御装置10は、機械学習のための機能と異常検知機能との双方を備えているが、これに限定されない。ユーザーは、AI制御装置10ではなく、他のコンピュータ端末により入力データにラベル付けしてサーバー装置30に送信し、機械学習を実行するようにしてもよい。AI制御装置10は、学習済モデルをサーバー装置30より取得し、異常検知動作を行うようにしてもよい。
 (7)本明細書において異常検知とは、危険を伴うような事象の検知に限定されず、ユーザーが検知を所望するあらゆる状態や動作、すなわち所定のイベントの検知を含み得る。
 (8)AI制御装置10及びサーバー装置30の制御部11、31は、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。また、制御部11,31は、DSP、FPGA、ASIC等の種々のプロセッサで実現してもよい。プロセッサは、1つ又は複数のプロセッサで構成してもよい。
 (9)図5、図6、及び図10に示すフローチャートの処理の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えたり、並行して実行されたりすることができる。更に、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 (10)AI制御装置10及び/又はサーバー装置30により実行される機械学習方法及び異常検知方法、同方法を実行するコンピュータープログラム、及び同コンピュータープログラムを記録したコンピュータ読み取り可能な記録媒体は、本開示の範囲に含まれる。コンピュータープログラムは電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して取得されてもよい。
 (11)本開示によるAI制御装置10及び/又はサーバー装置30の一部又は全ては、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。本明細書において、装置とは、複数の構成要素(装置、モジュール(部品)等)の集合を意味する場合を含み、すべての構成要素が同一筐体中にあるか否かは問わない。また、全て又は一部の構成要素は、施設以外の場所に設置されていてもよい。
1…システム,10…AI制御装置,11…制御部,12…RAM,13…記憶部,14…ROM,15…表示部,15a~15c…表示インターフェース,16…操作部,17…通信部,18…マイク,20…放送装置,30…サーバー装置,31…制御部,32…RAM,33…記憶部,34…ROM,37…通信部,40…監視カメラ,111…入力データ取得部,112…ラベリング部,113…異常検知部,114…設備機器作動指令部,131…識別情報記憶部,132…学習済モデル記憶部,311…入力データ管理部,312…学習部,331…ユーザー管理テーブル記憶部,331a…ユーザー管理テーブル,332…課金テーブル記憶部,332a…課金テーブル,333…学習済モデル記憶部,334…入力データ記憶部
特許第6527187号明細書

Claims (18)

  1.  複数のユーザーから個々のユーザーを識別して入力データを受信し、ユーザー毎に入力データに基づいて学習済モデルを生成するサーバー装置に接続可能なAI制御装置であって、
     第1制御部と、
     前記サーバー装置に接続される第1通信部と、
    を備え、
     前記第1制御部は、
     入力データを取得し、
     前記AI制御装置のユーザーを識別可能な識別情報と前記取得入力データとを対応付けて、前記サーバー装置に前記第1通信部を介して送信し、
     送信された前記取得入力データを使用して前記サーバー装置により他のユーザーの学習済モデルとは別に生成された学習済モデルであって、前記取得入力データの特徴を学習して未知の入力データから前記特徴を有する入力データを検知する学習済モデルを実行する、
    AI制御装置。
  2.  更に、ユーザーからラベルの入力を受け付けるラベル入力インターフェースを備え、
     前記第1制御部は、前記取得入力データに対し、前記ラベル入力インターフェースを介して入力されたラベルを付して、ラベル付き入力データを生成し、当該ラベル付き入力データを前記サーバー装置に送信し、
     前記学習済モデルは、前記ラベル付き入力データを使用して前記サーバー装置により生成された学習済モデルである、
    請求項1に記載のAI制御装置。
  3.  更に、ユーザーからラベルの入力を受け付けるラベル入力インターフェースを備え、
     前記第1制御部は、前記取得入力データに対し、前記ラベル入力インターフェースを介して入力されたラベルを付して、ラベル付き入力データを生成し、当該ラベル付き入力データを前記サーバー装置に送信し、
     前記学習済モデルは、前記サーバー装置により、受信した前記ラベル付き入力データとともに、当該ラベルとの関連度が所定値以上の類似ラベルが付された入力データであって前記サーバー装置に保持されている他のユーザーから受信した入力データを使用して生成された学習モデルである、
    請求項1に記載のAI制御装置。
  4.  更に、入力データの入力を受け付ける入力部を備え、
     前記第1制御部は、
     前記サーバー装置により前記学習済モデルが生成される前は、前記入力部を介して入力される前記取得入力データを前記サーバー装置に送信し、
     前記サーバー装置により前記学習済モデルが生成された後は、前記入力部を介して入力される前記未知の入力データに対して前記学習済モデルを実行し、前記特徴を有する入力データの検知を行う、
    請求項1に記載のAI制御装置。 
  5.  前記AI制御装置は、選択的に第1モード又は第2モードで動作し、
     更に、入力データの入力を受け付ける入力部を備え、
     前記第1制御部は、前記第1モードでの動作時には、
    前記入力部を介して入力される前記取得入力データを前記サーバー装置に送信し、
     前記第2モードでの動作時には、前記入力部を介して入力される前記未知の入力データに対して前記学習済モデルを実行し、前記特徴を有する入力データの検知を行う、
    請求項1に記載のAI制御装置。
  6.  前記取得入力データは音声データであって、
     前記ラベルは、音声を表すキーワードであり、
     前記学習済モデルは、前記音声データの特徴を学習して未知の音声から前記特徴を有する音声を検知する学習済モデルである、
     請求項2又は3に記載のAI制御装置。
  7.  前記入力データ及び前記未知の入力データは音声データであって、
     前記入力部は前記音声データの入力を受け付けるマイクである、
     請求項4又は5に記載のAI制御装置。
  8.  前記第1制御部は、プロセッサと、学習済モデルを記憶する記憶部とを含み、
     前記取得入力データを前記サーバー装置に送信した後、前記第1通信部を介して前記サーバー装置から前記学習済モデルを受信して前記記憶部に記憶し、前記プロセッサが前記記憶部に記憶された学習済モデルを実行する、
    請求項1に記載のAI制御装置。
  9.  更に、信号の受信に応じて作動する外部の設備機器に信号を送信するための外部インターフェースを備え、
     前記第1制御部は、
     前記学習済モデルを実行して前記特徴を有する入力データを検知した際に、前記外部インターフェースを介して前記信号を送信することにより前記外部の設備機器を作動させる、
    請求項1に記載のAI制御装置。
  10.  複数のユーザーが使用する複数のAI制御装置に接続可能なサーバー装置であって、
     第2制御部と、
     前記複数のAI制御装置に接続される第2通信部と、
     第2記憶部と、
    を備え、
     前記第2制御部は、
     前記複数のユーザーのAI制御装置から、前記第2通信部を介して、各前記ユーザーの識別情報と対応付けた入力データを受信し、
     前記受信入力データを前記第2記憶部に記憶し、
     前記受信入力データを使用して、前記ユーザー毎に、前記受信入力データの特徴を学習して、未知の入力データから前記特徴を有する入力データを検知する学習済モデルを生成し、
     生成された学習済モデルを、前記ユーザー毎に前記第2記憶部にさせる、
    サーバー装置。
  11.  前記受信入力データは、当該受信入力データの送信者であるユーザーにより入力されたラベルが付されたラベル付き入力データであって、
     前記第2制御部は、
     第1のユーザーから前記ラベル付き入力データを受信することに応じて、受信した前記ラベル付き入力データを使用して、前記第1のユーザー用の学習済モデルを生成し、
     前記第1のユーザー用の学習済モデルを前記第2通信部を介して前記第1のユーザーのAI制御装置に送信し、当該第1のユーザーのAI制御装置に前記第1のユーザー用の学習済モデルを実行させる、
    請求項10に記載のサーバー装置。
  12.  前記受信入力データは、当該受信入力データの送信者であるユーザーにより入力されたラベルが付されたラベル付き入力データであって、
     前記第2制御部は、
     前記ラベル付き入力データを、前記ラベルに応じて前記第2記憶部に記憶させ、
     第1のユーザーから前記ラベル付き入力データを受信することに応じて、受信した前記ラベル付き入力データとともに、前記第1のユーザーから受信した前記ラベル付き入力データのラベルとの関連度が所定値以上の類似ラベルが付された入力データであって、前記第2記憶部に記憶されている第1のユーザー以外の他のユーザーから以前に受信したラベル付き入力データを使用して、前記学習済モデルを生成する、
    請求項10に記載のサーバー装置。
  13.  前記受信入力データは、当該受信入力データの送信者であるユーザーにより入力されたラベルが付されたラベル付き入力データであって、
     前記第2制御部は、
     前記ラベル付き入力データを、前記ラベルに応じて前記第2記憶部に記憶させ、
     第1のユーザーから前記ラベル付き入力データを受信することに応じて、前記第1のユーザーから受信した前記ラベル付き入力データのラベルとの関連度が所定値以上の類似ラベルが付された入力データであって、前記第2記憶部に記憶されている第1のユーザー以外の他のユーザーから以前に受信したラベル付き入力データを特定し、当該他のユーザーのラベル付き入力データを示す関連度情報を前記第2の通信部を介して前記第1のユーザーのAI制御装置に提示し、
     前記関連度情報の提示を受けた前記第1のユーザーのAI制御装置から前記第2の通信部を介して受信する要求に応じて、選択的に、
     前記第1のユーザーから受信した前記ラベル付き入力データのみを使用して学習済モデルを生成するか、又は、
     前記第1のユーザーから受信した前記ラベル付き入力データとともに、前記関連度情報が示す前記他のユーザーのラベル付き入力データを使用して学習済モデルを生成する、
    請求項10に記載のサーバー装置。
  14.  前記ラベル付き入力データは、当該ラベル付き入力データの送信者であるユーザーにより入力された使用可否情報であって、他のユーザーによる当該ラベル付き入力データの使用の可否を示す使用可否情報を含み、
     前記第2制御部は、
     前記第2記憶部に記憶されている前記第1のユーザー以外の他のユーザーから以前に受信したラベル付き入力データのうち、肯定的な使用可否情報を含むラベル付き入力データを使用して、前記学習済モデルを生成する、
    請求項12に記載のサーバー装置。
  15.  前記ラベル付き入力データは、当該ラベル付き入力データの送信者であるユーザーにより入力された使用可否情報であって、他のユーザーによる当該ラベル付き入力データの使用の可否を示す使用可否情報を含み、
     前記第2制御部は、
     前記関連度情報が示す前記第1のユーザー以外の他のユーザーのラベル付き入力データのうち、肯定的な使用可否情報を含むラベル付き入力データのみを使用して、前記学習済モデルを生成する、
    請求項13に記載のサーバー装置。
  16.  前記第2記憶部は更に、前記第1のユーザーのラベル付き入力データを使用して学習済モデルを生成するための単価と、前記他のユーザーのラベル付き入力データを使用するのに必要な単価とを含む課金テーブルを保持し、
     前記第2制御部は、
     前記第1のユーザーから受信した前記ラベル付き入力データに応じた前記学習済モデルの生成に伴い、前記課金テーブルを参照して前記第1のユーザーに課金する金額を算出し、前記第2通信部を介して、前記第1のユーザーのAI制御装置10に送信する、
    請求項12又は13に記載のサーバー装置。
  17.  前記第2記憶部は更に、前記第1のユーザーのラベル付き入力データを使用して学習済モデルを生成するための単価と、前記他のユーザーのラベル付き入力データを使用するのに必要な単価と、前記使用可否情報が示す可否に応じて決まる単価と、を含む課金テーブルを保持し、
     前記第2制御部は、
     前記第1のユーザーから受信した前記ラベル付き入力データに応じた前記学習済モデルの生成に伴い、前記課金テーブルを参照して前記第1のユーザーに課金する金額を算出し、前記第2通信部を介して、前記第1のユーザーのAI制御装置10に送信する、
    請求項14又は15に記載のサーバー装置。
  18.  複数のユーザーが使用する複数のAI制御装置に接続可能なサーバー装置を用いたAI制御方法であって、
     前記複数のユーザーのAI制御装置から、各前記ユーザーの識別情報と対応付けた入力データを受信し、
     前記受信入力データを記憶部に記憶し、
     前記受信入力データを使用して、前記ユーザー毎に、前記受信入力データの特徴を学習し、未知の入力データから前記特徴を有する入力データを検知する学習済モデルを生成し、
     生成された学習済モデルを、前記ユーザー毎に前記記憶部にさせる、
    AI制御方法。
     
PCT/JP2020/012393 2020-03-19 2020-03-19 Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法 WO2021186692A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/911,218 US20230095124A1 (en) 2020-03-19 2020-03-19 Ai control device, server device connected to ai control device, and ai control method
CN202080098417.XA CN115280333A (zh) 2020-03-19 2020-03-19 Ai控制装置、与ai控制装置连接的服务器装置以及ai控制方法
EP20925603.1A EP4105845A4 (en) 2020-03-19 2020-03-19 AI CONTROL DEVICE, SERVER DEVICE CONNECTED TO AN AI CONTROL DEVICE, AND AI CONTROL METHOD
JP2022507979A JP7407271B2 (ja) 2020-03-19 2020-03-19 Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法
PCT/JP2020/012393 WO2021186692A1 (ja) 2020-03-19 2020-03-19 Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/012393 WO2021186692A1 (ja) 2020-03-19 2020-03-19 Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法

Publications (1)

Publication Number Publication Date
WO2021186692A1 true WO2021186692A1 (ja) 2021-09-23

Family

ID=77772021

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/012393 WO2021186692A1 (ja) 2020-03-19 2020-03-19 Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法

Country Status (5)

Country Link
US (1) US20230095124A1 (ja)
EP (1) EP4105845A4 (ja)
JP (1) JP7407271B2 (ja)
CN (1) CN115280333A (ja)
WO (1) WO2021186692A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220278983A1 (en) * 2021-03-01 2022-09-01 Jio Platforms Limited System and method for authentication enabling bot
US20220319497A1 (en) * 2021-04-02 2022-10-06 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227187B2 (ja) 1983-10-27 1990-06-14 Hino Motors Ltd
US20150170049A1 (en) * 2010-05-14 2015-06-18 Gideon S. Mann Predictive Analytic Modeling Platform
JP2017142739A (ja) * 2016-02-12 2017-08-17 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2018142766A1 (ja) * 2017-02-03 2018-08-09 パナソニックIpマネジメント株式会社 学習済みモデル提供方法および学習済みモデル提供装置
WO2018167607A1 (ja) * 2017-03-15 2018-09-20 株式会社半導体エネルギー研究所 システム、及びシステムの動作方法
JP2019067026A (ja) * 2017-09-29 2019-04-25 富士フイルム株式会社 判別結果提供装置、判別結果提供装置の作動方法、判別結果提供プログラム、および判別結果提供システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108243216B (zh) * 2016-12-26 2020-02-14 华为技术有限公司 数据处理的方法、端侧设备、云侧设备与端云协同系统
US10978050B2 (en) * 2018-02-20 2021-04-13 Intellivision Technologies Corp. Audio type detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227187B2 (ja) 1983-10-27 1990-06-14 Hino Motors Ltd
US20150170049A1 (en) * 2010-05-14 2015-06-18 Gideon S. Mann Predictive Analytic Modeling Platform
JP2017142739A (ja) * 2016-02-12 2017-08-17 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2018142766A1 (ja) * 2017-02-03 2018-08-09 パナソニックIpマネジメント株式会社 学習済みモデル提供方法および学習済みモデル提供装置
WO2018167607A1 (ja) * 2017-03-15 2018-09-20 株式会社半導体エネルギー研究所 システム、及びシステムの動作方法
JP2019067026A (ja) * 2017-09-29 2019-04-25 富士フイルム株式会社 判別結果提供装置、判別結果提供装置の作動方法、判別結果提供プログラム、および判別結果提供システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4105845A4

Also Published As

Publication number Publication date
EP4105845A4 (en) 2023-03-29
US20230095124A1 (en) 2023-03-30
CN115280333A (zh) 2022-11-01
EP4105845A1 (en) 2022-12-21
JPWO2021186692A1 (ja) 2021-09-23
JP7407271B2 (ja) 2023-12-28

Similar Documents

Publication Publication Date Title
CN110741433B (zh) 使用多个计算设备的对讲式通信
JP6465012B2 (ja) データフロー制御装置およびデータフロー制御方法
JP6773037B2 (ja) 情報処理装置、情報処理方法及びプログラム
US8275096B2 (en) System and method for security monitoring and response delivery
US20160180468A1 (en) Systems, methods, and apparatus for object classification based on localized information
CN111012261A (zh) 基于场景识别的清扫方法、系统、扫地设备及存储介质
US11875569B2 (en) Smart video surveillance system using a neural network engine
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
WO2021186692A1 (ja) Ai制御装置、ai制御装置に接続されるサーバー装置、及びai制御方法
JP2012118838A (ja) 監視対象者の行動を監視する装置及び方法
EP3419020B1 (en) Information processing device, information processing method and program
KR101968725B1 (ko) 음성요청에 대응하는 정보 제공을 위한 미디어 선택
CN108958634A (zh) 快递信息获取方法、装置、移动终端以及存储介质
CN108470131A (zh) 用于生成提示信息的方法和装置
US20190026265A1 (en) Information processing apparatus and information processing method
WO2021162078A1 (ja) データ収集システム、情報処理装置、情報処理方法、プログラム
KR102254718B1 (ko) 모바일 민원 처리 시스템 및 방법
CN112181786A (zh) 一种巡检应用的配置方法、装置及设备
CN114615177B (zh) 一种云平台的负载检测方法、装置、电子设备和存储介质
JP2006276992A (ja) 設備環境データ分析システムおよび設備環境データ分析方法
KR102366773B1 (ko) 모바일 단말기를 이용한 전자명함 교환 시스템 및 방법
JP6167833B2 (ja) 情報処理装置及び情報処理プログラム
US20220083596A1 (en) Information processing apparatus and information processing method
CN111061451A (zh) 一种信息处理方法及装置、系统
CN112364219A (zh) 内容发布方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20925603

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022507979

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2020925603

Country of ref document: EP

Effective date: 20220914

NENP Non-entry into the national phase

Ref country code: DE