WO2023248676A1 - 推定方法及び推定装置 - Google Patents

推定方法及び推定装置 Download PDF

Info

Publication number
WO2023248676A1
WO2023248676A1 PCT/JP2023/019081 JP2023019081W WO2023248676A1 WO 2023248676 A1 WO2023248676 A1 WO 2023248676A1 JP 2023019081 W JP2023019081 W JP 2023019081W WO 2023248676 A1 WO2023248676 A1 WO 2023248676A1
Authority
WO
WIPO (PCT)
Prior art keywords
work
sound
estimation
data
worker
Prior art date
Application number
PCT/JP2023/019081
Other languages
English (en)
French (fr)
Inventor
勝統 大毛
武寿 中尾
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2023248676A1 publication Critical patent/WO2023248676A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing

Definitions

  • the present disclosure relates to an estimation method and the like for estimating the work of a worker.
  • Patent Document 1 discloses a technique for classifying tasks by identifying an object (for example, a transparent object, etc.) handled in the task from images captured under a plurality of imaging conditions.
  • the present disclosure provides an estimation method etc. that can accurately estimate the work of handling transparent objects.
  • An estimation method is an estimation method for estimating the work of a worker using a computer, wherein the computer acquires data of collected work sounds accompanying the work, and By inputting the work sound data into the first model, it is estimated whether or not the worker is working with a transparent object.
  • FIG. 1 is a block diagram showing an example of the functional configuration of an estimation system according to an embodiment.
  • FIG. 2 is a flowchart showing an example 1 of operation of the estimation system according to the embodiment.
  • FIG. 3 is a diagram schematically showing an example of the flow in step S02 of FIG.
  • FIG. 4 is a diagram showing a graph of the degree of similarity between the feature amount of the collected work sound and the feature amount of the work sound of work that handles transparent objects.
  • FIG. 5 is a diagram showing the results of time-series analysis of one hour's worth of work sounds in Verification Example 1.
  • FIG. 6 is a diagram for explaining a method for estimating bagging work performed in Verification Example 3.
  • FIG. 7 is a diagram illustrating an example of the architecture of a neural network.
  • FIG. 1 is a block diagram showing an example of the functional configuration of an estimation system according to an embodiment.
  • FIG. 2 is a flowchart showing an example 1 of operation of the estimation system according to the embodiment.
  • FIG. 3
  • FIG. 8 is a diagram showing a method for calculating the correct answer rate when estimating two categories.
  • FIG. 9 is a diagram showing estimation results and correct answer rates for two classifications in Verification Example 3.
  • FIG. 10 is a diagram showing a method for calculating the correct answer rate when estimating three categories.
  • FIG. 11 is a diagram showing the estimation results and correct answer rates for the three classifications in Verification Example 3.
  • FIG. 12 is a diagram showing a method for estimating two categories based on a combination of input data and a method for calculating a correct answer rate.
  • FIG. 13 is a diagram showing estimation results and correct answer rates for two classifications based on combinations of input data in Verification Example 3.
  • FIG. 14 is a diagram showing a comparison result of the estimation accuracy of the estimation method using image AI and the estimation method of Operation Example 1.
  • FIG. 15 is a diagram for explaining the difference between the estimation results using work sound data and the estimation results using image data.
  • FIG. 16 is a diagram for explaining an overview of the flow of operation example 2 of the estimation system according to the embodiment.
  • FIG. 17 is a flowchart showing a second operation example of the estimation system according to the embodiment.
  • FIG. 18 is a flowchart showing a modification 1 of the operation example 2 of the estimation system according to the embodiment.
  • FIG. 19 is a diagram schematically illustrating a configuration example 1 of an estimator that executes the flow of the modification 1 of the operation example 2.
  • FIG. 20 is a diagram for explaining a method of estimating bagging work performed by Configuration Example 1.
  • FIG. 21 is a diagram schematically illustrating a second configuration example of an estimation unit that executes the flow of the first modification of the second operation example.
  • FIG. 22 is a diagram schematically illustrating a third configuration example of an estimation unit that executes the flow of the first modification of the second operation example.
  • FIG. 23 is a diagram illustrating an example of the architecture of an image subnetwork.
  • FIG. 24 is a diagram illustrating an example of the architecture of the sound subnetwork.
  • FIG. 25 is a diagram illustrating an example of the architecture of the fusion layer.
  • FIG. 26 is a diagram illustrating an example of the architecture of a classification network.
  • FIG. 21 is a diagram schematically illustrating a second configuration example of an estimation unit that executes the flow of the first modification of the second operation example.
  • FIG. 22 is a diagram schematically illustrating a third configuration example of an estimation unit that executes the flow of the
  • FIG. 27 is a diagram illustrating an example of the architecture of a contrastive learning network.
  • FIG. 28 is a diagram schematically illustrating a configuration example of an estimating unit that executes the flow of Modification 2 of Operation Example 2.
  • FIG. 29 is a diagram illustrating an example of work sounds when the estimator incorrectly estimates that a worker is working with a transparent object.
  • FIG. 30A is a flowchart of operation example 3 of the estimation system in the embodiment.
  • FIG. 30B is a flowchart illustrating an example of an operation for pre-registering feature amounts of work sounds that may be erroneously estimated.
  • FIG. 31 is a block diagram showing an example of the functional configuration of an estimation system according to another embodiment.
  • the system automatically collects data on the work performed by workers, classifies the work, and measures the time required for each classification. This allows the user to understand which work the worker is spending time on, and thus allows the user to create a work plan so that the worker can work more efficiently.
  • the work is classified by photographing the work performed by the worker with a camera and identifying the objects handled by the worker.
  • a transparent object is identified from a plurality of images captured under different imaging conditions, and a worker is classified as working with a transparent object.
  • objects with high transparency so-called transparent objects
  • Difficult to identify in video Therefore, with the technique described in Patent Document 1, it may not be possible to accurately estimate the task of handling a transparent object.
  • the inventors of the present application have developed a system that collects work sounds accompanying work (in other words, sounds generated during work), so that even if a transparent object is moved or deformed by a worker's work, We found that the work involved in handling transparent objects can be estimated with high accuracy.
  • the estimation method of Example 1 is an estimation method using a computer to estimate the work of a worker, wherein the computer acquires data of collected work sounds accompanying the work. By inputting the work sound data into the trained first model, it is estimated whether or not the worker is working with a transparent object.
  • the device that executes the estimation method uses the first model that inputs work sound data and outputs whether or not the work is handling a transparent object, so it is possible to estimate the work that handles a transparent object with high accuracy. Can be done.
  • an estimation method of Example 2 is the estimation method of Example 1, in which the computer generates data of an image of the worker performing the work corresponding to the data of the work sound.
  • the estimation method may also include estimating whether or not the worker is working with the transparent object based on the estimation result using the second model.
  • the estimation result using the first model is the estimation result estimated from the work sound data by the first model
  • the estimation result using the second model is the estimation result estimated from the image data using the second model. This is the estimation result.
  • the device that executes the estimation method determines whether a worker can detect a transparent object based on the estimation result estimated from the work sound data using the first model and the estimation result estimated from the image data using the second model. Estimate whether or not you are working with. Therefore, the device that executes the estimation method can estimate the task of handling a transparent object with higher accuracy than when estimating using only the data of the task sound.
  • an estimation method of Example 3 is the estimation method of Example 1, in which the computer generates data of an image of the worker performing the work corresponding to the work sound data. and inputting the work sound data and the image data into the first model to estimate whether or not the worker is working with the transparent object. You can.
  • the device that executes the estimation method uses the first model that receives work sound data and image data corresponding to the work sound as input and outputs whether or not the work involves handling a transparent object. It is possible to estimate the task of handling transparent objects with higher accuracy than when estimating using only the data of .
  • the estimation method of Example 4 is the estimation method of any one of Examples 1 to 3, wherein the computer calculates the feature amount of the work sound output from the first model.
  • the device that executes the estimation method determines whether the worker recognizes the transparent object based on the similarity between the feature amount of the work sound output from the first model and the feature amount of the work sound of the work that handles the transparent object. Since it is estimated whether the user is working on handling transparent objects, it is possible to accurately estimate the work on handling transparent objects.
  • the estimation method of Example 5 is the estimation method of any one of Examples 1 to 4, and the computer further includes a feature of the work sound output from the first model. the degree of similarity of the amount to the feature amount of the work sound of the work handling the transparent object stored in the storage unit in advance, and the similarity between the amount and the feature value of the work sound of the work handling the transparent object stored in the storage unit in advance;
  • the estimation method may estimate whether or not the worker is working with the transparent object based on a degree of similarity to a feature amount of the work sound that may be incorrectly estimated.
  • the device that executes the estimation method calculates the degree of similarity between the feature amount of the work sound output from the first model and the feature amount of the work sound of work that handles transparent objects, and By comparing the degree of similarity between the feature amount of the work sound and the feature amount of the work sound that may be erroneously estimated, it is possible to reduce the occurrence of erroneous estimation. Therefore, the device that executes the estimation method can accurately estimate the task of handling a transparent object even if only the data of the task sound is used.
  • an estimation method of Example 6 is the estimation method of Example 5, in which the computer handles the transparent object in the feature amount of the work sound output from the first model. If the degree of similarity to the feature amount of the work sound of the work exceeds the degree of similarity to the feature amount of the work sound that may be erroneously estimated as the worker is working with the transparent object, the worker The estimation method may be such that it is estimated that the user is working on the transparent object.
  • the device that executes the estimation method can reduce the occurrence of erroneous estimations, so it can accurately estimate the task of handling a transparent object even if only the work sound data is used.
  • the estimation method of Example 7 is the estimation method of Example 5 or Example 6, in which the computer collects work sound data of work that handles a non-transparent object different from the transparent object. If the degree of similarity between the feature amount of the work sound of the work that handles the non-transparent object obtained by inputting it into the first model and the feature amount of the work sound of the work that handles the transparent object exceeds a threshold, then The work sound of the work that handles a transparent object is determined to be a work sound that can be mistakenly estimated as the work sound of the work that handles the transparent object, and the feature amount of the work sound of the work that handles the non-transparent object is determined to be the work sound that can be mistakenly estimated as the work sound of the work that handles the transparent object.
  • the estimation method may be such that the feature amount of the work sound is stored in the storage unit as a feature amount of the work sound that can be estimated.
  • the device that executes the estimation method handles the non-transparent object based on the similarity between the feature amount of the work sound of the work that handles the non-transparent object and the feature amount of the work sound of the work that handles the transparent object. It is possible to accurately determine whether the work sound is a work sound that can be mistakenly assumed to be work that involves handling a transparent object. Therefore, the device that executes the estimation method can store in the storage unit feature amounts of work sounds that are relatively likely to be incorrectly estimated. Therefore, the device that executes the estimation method can reduce the occurrence of erroneous estimation by using the feature quantities of the work sound stored in the storage unit that can be erroneously estimated. It is also possible to estimate the work involved in handling transparent objects with high accuracy.
  • the estimation method of Example 8 is the estimation method of any one of Examples 1 to 7, wherein the work sound data includes sound data in an inaudible band. It may be.
  • the device that executes the estimation method estimates whether or not the worker is working with a transparent object using work sound data that includes sounds in the audible band to sounds in the inaudible band.
  • work sound data includes sounds in the inaudible range
  • a device that performs the estimation method can estimate whether or not a worker is working with a transparent object based on more information than when using only sound data in the audible range. . Therefore, the device that executes the estimation method can more accurately estimate the task of handling transparent objects.
  • an estimation device that estimates a worker's work, and includes an acquisition unit that acquires data of a work sound accompanying the collected work; an estimation unit that estimates whether or not the worker is working with a transparent object by inputting data of the work sound into the completed first model.
  • the estimating device uses the first model that inputs work sound data and outputs whether or not the work is handling a transparent object, so it can accurately estimate the work that involves handling a transparent object.
  • Example 10 is a program for causing a computer to execute any of the estimation methods of Examples 1 to 8.
  • CD-ROM compact disc read only memory
  • FIG. 1 is a block diagram showing an example of the functional configuration of an estimation system 200 in an embodiment.
  • the estimation system 200 is a system that estimates the work of a worker. For example, the estimation system 200 acquires the work sounds associated with work collected by the sound collection device 10, and inputs the work sound data into a trained first model 132 (hereinafter also simply referred to as the first model 132). This system estimates whether or not a worker is working with transparent objects by inputting .
  • the estimation system 200 may display the estimation result estimated by the estimation device 100 on the display unit of the information terminal 50 to present it to the user.
  • the user can refer to the estimation results to understand the time required for work with transparent objects and work to handle non-transparent objects. Since it is possible to make a work plan, it is possible to improve the efficiency of work in the work space 80.
  • Work sounds associated with work include sounds generated during work.
  • Work sounds are, for example, sounds generated when a worker moves or deforms an object handled by a worker.
  • the work includes, for example, picking parts, cleaning work, inspection, or packaging.
  • the work space 80 refers to a space where workers work in, for example, a manufacturing factory or a distribution warehouse.
  • the transparent object is a highly transparent object, and is made of a highly transparent material such as synthetic resin or glass.
  • High transparency means, for example, that when the object is in the form of a sheet or is composed of a sheet, the haze of the sheet is less than 0.5%; When it is shaped like a plate or a block, or when it is composed of a flat or block shape, it means that the refractive index of light is 1.30 or more and 1.70 or less.
  • the transparent object is, for example, a container, a bag, a cushioning material, or a component.
  • Examples of synthetic resins include vinyl resins such as polyvinyl chloride resins, polycarbonate resins, polyester resins, polyethylene naphthalate resins, polyethylene resins, polypropylene resins, polyimide resins, polystyrene resins, urethane resins, acrylic resins, and fluorine resins. You can. Note that the material constituting the highly transparent object is not limited to the above example, and may include, for example, a natural polymer such as fine fibrous cellulose.
  • the estimation system 200 acquires data of an image of a worker performing work captured by the imaging device 20, and inputs the acquired image data and work sound data to the first model 132. , it may be estimated whether the worker is working with a transparent object or not, or image data may be input to the trained second model 133 (hereinafter also simply referred to as the second model 133). Based on the obtained estimation result and the estimation result obtained by inputting work sound data into the first model 132, it may be estimated whether the worker is working with a transparent object. The image data corresponds to the work sound data.
  • the estimation system 200 includes, for example, a sound collection device 10, an imaging device 20, an information terminal 50, and an estimation device 100.
  • the sound collecting device 10 and the imaging device 20 are installed in a space where a worker works (work space 80), and are connected to the information terminal 50 and the estimation device 100 via communication.
  • work space 80 a space where a worker works
  • the configuration of the estimation system 200 shown in FIG. 1 is just an example, and is not limited to this example.
  • the sound collection device 10 collects, for example, work sounds accompanying the work of a worker.
  • the sound collection device 10 is installed in a work space 80, for example.
  • the sound collection device 10 is capable of collecting sounds from an audible band to an inaudible band.
  • the audible band is a frequency band that is perceptible to the human ear
  • the inaudible band is a frequency band that is not perceptible to the human ear.
  • the sound in the inaudible band is, for example, the sound in the frequency band of 20 kHz or higher.
  • the sound collection device 10 is a microphone, and may be a (Micro Electro Mechanical Systems) microphone or a laser microphone, for example.
  • the sound collection device 10 is a laser microphone, for example, it can collect sound in a wider band than a normal microphone. Furthermore, since a laser microphone does not have a diaphragm like a normal microphone, it is possible to collect sound even in an environment of electromagnetic waves, high temperature, or high heat.
  • FIG. 1 shows an example in which the estimation system 200 includes one sound collection device 10, it may include two or more sound collection devices 10. Moreover, the sound collection device 10 may be a directional microphone. This makes it difficult for the sound collection device 10 to collect sounds that become noise, such as surrounding noise, so that the sound collection device 10 can collect work sounds with high sensitivity.
  • the sound collection device 10 converts the collected sound (work sound) into an electrical signal and outputs it to the estimation device 100.
  • the sound collection device 10 may attach a time stamp and its own identification number to the collected work sound data, and output the data to the estimation device 100.
  • the imaging device 20 captures, for example, an image of a worker performing work.
  • the image data corresponds to the work sound data collected by the sound collection device 10.
  • the imaging device 20 operates in conjunction with the sound collecting device 10, and for example, by attaching a time stamp to the acquired data (work sound data and image data), it is possible to combine the work sound data and the image data. It may also be associated with data. At this time, for example, the imaging device 20 may attach its own identification number to the image data.
  • the imaging device 20 is installed in a work space 80, for example.
  • the imaging device 20 is, for example, an RGB camera, but may also include distance data.
  • the imaging device 20 outputs data of the captured image to the estimation device 100.
  • the information terminal 50 is an information terminal used by a user, and is, for example, a personal computer or a tablet terminal.
  • the information terminal 50 displays the estimation result estimated by the estimation device 100 on the display unit.
  • the information terminal 50 also receives instructions input by the user and transmits the instructions to the sound collection device 10, the imaging device 20, and the estimation device 100.
  • the estimation device 100 is a device that estimates the work of a worker. For example, the estimation device 100 acquires data on work sounds associated with work collected by the sound collection device 10, and inputs the data on the work sounds to the trained first model 132. Estimate whether the user is working with transparent objects.
  • the estimation device 100 includes a communication section 110, an information processing section 120, a storage section 130, a model generation section 140, and an input reception section 150.
  • Estimation device 100 is, for example, a server device. Note that in the example of FIG. 1, the estimation device 100 includes the second model 133, but does not necessarily need to include the second model 133. Each configuration of the estimation device 100 will be described below.
  • the communication unit 110 is a communication circuit (communication module) for the estimation device 100 to communicate with the sound collection device 10 and the imaging device 20.
  • the communication unit 110 includes a communication circuit (communication module) for communicating via a wide area communication network, but may also include a communication circuit (communication module) for communicating via a local communication network.
  • the communication unit 110 is, for example, a wireless communication circuit that performs wireless communication, but may also be a wired communication circuit that performs wired communication. Note that the communication standard for communication performed by the communication unit 110 is not particularly limited.
  • the information processing unit 120 performs various information processing regarding the estimation device 100. More specifically, for example, the information processing unit 120 acquires work sound data (for example, an electrical signal of the work sound) collected by the sound collection device 10, and analyzes the work performed by the worker when handling a transparent object. performs various information processing related to estimating whether or not the Further, for example, the information processing unit 120 acquires data of an image of a worker performing work captured by the imaging device 20, and relates to estimation of whether or not the worker is working with a transparent object. Various information processing may be performed. The information processing unit 120 may estimate the work using work sound data, or may estimate the work using work sound data and image data. Specifically, the information processing section 120 includes an acquisition section 121 and an estimation section 122. The functions of the acquisition unit 121 and the estimation unit 122 are realized by a processor or a microcomputer forming the information processing unit 120 executing a computer program stored in the storage unit 130.
  • work sound data for example, an electrical signal of the work sound
  • the information processing unit 120 acquires data of
  • the acquisition unit 121 acquires, for example, data on work sounds collected by the sound collection device 10.
  • the work sound data is the sound accompanying the work of the worker, for example, the sound generated in conjunction with the work of the worker. Further, the acquisition unit 121 acquires, for example, data of an image of a worker performing work, which is captured by the imaging device 20 and corresponds to data of work sounds.
  • the work sound data may be a spectrogram image created by Fourier transforming the electric signal of the work sound collected by the sound collection device 10, or may be time-series numerical data.
  • the estimation unit 122 estimates whether or not the worker is working with a transparent object from the work sound data. For example, the estimation unit 122 estimates whether or not the worker is working with a transparent object by inputting work sound data to a trained first model 132 (hereinafter referred to as the first model 132). do. Specifically, for example, the estimation unit 122 uses the feature amount of the work sound output from the first model 132 and the transparent object stored in advance in the storage unit 130 (for example, the feature database 131 in the storage unit 130). It is estimated whether the worker is working with a transparent object or not based on the similarity with the feature amount of the work sound of the work with the transparent object.
  • the estimating unit 122 inputs work sound data to the first model 132, and stores the feature amount of the work sound of work handling a transparent object extracted by the first model 132 and the storage unit in advance. 130, and if the calculated similarity is greater than or equal to a predetermined value (that is, a threshold), the worker can perform the task of handling transparent objects. It may be presumed that they are doing so.
  • a predetermined value that is, a threshold
  • the estimation unit 122 is not limited to this example, and may use a model that directly outputs an estimation result of whether or not a worker is working with a transparent object based on work sound data.
  • the estimation unit 122 calculates that when the work sound data and the image data indicate that the worker is facing a transparent object. It may also be possible to estimate whether or not the person is working on something. Specifically, for example, the estimating unit 122 inputs work sound data and image data of an image of the worker performing the work corresponding to the work sound data into the first model 132. Estimate whether the user is working with transparent objects. Details of the first model 132 will be described later.
  • the estimation unit 122 when the estimation device 100 includes a trained second model 133, when the above image data is acquired by the acquisition unit 121, the estimation unit 122 inputs the image data to the second model 133. By doing so, it is possible to estimate whether or not the worker is working with transparent objects. At this time, the estimation unit 122 inputs into the first model 132 the data of the work sound of the work performed by the worker reflected in the data of the image acquired by the acquisition unit 121, so that the worker can hear the transparent object. Estimate whether or not you are working on handling. Then, the estimating unit 122 determines whether the worker can Estimate whether you are working with transparent objects.
  • the estimating unit 122 may determine, for example, whether the work sound collected by the sound collection device 10 is a work sound that can be erroneously estimated to be the work sound of work handling a transparent object. Specifically, the estimation unit 122 calculates, for example, the feature amount of the work sound of the work that handles a non-transparent object, which is obtained by inputting the data of the work sound of the work that handles a non-transparent object different from the transparent object into the first model 132.
  • the estimation unit 122 selects the work sound of the work that handles the non-transparent object as the work sound of the work that handles the transparent object. It is determined that the sound is a work sound that could be incorrectly estimated as a work sound. Then, the estimating unit 122 stores the feature amount of the work sound determined to be a work sound that can be incorrectly estimated in the feature amount database 131 (feature amount DB) of the storage unit 130.
  • a predetermined value so-called threshold value
  • the feature database 131 may store feature amounts of work sounds of work that handles transparent objects that have been stored in advance.
  • the feature database 131 will be described later.
  • the storage unit 130 is a storage device that stores dedicated application programs and the like for the information processing unit 120 to execute various information processes.
  • the storage unit 130 stores a feature database 131, a first model 132, and a second model 133.
  • the storage unit 130 is realized by, for example, an HDD (Hard Disk Drive), but may also be realized by a semiconductor memory.
  • the feature database 131 stores feature amounts of work sounds extracted in advance. This feature amount may be expressed as a numerical value or a combination of numerical values as an embedding (for example, a tensor, a matrix, etc.), an embedding vector, a distributed representation, or the like.
  • the feature database 131 stores feature amounts of work sounds that accompany work that involves handling transparent objects, and feature amounts of work sounds that may be mistakenly assumed to indicate that a worker is working with transparent objects. You can.
  • the feature database 131 may store feature amounts of images extracted in advance. For example, the feature database 131 may store feature amounts of an image in which a worker working with a transparent object is shown (specifically, a feature amount indicating a transparent object appearing in the image).
  • the first model 132 is, for example, a trained model generated by the model generation unit 140.
  • the first model 132 receives, for example, work sound data as input and outputs whether or not the worker is working with a transparent object. More specifically, the first model 132 extracts the feature amount of the input work sound data, for example, and combines the extracted feature amount with the work of the work handling transparent objects stored in the storage unit 130 in advance. The degree of similarity with the feature amount of the sound is calculated, and if the calculated degree of similarity is greater than or equal to a predetermined value, it is estimated that the worker is working with a transparent object.
  • the first model 132 further inputs data of an image of a worker performing work corresponding to the work sound data, and outputs whether or not the worker is working with a transparent object. You may. More specifically, the first model 132, for example, extracts the feature amount of the input image data, and uses the extracted feature amount and the task of handling a transparent object stored in advance in the storage unit 130. If the calculated similarity is equal to or greater than a predetermined value, it may be assumed that the worker is working with a transparent object.
  • the second model 133 is a trained model generated by the model generation unit 140.
  • the second model 133 inputs, for example, data of an image of a worker performing work corresponding to work sound data, and outputs whether or not the worker is working with a transparent object. More specifically, the second model 133, for example, extracts the feature amount of the input image data, and uses the extracted feature amount and the task of handling a transparent object stored in advance in the storage unit 130. If the calculated similarity is equal to or greater than a predetermined value, it may be assumed that the worker is working with a transparent object.
  • first model 132 and the second model 133 may extract the feature amount of the input data and output the extracted feature amount.
  • the first model 132 and the second model 133 are neural network models, such as a convolutional neural network (CNN), a recurrent neural network (RNN), or a LSTM (Long-Short Term Memory). Good too.
  • CNN convolutional neural network
  • RNN recurrent neural network
  • LSTM Long-Short Term Memory
  • the model generation unit 140 generates the first model 132 and the second model 133 by, for example, machine learning using teacher data.
  • the model generation unit 140 uses machine learning to create a sound identification model (hereinafter also referred to as an acoustic subnetwork) that receives work sound data as input and outputs whether or not a worker is working with a transparent object. generate.
  • the model generation unit 140 uses machine learning to further input data of an image of a worker performing work corresponding to the work sound data, and determines whether the worker is working with a transparent object.
  • An image identification model (hereinafter also referred to as a video subnetwork) may be generated that outputs whether or not the image is displayed.
  • the first model 132 may be, for example, a sound identification model or a model including a sound identification model and an image identification model.
  • the work sound data input to the first model 132 may be, for example, a spectrogram image or time-series numerical data.
  • the work sound data may include sound data in an inaudible band.
  • model generation unit 140 may use machine learning to generate an image identification model (for example, the second model 133) that receives image data as input and outputs a feature amount indicating a transparent object appearing in the image.
  • image identification model for example, the second model 133
  • the sound identification model extracts the feature amount of the input work sound data, and combines the extracted feature amount with the work sound of work handling transparent objects stored in the storage unit 130 in advance. If the calculated similarity is greater than or equal to a predetermined value, it is estimated that the worker is performing transparent work.
  • the image identification model extracts the feature amount of input image data, and uses the extracted feature amount and an image of a worker working on a transparent object stored in advance in the storage unit 130. The degree of similarity with the feature amount is calculated, and if the calculated degree of similarity is greater than or equal to a predetermined value, it is estimated that the worker is working with a transparent object. Note that the model including the sound identification model and the image identification model estimates whether or not the worker is working with a transparent object based on the estimation results using these two models.
  • the model generation unit 140 may update the first model 132 and the second model 133 by storing the learned model in the storage unit 130.
  • the model generation unit 140 is realized, for example, by a processor executing a program stored in the storage unit 130.
  • first model 132 and the second model 133 may extract the feature amount of the input data and output the extracted feature amount.
  • the input accepting unit 150 is an input interface that accepts operation input by a user using the estimation device 100.
  • the input reception unit 150 is realized by a touch panel display or the like.
  • the touch panel display functions as a display unit (not shown) and the input reception unit 150.
  • the input receiving unit 150 is not limited to a touch panel display, and may be, for example, a keyboard, a pointing device (eg, a touch pen or a mouse), a hardware button, or the like. Further, the input receiving unit 150 may be a microphone when accepting voice input.
  • FIG. 2 is a flowchart showing an example 1 of operation of the estimation system 200 according to the embodiment.
  • the sound collection device 10 collects work sounds accompanying the work of the worker, and outputs data of the collected work sounds to the estimation device 100. .
  • the acquisition unit 121 of the estimation device 100 acquires the data of the work sound collected by the sound collection device 10 (S01), and outputs the acquired data of the work sound to the estimation unit 122.
  • the estimation unit 122 of the estimation device 100 estimates whether the worker is working with a transparent object by inputting work sound data to the learned first model 132 (S02). .
  • FIG. 3 is a diagram schematically showing an example of the flow in step S02 of FIG.
  • the estimation unit 122 divides the sound data during work (so-called work sound data) acquired from the acquisition unit 121 into data for each predetermined time (for example, 2 seconds), and uses the divided data as a sound identification model. (eg, first model 132).
  • the work sound data may be subjected to preprocessing such as standardization before being input to the sound identification model.
  • the sound identification model extracts the feature amount of the work sound of work handling transparent objects from the input work sound data.
  • the feature extracted by the sound identification model is referred to as the feature to be evaluated, that is, the evaluation sound feature.
  • the estimating unit 122 uses the evaluation sound feature output from the sound identification model and the feature of the work sound (herein referred to as the target sound) of work that involves handling transparent objects, which is registered in advance in the storage unit 130. A degree of similarity indicating how similar or not the registered feature amount is is calculated, and the calculated degree of similarity is output.
  • FIG. 4 is a diagram showing a graph of the degree of similarity between the feature amount of the collected work sound and the feature amount of the work sound of work that handles transparent objects.
  • a user visually confirms an image captured by the imaging device 20, and a section in which a worker is working with a transparent object (herein referred to as a work section) and a section in which a worker is handling a transparent object are shown.
  • the results are also shown by distinguishing between sections where no work is being done (herein referred to as non-work sections).
  • the broken line in the figure indicates the similarity threshold.
  • the worker It is presumed that he is working with transparent objects.
  • the difference between the working section and the non-working section is expressed in the similarity score.
  • the similarity score increases.
  • the sound emitted from the transparent object is not picked up, so the similarity score is not calculated.
  • FIG. 5 is a diagram showing the results of time-series analysis of one hour's worth of work sounds in Verification Example 1.
  • the transparent object is a transparent plastic bag (hereinafter referred to as a transparent bag), and data of work sounds accompanying the work of the worker is input to the first model 132 (for example, the sound identification model in FIG. 3).
  • the first model 132 for example, the sound identification model in FIG. 3
  • the work sound data collected in Verification Example 1 is sound data in an audible range, it may also include sound data in an inaudible range.
  • bag task a correct label indicating that the user was performing a task of handling transparent bags
  • bag task the correct answer is labeled as "bag work" for the state in which the worker is not touching the transparent bag but the transparent bag is on the workbench, and the state in which the worker is packing products into bags. granted.
  • bag work the state in which workers are filling out documents, unpacking, etc. is not work involving transparent bags (in other words, non-bag work).
  • the similarity of the image features shown in Figure 5 is between the feature amount showing the transparent bag appearing in the image extracted using the image identification model and the feature amount showing the transparent bag appearing in the pre-registered image. shows the degree of similarity.
  • the similarity score increased when a sound other than the sound emitted from the transparent bag was generated.
  • Verification Example 1 the accuracy of task identification using the sound identification model had a correct answer rate of 28% and an incorrect answer rate of 5%.
  • the first model 132 may be a model that inputs work sound data and directly estimates (in other words, outputs) whether or not the work involves handling a transparent object.
  • the first model 132 may be a model that inputs work sound data and directly estimates (in other words, outputs) whether or not the work involves handling a transparent object.
  • FIG. 6 is a diagram for explaining a method for estimating bagging work performed in Verification Example 2.
  • the neural network shown in FIG. 6 is an example of the first model 132.
  • the model generation unit 140 uses, as learning data, an image of a spectrogram of a work sound or image data showing a worker corresponding to the work sound (that is, imaged at the same time as the time when the work sound was collected). .
  • the model generation unit 140 uses learning data as teacher data to classify the worker into two categories: whether or not the worker is doing bagging work (in other words, whether there is bagging work or not), or if there is bagging work, the bag We use data labeled with three categories including the type (for example, large bag, small bag, etc.).
  • the model generation unit 140 determines the parameters of the neural network through learning.
  • the estimation unit 122 performs inference using a neural network using the parameters determined during learning. For example, the estimation unit 122 inputs data to be classified into work (work sound data or image data) into a neural network, and categorizes the data into two categories: whether there is bag work or not, or by the type of bag if there is bag work. The estimation results for the three categories are output.
  • work work sound data or image data
  • the estimation results for the three categories are output.
  • FIG. 7 is a diagram showing an example of the architecture of the neural network shown in FIG. 6.
  • the neural network has a convolution layer because the input data is an image, but for example, if the input data is time-series numerical data, it does not need to have a convolution layer. Note that the example in FIG. 7 is just an example and is not limited thereto.
  • FIG. 8 is a diagram showing a method for calculating the correct answer rate when estimating two categories.
  • the neural network was trained using data labeled with bagging and without bagging as training data.
  • the correct answer rate (%) was calculated using the formula shown in FIG. Figure 9 shows the estimation results and correct answer rate.
  • FIG. 9 is a diagram showing the estimation results and correct answer rate for two classifications in Verification Example 2 of Operation Example 1.
  • (a) of FIG. 9 shows the estimation results and correct answer rate for two classifications when the work sound data input to the neural network is data of sounds in the audible range
  • (b) of FIG. It shows the estimation results and correct answer rate for two classifications when the work sound data is wideband sound data including sounds in the inaudible range.
  • Bag operation 1 is an operation in which polyethylene bags each having a length and width of approximately 10 cm are handled
  • bag operation 2 is an operation in which a polyethylene bag each having a length and width of approximately 30 cm is handled. As shown in FIGS.
  • FIG. 10 is a diagram showing a method for calculating the correct answer rate when estimating three categories.
  • the neural network was trained using, as training data, data with a label indicating the type of bag when there is bagging work and a label when there is no bagging work.
  • the correct answer rate (%) was calculated using the formula shown in FIG.
  • the estimation results and correct answer rate are shown in FIG. 11.
  • FIG. 11 is a diagram showing the estimation results and correct answer rate for the three classifications in Verification Example 2 of Operation Example 1.
  • FIG. 11(a) shows the estimation results and correct answer rate for three classifications when the work sound data input to the neural network is sound data in the audible range
  • FIG. 11(b) shows the estimation results and correct answer rate.
  • the estimation results and correct answer rate are shown when the work sound data is broadband sound data including sounds in the inaudible range.
  • FIGS. 11(a) and 11(b) when working sound data in a wide range of sounds including non-audible sounds is used as input data, data of working sounds in an audible range is obtained.
  • the correct answer rate was higher than using . Therefore, it was confirmed that the worker's work can be estimated more accurately when the work sound data is broadband sound data than the audible band sound data.
  • FIG. 12 is a diagram showing a method for estimating two categories based on a combination of input data and a method for calculating a correct answer rate.
  • FIG. 12(a) shows a classification method for estimation results
  • FIG. 12(b) shows a correspondence relationship between estimation results and labels.
  • classification A indicates bag work when the input data is (i) image data, and (ii) image data + broadband sound data. This indicates that the work could be estimated according to the label.
  • classification D indicates that when the input data is at least one of (i) and (ii) above, the work could be estimated according to the label without bagging work.
  • the correct answer rate (%) was calculated using the formula shown in FIG. 12(b). The estimation results and correct answer rate are shown in FIG. 13.
  • FIG. 13 is a diagram showing the estimation results and correct answer rate of two classifications based on the combination of input data in Verification Example 2 of Operation Example 1.
  • FIG. 13(a) shows the estimation results and correct answer rate for two classifications when the input data input to the neural network is image data
  • FIG. 13(b) shows the estimation results and correct answer rate when the input data input to the neural network is image data.
  • the estimation results and correct answer rates are shown for data and broadband work sound data.
  • FIGS. 13(a) and 13(b) when broadband work sound data was used as input data, the correct answer rate was higher than when only image data was used. Therefore, it was confirmed that the worker's work can be estimated more accurately when the input data input to the neural network is image data and broadband work sound data, rather than only image data.
  • Verification Example 3 of Operation Example 1 Next, Verification Example 3 of Operation Example 1 will be specifically explained.
  • Verification Example 1 work sounds in the audible band were used to estimate the work, but verification example 3 differs from verification example 1 in that work sound data including sounds in the inaudible band was used.
  • Verification Example 3 the estimation accuracy when implementing the estimation method described in Operation Example 1 (referred to as this method) using work sound data including sounds in the inaudible band, and the estimation accuracy using image AI (in other words, The estimation accuracy was compared with that when an estimation method using video AI) was implemented.
  • FIG. 14 is a diagram showing a comparison result between the estimation accuracy of the estimation method using image AI and the estimation accuracy of this method.
  • "1" in the label column indicates that a label (so-called correct label) indicating that work is being done with transparent bags (so-called bag work) has been attached, and "0” means that This indicates that the correct answer label is not attached (that is, non-bag work).
  • "1" in the image AI and method columns indicates that it is estimated that bagging work is being performed, and "0” indicates that it is estimated that bagging work is not being performed.
  • FIG. 15 is a diagram for explaining the difference between the estimation results using work sound data and the estimation results using image data.
  • FIG. 16 is a diagram for explaining an overview of the flow of operation example 2 of estimation system 200 in the embodiment.
  • FIG. 17 is a flowchart showing a second operation example of the estimation system 200 according to the embodiment. In operation example 2, differences from operation example 1 will be mainly explained, and explanations of common steps will be omitted or simplified.
  • the user visually checks the worker's work in the image and determines the section where bag work is present (bag work section).
  • bag work section the section where bag work is present.
  • the number of bag operations can be counted even when the operations are estimated using only image data.
  • the sound similarity score responds (increases) earlier than the image-based estimation.
  • the acquisition unit 121 of the estimation device 100 acquires the image data corresponding to the work sound data
  • the acquisition unit 121 sends the image to the estimation system 200 that receives the image data as input. Enter the data.
  • the estimation system 200 performs preprocessing such as adjusting or standardizing the size of input image data, inputs it to a neural network (e.g., image identification model), and outputs the image data. Based on the feature amount of the image, the degree of similarity with the feature amount representing the transparent bag reflected in the image is calculated.
  • a neural network e.g., image identification model
  • the acquisition unit 121 of the estimation device 100 inputs the work sound data to the estimation system 200 which receives the work sound data as input.
  • the system performs preprocessing such as standardization of input work sound data, and inputs it into a neural network (e.g., sound identification model) to characterize the output work sound. Based on the amount, the degree of similarity with the feature amount of the bag work sound is calculated. Then, by combining the estimation results obtained by these estimation systems 200, an estimation result is output.
  • a neural network e.g., sound identification model
  • the sound collection device 10 collects work sounds accompanying the work of the worker, and outputs data of the collected work sounds to the estimation device 100.
  • the imaging device 20 also captures an image of the worker performing the work that corresponds to the work sound collected by the sound collection device 10 (that is, the images were captured at the same time), and data of the captured image. is output to the estimation device 100. Note that when the worker is working with a transparent object, the image shows the transparent object (here, a transparent bag) together with the worker.
  • the acquisition unit 121 of the estimating device 100 acquires data on work sounds accompanying the work of the worker (S01), and outputs the acquired work sound data to the estimation unit 122.
  • the estimation unit 122 estimates whether or not the worker is working with a transparent object by inputting work sound data to the first model 132 (S02). Specifically, for example, the estimating unit 122 determines that the degree of similarity between the feature extracted by the first model 132 and the feature of the work sound of work handling transparent objects stored in the storage unit 130 in advance is a predetermined value. (so-called threshold value) or more, it is estimated that the worker is working with a transparent object.
  • the acquisition unit 121 of the estimation device 100 outputs the data of the acquired image to the estimation unit 122.
  • the estimation unit 122 estimates whether or not the worker is working with a transparent object by inputting image data to the second model 133 (S04). Specifically, for example, the estimation unit 122 uses the feature amount of an image showing a worker doing transparent work extracted from the second model 133 and the image showing a worker handling a transparent object stored in the storage unit 130 in advance. If the degree of similarity with the feature amount of the image is greater than or equal to a predetermined value (so-called threshold value), it is estimated that the worker is working with transparent objects.
  • a predetermined value so-called threshold value
  • the estimation unit 122 determines whether the worker recognizes the transparent object based on the estimation result estimated from the work sound data using the first model 132 and the estimation result estimated from the image data using the second model 133. It is estimated whether or not the person is working on handling the object (S05). Specifically, for example, the estimation unit 122 calculates the degree of similarity between the feature amount of the work sound extracted by the first model 132 and the feature amount of the work sound of work handling transparent objects stored in the storage unit 130 in advance. is greater than or equal to a predetermined value (threshold), and the degree of similarity between the feature amount of the image extracted by the second model 133 and the feature amount of the image in which the worker handling the transparent object is stored in advance in the storage unit 130. is greater than or equal to a predetermined value (threshold value), it is estimated that the worker is working with a transparent object.
  • a predetermined value threshold
  • Modification 1 of operation example 2 In operation example 2, the worker is transparent based on the feature amount obtained by inputting work sound data to the first model 132 and the feature amount obtained by inputting image data to the second model 133. An example of estimating whether or not a user is working with an object has been explained.
  • work sound data is added to the first model 132 by the example of the first model 132 that directly estimates whether or not the work is handling a transparent object as described in verification example 2 of operation example 1. Based on the feature amount of the work sound and the feature amount of the image obtained by inputting the image data and image data, it is estimated whether the worker is working with a transparent object or not.
  • FIG. 18 is a flowchart showing a first modification of the second operation example of the estimation system 200 in the embodiment.
  • the acquisition unit 121 of the estimation device 100 acquires data of the work sound collected by the sound collection device 10 (S01), and outputs the acquired data to the estimation unit 122.
  • the acquisition unit 121 of the estimation device 100 acquires data of an image in which the worker performing the work corresponds to the data of the work sound captured by the imaging device 20 (S03), and transfers the acquired data to the estimation unit 122. Output to.
  • the estimating unit 122 calculates the amount of work performed by the worker handling the transparent object based on the feature amount of the work sound and the feature amount of the image obtained by inputting the data of the work sound and the image data into the first model 132. It is estimated whether or not the user is doing the following (S06).
  • FIG. 19 is a diagram schematically showing a configuration example 1 of the estimation unit 122 that executes the flow of the modification 1 of the operation example 2.
  • FIG. 20 is a diagram for explaining a method of estimating bagging work performed by Configuration Example 1.
  • the estimation unit 122 includes an embedding vector creation unit, a work classification unit, and a bag work identification unit.
  • the embedding vector creation unit includes an image subnetwork that inputs image data and extracts image features, and an image subnetwork that inputs image data and extracts image features, and an image subnetwork that inputs sound (here, work sound) data and extracts sound features (here, work sound features). a fusion layer; and a fusion layer.
  • the neural network may include, for example, an image sub-network and a sound sub-network.
  • a neural network may be the first model 132.
  • the sound sub-network may be the first model 132
  • the image sub-network may be the second model 133.
  • the model generation unit 140 uses image data and work sound data as learning data, and uses data labeled with the presence or absence of similarity to the learning data as teacher data.
  • the model generation unit 140 determines the parameters of the neural network through learning.
  • the work sound data is broadband sound data including sounds in the audible range or sounds in the inaudible range.
  • the work sound data may be, for example, a spectrogram of 257 ⁇ 199 pixels.
  • the image data may be, for example, 224 ⁇ 224 pixel data. Note that the model generation unit 140 may perform transfer learning on the fusion layer.
  • the estimation unit 122 creates an embedding vector using a fusion layer using the parameters determined during learning.
  • the estimation unit 122 inputs the embedding vector to the work classification unit, and identifies the baggage work based on the probability value output from the Softmax layer.
  • FIG. 21 is a diagram schematically showing a second configuration example of the estimation unit 122 that executes the flow of the first modification of the second operation example.
  • the work classification unit includes a classification network and a softmax layer, but in configuration example 2, the work classification unit includes a contrast learning network.
  • Contrastive learning is a type of self-supervised learning that allows you to learn from vast amounts of data as is, using a mechanism that compares data without labeling it. In contrastive learning, features are learned so that similar data are placed close together and different data are placed far away.
  • FIG. 22 is a diagram schematically showing a third configuration example of the estimation unit 122 that executes the flow of the first modification of the second operation example.
  • the fusion layer is placed before the classification network, but in configuration example 3, the fusion layer is placed after the classification network.
  • FIG. 23 is a diagram illustrating an example of the architecture of the image subnetwork.
  • FIG. 24 is a diagram illustrating an example of the architecture of the sound subnetwork.
  • the sizes of the image data and work sound data that are input data are often different, so the sizes of each layer of the image subnetwork and the sound subnetwork do not have to be the same. However, it is sufficient if the final layer sizes of these subnetworks are the same.
  • FIG. 25 is a diagram illustrating an example of the architecture of the fusion layer. As shown in FIG. 25, data output from the image sub-network and data output from the sound sub-network are input to the connection layer, and different outputs are obtained during learning and during inference.
  • FIG. 26 is a diagram illustrating an example of the architecture of a classification network.
  • the size of the first layer of the classification network is, for example, the same size as the data output from the final layer of the image subnetwork when placed after the image subnetwork, and the size of the first layer of the classification network is the same size as the data output from the final layer of the image subnetwork, If placed after the subnetwork, it is the same size as the data output from the last layer of the sound subnetwork. Further, the size of the first layer of the classification network is the same size as the data output from the last layer of the fusion layer, for example, when the classification network is placed after the fusion layer.
  • FIG. 27 is a diagram illustrating an example of the architecture of a contrastive learning network.
  • the size of the first layer of the contrastive learning network is, for example, the same as the size of the embedding vector output from the embedding vector creation unit.
  • Contrastive learning networks are used as transfer learning.
  • the loss function for example, Equation 1 below is used.
  • sim(x, y) is a function for calculating similarity, and for example, cosine similarity may be used.
  • zi and zz are corresponding embedding vectors, and for example, embedding vectors of image data and broadband work sound data may be used, respectively.
  • is an adjustment parameter.
  • Equation 1 The loss function of Equation 1 above is large when the similarity between the two embedding vectors is large, and becomes small when the similarity is small.
  • FIG. 28 is a diagram schematically showing a configuration example of the estimation unit 122 that executes the flow of the second modification of the second operation example.
  • the flow of Modification 2 of Operation Example 2 will be described with reference to the flow of Modification 1 of Operation Example 2 shown in FIG.
  • image data is acquired and used as input data, but in modification 2 of operation example 2, in step S03 of FIG.
  • distance data acquired by a distance measuring sensor or the like may be used as input data.
  • the estimation unit 122 includes a distance subnetwork instead of the image subnetwork.
  • the task classification unit may include a contrastive learning network.
  • FIG. 29 is a diagram illustrating an example of work sounds when the estimation unit 122 incorrectly estimates that a worker is working with a transparent object.
  • FIG. 30A is a flowchart of operation example 3 of estimation system 200 in the embodiment.
  • FIG. 30B is a flowchart illustrating an example of an operation for pre-registering feature amounts of work sounds that may be erroneously estimated.
  • the work sound that accompanies the work of handling transparent bags is called transparent bag sound
  • the work sound that accompanies the work of handling non-transparent bags is called non-transparent bag sound.
  • the work of handling transparent bags is called bag work.
  • the similarity threshold is, for example, 25, and if the similarity of the work sound to the transparent bag sound is greater than or equal to the threshold, the estimation unit 122 estimates that the worker is working on handling transparent bags (bag work). ). At this time, the work of the worker may be accurately estimated based on the work sounds that accompany the work of handling transparent bags, such as the sound of opening a plastic bag or taking a bag out of a shelf. In some cases, it may be mistakenly assumed that the person is doing bag work even though he or she is not.
  • non-transparent bag sounds such as the sound of boxes being tied together with rubber bands, the sound of boxes or bags being stored at the bottom of a cart, or the sound of barcode scanning during transportation, etc. Based on this, it is erroneously assumed that the worker is doing bag work.
  • the estimation unit 122 calculates the similarity between the feature amount of the non-transparent vesicle sound and the feature amount of the transparent vesicle sound registered in advance, and if the similarity exceeds a threshold value, In this case, the non-transparent bag sound is determined to be the incorrect estimation target sound and is stored in the storage unit 130.
  • the estimating unit 122 reads from the storage unit 130 the feature amount of a work sound that can be erroneously estimated (hereinafter also referred to as a sound to be erroneously estimated) and the feature amount of a transparent bag sound, which are registered in advance. The degree of similarity between the feature values of the work sound and these feature values is compared to estimate whether or not the worker is doing bag work.
  • the acquisition unit 121 of the estimation device 100 acquires data of the work sound collected by the sound collection device 10 and outputs the acquired data to the estimation unit 122.
  • the estimation unit 122 inputs the acquired work sound data to the sound identification model (S11), detects sound from the input work sound data, and extracts input feature amounts (S12).
  • the estimation unit 122 extracts the feature amount (sound feature amount) of the work sound (hereinafter referred to as input sound) using the sound identification model (S13).
  • the estimating unit 122 reads the feature amount of the transparent sound and the feature amount of the incorrect estimation target sound from the storage unit 130 (S14).
  • the estimation unit 122 calculates the similarity between the transparent bag sound and the input sound, and the similarity between the incorrect estimation target sound and the input sound.
  • the estimation unit 122 determines whether the degree of similarity between the transparent bag sound and the input sound exceeds the degree of similarity between the incorrect estimation target sound and the input sound (S16), and if it is determined that the degree of similarity exceeds the degree of similarity (Yes in S16). , it is determined whether the degree of similarity between the transparent envelope sound and the input sound exceeds a threshold value (S17). If the estimation unit 122 determines that the degree of similarity between the transparent envelope sound and the input sound exceeds the threshold (Yes in S17), the estimation unit 122 determines that the input sound is a transparent envelope sound (S18). Thereby, the estimating unit 122 estimates that the worker is working with transparent bags based on the feature amount of the input sound (work sound).
  • the estimation unit 122 determines in step S16 that the similarity between the transparent bag sound and the input sound does not exceed the similarity between the incorrect estimation target sound and the input sound (No in S16), the input sound is not a transparent bag sound. It is determined that there is no one (S19). Furthermore, if the estimation unit 122 determines in step S17 that the degree of similarity between the transparent envelope sound and the input sound does not exceed the threshold (No in S17), the estimation unit 122 determines that the input sound is not a transparent envelope sound (S19). Thereby, the estimating unit 122 estimates that the worker is doing work that does not involve handling transparent bags, based on the feature amount of the input sound (work sound).
  • the acquisition unit 121 of the estimation device 100 acquires data of the work sound acquired by the sound collection device 10 and outputs the acquired data to the estimation unit 122.
  • the work sound data acquired by the acquisition unit 121 is work sound associated with work that does not involve handling transparent bags.
  • the estimation unit 122 inputs the acquired work sound data to the sound identification model (S21), detects sound from the input work sound data, and extracts input feature amounts (S22).
  • the estimation unit 122 extracts the feature amount (sound feature amount) of the work sound (hereinafter referred to as input sound) using the sound identification model (S23). Next, the estimation unit 122 reads the feature amount of the transparent bag sound from the storage unit 130 (S24).
  • the estimation unit 122 calculates the similarity between the transparent sound and the input sound.
  • the estimating unit 122 determines whether the degree of similarity between the transparent bag sound and the input sound exceeds a threshold (S26), and when determining that it exceeds the threshold (Yes in S26), the estimation unit 122 incorrectly identifies the input sound. It is determined that the sound is the estimation target sound (S27). Then, the estimation unit 122 stores the feature amount of the collected sound (work sound) in the storage unit 130 as the feature amount of the incorrect estimation target sound (S29). On the other hand, if the estimation unit 122 determines that the degree of similarity between the transparent bag sound and the input sound does not exceed the threshold (No in S26), the estimation unit 122 determines that the input sound is not an incorrect estimation target sound (S28).
  • the estimation method according to the present embodiment is an estimation method for estimating the work of a worker using a computer (for example, the estimation device 100), in which the computer By acquiring work sound data (S01 in FIG. 2) and inputting the work sound data into the trained first model 132, it is estimated whether the worker is working with a transparent object ( S02 in FIG. 2).
  • the device that executes the estimation method uses the first model 132 that inputs work sound data and outputs whether or not the work is handling a transparent object.
  • the work to be handled can be estimated with high accuracy.
  • the computer acquires data of an image showing a worker performing the work, which corresponds to the work sound data (S03 in FIG. 17), By inputting image data into the learned second model 133, it is estimated whether the worker is working with a transparent object (S04 in FIG. 17), and the estimation result using the first model 132 is estimated. Based on the estimation result using the second model 133, it is estimated whether the worker is working with a transparent object (S05 in FIG. 17).
  • the estimation result using the first model 132 is the estimation result estimated from the work sound data by the first model 132
  • the estimation result using the second model 133 is the estimation result estimated from the image data by the second model 133. This is the estimation result estimated from .
  • the device that executes the estimation method (for example, the estimation device 100) can estimate the estimation result estimated from the work sound data by the first model 132 and the estimation result estimated from the image data by the second model 133. Based on this, it is estimated whether the worker is working with transparent objects or not. Therefore, the device that executes the estimation method can estimate the task of handling a transparent object with higher accuracy than when estimating using only the data of the task sound.
  • the computer acquires data of an image showing a worker performing the work, which corresponds to the work sound data (S03 in FIG. 18), By inputting work sound data and image data to the first model 132, it is estimated whether the worker is working with a transparent object or not (S06).
  • the device that executes the estimation method inputs the data of the work sound and the data of the image corresponding to the work sound, and outputs the first output indicating whether or not the work involves handling a transparent object. Since the model 132 is used, the task of handling a transparent object can be estimated with higher accuracy than when estimation is made using only work sound data.
  • the computer for example, the estimation device 100
  • the device that executes the estimation method can perform the estimation method based on the degree of similarity between the feature amount of the work sound output from the first model 132 and the feature amount of the work sound of work that handles transparent objects. Since it is estimated whether or not the worker is working with a transparent object, it is possible to estimate the work of handling a transparent object with high accuracy.
  • the computer stores the feature quantities of the work sound output from the first model 132 in advance in the storage unit 130 (for example, the feature quantity database 131).
  • the degree of similarity (in other words, the first degree of similarity) to the saved characteristic amount of the work sound of the work that handles the transparent object, and the degree of similarity between the worker and the person who handled the transparent object, which was previously stored in the storage unit 130 (for example, the feature amount database 131).
  • a worker identifies a transparent object based on the degree of similarity (in other words, the second degree of similarity) to the feature amount of a work sound that may be incorrectly estimated when handling a work (for example, the sound to be incorrectly estimated in FIG. 30A). It is estimated whether or not the person is working on handling the object (S16 to S19 in FIG. 30A).
  • the device that executes the estimation method calculates the feature amount of the work sound output from the first model 132 and the feature amount of the work sound of work that handles transparent objects, and the similarity (first similarity).
  • the similarity second similarity
  • the computer calculates the feature amount of the work sound outputted from the first model 132 based on the feature amount of the work sound of work handling a transparent object.
  • the degree of similarity (the above first degree of similarity) is the degree of similarity (above first degree of similarity) with respect to the feature amount of the work sound (the sound to be erroneously estimated in FIG. 30A) that can be erroneously estimated as a worker working with a transparent object If the second similarity described above is exceeded (Yes in S16 of FIG. 30A), it is estimated that the worker is working with a transparent object.
  • the device that executes the estimation method e.g., the estimation device 100
  • the estimation device 100 can reduce the occurrence of erroneous estimations, so even if only the work sound data is used, it can accurately estimate the work of handling transparent objects. be able to.
  • the computer e.g., estimation device 100
  • the computer inputs into the first model 132 work sound data of a work that handles a non-transparent object that is different from a transparent object. If the degree of similarity (in other words, the third degree of similarity) between the feature amount of the work sound of the task of handling objects and the feature amount of the work sound of the task of handling transparent objects exceeds the threshold (Yes in S26 of FIG. 30B),
  • the work sound of the work that handles the non-transparent object is determined to be a work sound that can be erroneously estimated as the work sound of the work that handles the transparent object (so-called erroneous estimation target sound) (S27 in FIG. 30B), and
  • the feature amount of the work sound of the work that handles is stored in the storage unit 130 (for example, the feature amount database 131) as the feature amount of the work sound that may be erroneously estimated (S29 in FIG. 30B).
  • the device that executes the estimation method calculates the degree of similarity (the third Based on the degree of similarity), it is possible to accurately determine whether or not the work sound of working with a non-transparent object is a work sound that can be mistakenly assumed to be work that involves working with a transparent object. Therefore, the device that executes the estimation method can store in the storage unit 130 feature amounts of work sounds that are relatively likely to be erroneously estimated. Therefore, the device that executes the estimation method can reduce the occurrence of erroneous estimation by using the feature amount of the work sound that may be erroneously estimated and is stored in the storage unit 130, and therefore uses only the data of the work sound. It is possible to estimate the work involved in handling transparent objects with high accuracy.
  • the work sound data may include sound data in an inaudible band.
  • the device that executes the estimation method uses work sound data that includes sounds in the audible band to sounds in the inaudible band to determine whether the worker is working with a transparent object. Estimate whether or not.
  • the work sound data includes sounds in the inaudible range, there is less noise from the environment that can cause erroneous estimation in the work sound data. It is possible to improve the estimation accuracy of tasks that involve
  • a device that performs the estimation method can estimate whether or not a worker is working with a transparent object based on more information than when using only sound data in the audible range. . Therefore, the device that executes the estimation method can more accurately estimate the task of handling transparent objects.
  • the estimation device 100 is an estimation device that estimates the work of a worker, and includes an acquisition unit 121 that acquires data of work sounds accompanying the collected work, and a learned
  • the present invention includes an estimation unit 122 that estimates whether or not a worker is working with a transparent object by inputting work sound data into a model 132.
  • the estimation device 100 uses the first model 132 that inputs work sound data and outputs whether or not the work is handling a transparent object, so it is possible to estimate the work that handles a transparent object with high accuracy. .
  • the program according to this embodiment is a program for causing a computer to execute the above estimation method.
  • FIG. 31 is a block diagram illustrating an example of the functional configuration of an estimation system according to another embodiment.
  • the estimation system 200 according to the embodiment has been described as an example in which the estimation device 100 is a server device, the estimation device 100 does not need to be a server device.
  • the estimation device 100a may be a stationary computer device such as a personal computer.
  • the estimating device 100a differs from the estimating device 100 in that it includes a display section 160. Only the different points will be explained below.
  • the display unit 160 displays the estimation results, for example.
  • the display unit 160 is, for example, a display device that displays image information including characters, and is, for example, a display that includes a liquid crystal (LC) panel or an organic EL (Electro Luminescence) panel as a display device.
  • LC liquid crystal
  • organic EL Electro Luminescence
  • the estimation device 100a may include, for example, a sound collection section and an imaging section, and one or more may be installed in the work space 80. Equipped with a sound collection unit and an imaging unit may be connected to the sound collection device 10 and the imaging device 20 by wired or wireless communication, or may be a single unit including the sound collection device 10 and the imaging device 20. It may be a device of.
  • the estimation device 100a may be communicatively connected to, for example, a server device or a user's information terminal. In this case, the estimation device 100a may store the estimation results in the storage unit 130 for a predetermined period (for example, one day, several days, one week, etc.) and output the estimation results to the server device or information terminal. , the estimation result may be output each time the estimation is performed.
  • the server device may be a cloud server.
  • the information terminal may be a stationary computer device such as a personal computer, or a portable computer device such as a tablet terminal.
  • each of the estimation systems 200 and 200a is realized by a plurality of devices, but may be realized as a single device. Further, when the system is realized by a plurality of devices, the plurality of components included in each of the estimation systems 200 and 200a may be distributed to the plurality of devices in any manner. Further, for example, a server device capable of communicating with the estimation system 200 or 200a may include a plurality of components included in the information processing unit 120.
  • the communication method between devices in the above embodiment is not particularly limited. Further, in communication between devices, a relay device (not shown) may intervene.
  • the processing executed by a specific processing unit may be executed by another processing unit. Further, the order of the plurality of processes may be changed, or the plurality of processes may be executed in parallel.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • each component may be realized by hardware.
  • each component may be a circuit (or integrated circuit). These circuits may constitute one circuit as a whole, or may be separate circuits. Further, each of these circuits may be a general-purpose circuit or a dedicated circuit.
  • the general or specific aspects of the present disclosure may be implemented in a system, apparatus, method, integrated circuit, computer program, or computer-readable recording medium such as a CD-ROM. Further, the present invention may be realized by any combination of a system, an apparatus, a method, an integrated circuit, a computer program, and a recording medium.
  • the present disclosure may be realized as an estimation method executed by a computer such as the estimation device 100, or may be realized as a program for causing a computer to execute such an estimation method. Further, the present disclosure may be realized as a program for causing a general-purpose computer to operate as the estimation device 100 of the above embodiment. The present disclosure may be realized as a computer-readable non-transitory recording medium on which these programs are recorded.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Manufacturing & Machinery (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Factory Administration (AREA)

Abstract

推定方法は、コンピュータによる、作業員の作業を推定する推定方法であって、コンピュータは、収音された作業に付随する作業音のデータを取得し(S01)、学習済みの第1モデルに作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する(S02)。

Description

推定方法及び推定装置
 本開示は、作業員の作業を推定する推定方法等に関する。
 工場の生産性向上のための第一段階として、作業員が行う作業に関するデータを自動で収集して作業の分類を行い、作業に要した時間をその分類ごとに計測している。例えば、特許文献1には、複数の撮像条件で撮像された画像から作業で扱われる物体(例えば、透明物体など)を識別することで、作業の分類を行う技術が開示されている。
特開2018-017653号公報
 しかしながら、特許文献1に記載の技術では、撮像条件を変化させても、物体の透明度が高い場合、又は、物体における光の屈折率もしくは反射率の変化が小さい場合、当該物体の識別精度が低下する。そのため、特許文献1に記載の技術では、透明性の高い物体(以下、透明物体)を扱う作業を精度良く推定できない場合がある。
 そこで、本開示は、透明物体を扱う作業を精度良く推定することが可能な推定方法等を提供する。
 本開示の一態様に係る推定方法は、コンピュータによる、作業員の作業を推定する推定方法であって、前記コンピュータは、収音された前記作業に付随する作業音のデータを取得し、学習済みの第1モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する。
 本開示によれば、透明物体を扱う作業を精度良く推定することが可能になる。
図1は、実施の形態における推定システムの機能構成の一例を示すブロック図である。 図2は、実施の形態における推定システムの動作例1を示すフローチャートである。 図3は、図2のステップS02におけるフローの一例を模式的に示す図である。 図4は、収音された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度のグラフを示す図である。 図5は、検証例1において1時間分の作業音を時系列に分析した結果を示す図である。 図6は、検証例3で実行される袋作業の推定方法を説明するための図である。 図7は、ニューラルネットワークのアーキテクチャの一例を示す図である。 図8は、2分類の推定を行う場合の正答率の算出方法を示す図である。 図9は、検証例3における2分類の推定結果及び正答率を示す図である。 図10は、3分類の推定を行う場合の正答率の算出方法を示す図である。 図11は、検証例3における3分類の推定結果及び正答率を示す図である。 図12は、入力データの組み合わせによる2分類の推定方法及び正答率の算出方法を示す図である。 図13は、検証例3における入力データの組み合わせによる2分類の推定結果及び正答率を示す図である。 図14は、画像AIを用いた推定方法及び動作例1の推定方法の推定精度の比較結果を示す図である。 図15は、作業音のデータを用いた推定結果と画像のデータを用いた推定結果との違いを説明するための図である。 図16は、実施の形態における推定システムの動作例2のフローの概要を説明するための図である。 図17は、実施の形態における推定システムの動作例2を示すフローチャートである。 図18は、実施の形態における推定システムの動作例2の変形例1を示すフローチャートである。 図19は、動作例2の変形例1のフローを実行する推定部の構成例1を模式的に示す図である。 図20は、構成例1により実行される袋作業の推定方法を説明するための図である。 図21は、動作例2の変形例1のフローを実行する推定部の構成例2を模式的に示す図である。 図22は、動作例2の変形例1のフローを実行する推定部の構成例3を模式的に示す図である。 図23は、画像サブネットワークのアーキテクチャの一例を示す図である。 図24は、音サブネットワークのアーキテクチャの一例を示す図である。 図25は、フュージョン層のアーキテクチャの一例を示す図である。 図26は、分類ネットワークのアーキテクチャの一例を示す図である。 図27は、対照学習ネットワークのアーキテクチャの一例を示す図である。 図28は、動作例2の変形例2のフローを実行する推定部の構成例を模式的に示す図である。 図29は、推定部により作業員が透明物体を扱う作業をしていると誤推定されたときの作業音の例を示す図である。 図30Aは、実施の形態における推定システムの動作例3のフローチャートである。 図30Bは、誤推定されうる作業音の特徴量を予め登録する動作の一例を示すフローチャートである。 図31は、他の実施の形態に係る推定システムの機能構成の一例を示すブロック図である。
 (本開示の基礎となった知見)
 工場の生産性向上のための第一段階として、作業員が行う作業に関するデータを自動で収集して作業の分類を行い、作業に要した時間を分類ごとに計測している。これにより、ユーザは、作業員がどの作業に時間を要しているか把握することができるため、作業員がより効率的に作業を行えるように作業計画を立てることが可能となる。
 従来、作業員が行う作業の様子をカメラで撮影して、作業員が扱う物体を識別することにより作業の分類を行っている。例えば、特許文献1では、撮像条件を変えて撮像された複数の画像から透明物体を識別して、作業員が透明物体を扱う作業を行っていると分類している。しかしながら、透明性の高い物体(いわゆる、透明物体)は、撮像条件を変化させても、その透明度が高い場合、又は、当該物体における光の屈折率もしくは反射率の変化が小さい場合、当該物体を映像で識別することは難しい。そのため、特許文献1に記載の技術では、透明物体を扱う作業を精度良く推定することができない場合がある。
 そこで、作業で扱われる物体の透明性が高い場合、又は、当該物体における光の屈折率もしくは反射率の変化が小さい場合でも、当該物体を精度良く識別し、透明物体を扱う作業を精度良く推定することで、作業員の作業を精度良く分類できる方法が求められている。
 また、従来の方法では、カメラで静止状態の物体を撮影して、当該物体を識別することに主眼が置かれていた。そこで、本願発明者らは、作業に付随する作業音(言い換えると、作業に伴い発生する音)を収音することで、作業員による作業で透明物体が移動、又は、変形されていても、透明物体を扱う作業を精度良く推定することができることを見出した。
 (本開示の概要)
 本開示の一態様に係る例1の推定方法は、コンピュータによる、作業員の作業を推定する推定方法であって、前記コンピュータは、収音された前記作業に付随する作業音のデータを取得し、学習済みの第1モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する。
 これにより、推定方法を実行する装置は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第1モデルを用いるため、透明物体を扱う作業を精度良く推定することができる。
 また、本開示の一態様に係る例2の推定方法は、例1の推定方法であって、前記コンピュータは、前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、学習済みの第2モデルに前記画像のデータを入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定し、前記第1モデルを用いた推定結果及び前記第2モデルを用いた推定結果に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。なお、第1モデルを用いた推定結果は、第1モデルにより作業音のデータから推定された推定結果であり、第2モデルを用いた推定結果は、第2モデルにより画像のデータから推定された推定結果である。
 これにより、推定方法を実行する装置は、第1モデルにより作業音のデータから推定された推定結果と、第2モデルにより画像のデータから推定された推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。そのため、推定方法を実行する装置は、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。
 また、本開示の一態様に係る例3の推定方法は、例1の推定方法であって、前記コンピュータは、前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、前記作業音のデータと前記画像のデータとを前記第1モデルに入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。
 これにより、推定方法を実行する装置は、作業音のデータ及び作業音に対応する画像のデータを入力とし、透明物体を扱う作業であるか否かを出力する第1モデルを用いるため、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。
 また、本開示の一態様に係る例4の推定方法は、例1~例3のいずれかの推定方法であって、前記コンピュータは、前記第1モデルから出力された前記作業音の特徴量と、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量との類似度に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。
 これにより、推定方法を実行する装置は、第1モデルから出力された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定するため、透明物体を扱う作業を精度良く推定することができる。
 また、本開示の一態様に係る例5の推定方法は、例1~例4のいずれかの推定方法であって、前記コンピュータは、さらに、前記第1モデルから出力された前記作業音の特徴量の、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量に対する類似度と、予め前記記憶部に保存された前記作業員が前記透明物体を扱う作業をしていると誤推定されうる作業音の特徴量に対する類似度とに基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。
 これにより、推定方法を実行する装置は、第1モデルから出力された作業音の特徴量と透明物体を扱う作業の作業音の特徴量との類似度と、第1モデルから出力された作業音の特徴量と誤推定されうる作業音の特徴量との類似度とを比較することで、誤推定の発生を低減することができる。したがって、推定方法を実行する装置は、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。
 また、本開示の一態様に係る例6の推定方法は、例5の推定方法であって、前記コンピュータは、前記第1モデルから出力された前記作業音の特徴量の、前記透明物体を扱う作業の前記作業音の特徴量に対する前記類似度が、前記作業員が前記透明物体を扱う作業をしている誤推定されうる前記作業音の特徴量に対する前記類似度を上回る場合、前記作業員が前記透明物体を扱う作業をしていると推定する、推定方法であってもよい。
 これにより、推定方法を実行する装置は、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。
 また、本開示の一態様に係る例7の推定方法は、例5又は例6の推定方法であって、前記コンピュータは、前記透明物体と異なる非透明物体を扱う作業の作業音のデータを前記第1モデルに入力して得られる前記非透明物体を扱う作業の前記作業音の特徴量と、前記透明物体を扱う作業の前記作業音の特徴量との類似度が閾値を上回る場合、前記非透明物体を扱う作業の前記作業音を、前記透明物体を扱う作業の作業音と誤推定されうる作業音であると判定し、前記非透明物体を扱う作業の前記作業音の特徴量を前記誤推定されうる作業音の特徴量として前記記憶部に保存する、推定方法であってもよい。
 これにより、推定方法を実行する装置は、非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度に基づいて、当該非透明物体を扱う作業の作業音が透明物体を扱う作業をしていると誤推定されうる作業音であるか否かを精度良く判定することができる。そのため、推定方法を実行する装置は、誤推定される可能性が比較的高い作業音の特徴量を記憶部に保存することができる。したがって、推定方法を実行する装置は、記憶部に保存された誤推定され得る作業音の特徴量を用いることで、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。
 また、本開示の一態様に係る例8の推定方法は、例1~例7のいずれかの推定方法であって、前記作業音のデータは、非可聴帯域の音のデータを含む、推定方法であってもよい。
 これにより、推定方法を実行する装置は、可聴帯域の音から非可聴帯域の音までを含む作業音のデータを用いて作業員が透明物体を扱う作業をしているか否かを推定する。このように、作業音のデータが非可聴帯域の音を含むことで、作業音のデータ中の誤推定の原因となる環境からの雑音が少なくなるため、推定方法を実行する装置は、透明物体を扱う作業の推定精度を高めることができる。さらに、推定方法を実行する装置は、可聴帯域の音のデータのみを用いる場合よりもより多くの情報に基づいて、作業員が透明物体を扱う作業をしているか否かを推定することができる。したがって、推定方法を実行する装置は、透明物体を扱う作業をより精度良く推定することができる。
 また、本開示の一態様に係る例9の推定装置は、作業員の作業を推定する推定装置であって、収音された前記作業に付随する作業音のデータを取得する取得部と、学習済みの第1モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する推定部と、を備える。
 これにより、推定装置は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第1モデルを用いるため、透明物体を扱う作業を精度良く推定することができる。
 また、本開示の一態様に係る例10のプログラムは、例1~例8のいずれかの推定方法をコンピュータに実行させるためのプログラムである。
 これにより、コンピュータを用いて、上記の推定方法と同様の効果を奏することができる。
 なお、これらの包括的又は具体的な態様は、システム、方法、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM(Compact Disc Read Only memory)などの記録媒体で実現されてもよく、システム、方法、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、本開示の実施の形態について図面を参照しながら具体的に説明する。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 また、本開示において、平行及び垂直などの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値は、厳格な意味のみを表すのではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する。
 (実施の形態)
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 [1.概要]
 まず、実施の形態における推定システムの概要について説明する。図1は、実施の形態における推定システム200の機能構成の一例を示すブロック図である。
 推定システム200は、作業員の作業を推定するシステムである。推定システム200は、例えば、収音装置10により収音された作業に付随する作業音を取得し、学習済みの第1モデル132(以下、単に、第1モデル132ともいう)に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定するシステムである。
 推定システム200は、例えば、推定装置100で推定された推定結果を情報端末50の表示部に表示してユーザに提示してもよい。これにより、ユーザは、推定結果を参照して、透明物体を扱う作業及び非透明物体を扱う作業に要した時間を把握することができる、また、ユーザは、推定結果を参照して、作業員の作業計画を立てることができるため、作業空間80における作業の効率を高めることが可能となる。
 作業に付随する作業音は、作業に伴い発生する音を含む。作業音は、例えば、作業員が扱う物体を移動させたり、変形させたりする際に発生する音である。作業は、例えば、部品のピッキング、清掃作業、検品、又は、梱包などである。作業空間80は、例えば、製造工場又は物流倉庫などにおいて作業員が作業を行う空間をいう。
 また、透明物体は、透明性が高い物体であり、例えば、合成樹脂又はガラスなどの透明性の高い材料で構成される。透明性が高いとは、例えば、当該物体がシート状である場合、又は、シート状のもので構成されている場合、シートのヘーズが0.5%未満であることをいい、当該物体が平板状もしくはブロック状である場合、又は、平板状もしくはブロック状のもので構成されている場合、光の屈折率が1.30以上1.70以下であることをいう。透明物体は、例えば、容器、袋、緩衝材、又は、部品などである。
 合成樹脂としては、例えば、ポリ塩化ビニル樹脂などのビニル樹脂、ポリカーボネート樹脂、ポリエステル樹脂、ポリエチレンナフタレート樹脂、ポリエチレン樹脂、ポリプロピレン樹脂、ポリイミド樹脂、ポリスチレン樹脂、ウレタン樹脂、アクリル樹脂、フッ素樹脂などであってもよい。なお、透明性が高い物体を構成する材料は、上記の例に限られず、例えば、微細繊維状セルロースなどの天然ポリマーを含んでもよい。
 なお、推定システム200は、撮像装置20により撮像された作業を行う作業員が映る画像のデータを取得し、取得された画像のデータと作業音のデータとを第1モデル132に入力することで、作業員が透明物体を扱う作業をしているか否かを推定してもよいし、学習済みの第2モデル133(以下、単に、第2モデル133ともいう)に画像のデータを入力して得られる推定結果と、第1モデル132に作業音のデータを入力して得られる推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定してもよい。画像のデータは、作業音のデータに対応している。
 [2.構成]
 続いて、実施の形態における推定システム200の構成について図1を参照しながら説明する。推定システム200は、例えば、収音装置10と、撮像装置20と、情報端末50と、推定装置100とを備える。収音装置10及び撮像装置20は、作業員が作業を行う空間(作業空間80)に設置されており、情報端末50及び推定装置100と通信を介して接続されている。なお、図1に示される推定システム200の構成は、あくまでも一例であって、この例に限定されない。
 [収音装置10]
 収音装置10は、例えば、作業員の作業に付随する作業音を収音する。収音装置10は、例えば、作業空間80に設置されている。収音装置10は、可聴帯域から非可聴帯域までの音を収音可能である。可聴帯域は、人の耳で知覚できる周波数帯域であり、非可聴帯域は、人の耳で知覚できない周波数帯域である。非可聴帯域の音は、例えば、20kHz以上の周波数帯域の音である。収音装置10は、より具体的には、マイクロフォンであり、例えば、(Micro Electro Mechanical Systems)マイクロフォンであってもよいし、レーザマイクロフォンであってもよい。
 収音装置10は、例えば、レーザマイクロフォンである場合、通常のマイクロフォンに比べてより広帯域の音を収音することが可能である。また、レーザマイクロフォンは、通常のマイクロフォンのように振動板を有しないため、電磁波、高温、又は、高熱などの環境下でも収音することが可能である。
 図1では、推定システム200は、収音装置10を1つ備える例を示しているが、収音装置10を2つ以上備えてもよい。また、収音装置10は、指向性のマイクロフォンであってもよい。これにより、収音装置10は、周囲の雑音などのノイズとなる音を収音しにくくなるため、作業音を高感度に収音することができる。
 収音装置10は、収音した音(作業音)を電気信号に変換して、推定装置100へ出力する。なお、収音装置10は、収音した作業音のデータにタイムスタンプと、自身の識別番号を付して、推定装置100へ出力してもよい。
 [撮像装置20]
 撮像装置20は、例えば、作業を行う作業員が映る画像を撮像する。当該画像のデータは、収音装置10により収音された作業音のデータと対応している。つまり、撮像装置20は、収音装置10と連動して動作しており、例えば、取得したデータ(作業音のデータ及び画像のデータ)にタイムスタンプを付すことにより、作業音のデータと画像のデータとを対応づけてもよい。このとき、例えば、撮像装置20は、自身の識別番号を画像データに付してもよい。撮像装置20は、例えば、作業空間80に設置されている。撮像装置20は、例えば、RGBカメラであるが、距離データを含んでもよい。
 撮像装置20は、撮像した画像のデータを推定装置100へ出力する。
 [情報端末50]
 情報端末50は、ユーザが使用する情報端末であり、例えば、パーソナルコンピュータ、又は、タブレット端末などである。情報端末50は、推定装置100で推定された推定結果を表示部に表示する。また、情報端末50は、ユーザにより入力された指示を受け付けて、当該指示を収音装置10、撮像装置20、及び、推定装置100へ送信する。
 [推定装置100]
 推定装置100は、作業員の作業を推定する装置である。推定装置100は、例えば、収音装置10により収音された作業に付随する作業音のデータを取得して、学習済みの第1モデル132に当該作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。
 例えば、図1に示されるように、推定装置100は、通信部110と、情報処理部120と、記憶部130と、モデル生成部140と、入力受付部150とを備える。推定装置100は、例えば、サーバ装置である。なお、図1の例では、推定装置100は、第2モデル133を備えるが、必ずしも第2モデル133を備える必要はない。以下、推定装置100の各構成について説明する。
 [通信部110]
 通信部110は、推定装置100が収音装置10及び撮像装置20と通信を行うための通信回路(通信モジュール)である。通信部110は、広域通信ネットワークを介して通信を行うための通信回路(通信モジュール)を備えるが、局所通信ネットワークを介して通信を行うための通信回路(通信モジュール)を備えてもよい。通信部110は、例えば、無線通信を行う無線通信回路であるが、有線通信を行う有線通信回路であってもよい。なお、通信部110が行う通信の通信規格については特に限定されない。
 [情報処理部120]
 情報処理部120は、推定装置100に関する各種情報処理を行う。より具体的には、例えば、情報処理部120は、収音装置10により収音された作業音のデータ(例えば、作業音の電気信号)を取得して、作業員が透明物体を扱う作業をしているか否かの推定に関する各種情報処理を行う。また、例えば、情報処理部120は、撮像装置20により撮像された、作業を行う作業員が映る画像のデータを取得して、作業員が透明物体を扱う作業をしているか否かの推定に関する各種情報処理を行ってもよい。情報処理部120は、作業音のデータを用いて作業の推定を行ってもよいし、作業音のデータと画像のデータとを用いて作業の推定を行ってもよい。情報処理部120は、具体的には、取得部121と、推定部122とを備える。取得部121、及び、推定部122の機能は、情報処理部120を構成するプロセッサ又はマイクロコンピュータが記憶部130に記憶されたコンピュータプログラムを実行することによって実現される。
 [取得部121]
 取得部121は、例えば、収音装置10により収音された作業音のデータを取得する。作業音のデータは、作業員の作業に付随する音であり、例えば、作業員による作業に伴って発生する音である。また、取得部121は、例えば、撮像装置20により撮像された、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得する。作業音のデータは、収音装置10により収音された作業音の電気信号をフーリエ変換して作成されたスペクトログラムの画像であってもよいし、時系列の数値データであってもよい。
 [推定部122]
 推定部122は、取得部121により作業音のデータが取得されると、作業音のデータから作業員が透明物体を扱う作業をしているか否かを推定する。推定部122は、例えば、学習済みの第1モデル132(以下、第1モデル132という)に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。具体的には、例えば、推定部122は、第1モデル132から出力された作業音の特徴量と、予め記憶部130(例えば、記憶部130内の特徴量データベース131)に保存された透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。より具体的には、例えば、推定部122は、第1モデル132に作業音のデータを入力し、第1モデル132により抽出された透明物体を扱う作業の作業音の特徴量と、予め記憶部130に保存された透明物体を扱う作業の作業音の特徴量との類似度を算出し、算出された類似度が所定値(つまり、閾値)以上である場合、作業員が透明物体を扱う作業をしていると推定してもよい。なお、この例に限らず、推定部122は、作業音のデータから作業員が透明物体を扱う作業をしているか否かの推定結果を直接出力するモデルを用いてもよい。
 また、推定部122は、取得部121により、作業音のデータに対応した、作業を行う作業員が映る画像のデータが取得されると、作業音のデータ及び画像のデータから作業員が透明物体を扱う作業をしているか否かを推定してもよい。具体的には、例えば、推定部122は、作業音のデータと、作業音のデータに対応した、作業を行う作業員が映る画像のデータとを第1モデル132に入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。第1モデル132の詳細については、後述する。
 また、例えば、推定装置100が学習済みの第2モデル133を備える場合、推定部122は、取得部121により上記の画像のデータが取得されると、第2モデル133に当該画像のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。このとき、推定部122は、取得部121により取得された、当該画像のデータに映る作業員が行う作業の作業音のデータを、第1モデル132に入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。そして、推定部122は、第2モデル133を用いて画像のデータから推定された推定結果と、第1モデル132を用いて作業音のデータから推定された推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。
 また、推定部122は、例えば、収音装置10により収音された作業音が透明物体を扱う作業の作業音であると誤推定されうる作業音であるか否かを判定してもよい。具体的には、推定部122は、例えば、透明物体と異なる非透明物体を扱う作業の作業音のデータを第1モデル132に入力して得られる非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度が所定値(いわゆる、閾値)を上回る場合、当該非透明物体を扱う作業の作業音を、推定部122により透明物体を扱う作業の作業音と誤推定されうる作業音であると判定する。そして、推定部122は、誤推定されうる作業音と判定された作業音の特徴量を記憶部130の特徴量データベース131(特徴量DB)に保存する。
 なお、特徴量データベース131には、予め保存された透明物体を扱う作業の作業音の特徴量が保存されていてもよい。特徴量データベース131については、後述する。
 [記憶部130]
 記憶部130は、情報処理部120が各種情報処理を実行するための専用のアプリケーションプログラムなどが記憶される記憶装置である。例えば、記憶部130には、特徴量データベース131と、第1モデル132と、第2モデル133とが格納されている。また、記憶部130は、例えば、HDD(Hard Disk Drive)によって実現されるが、半導体メモリによって実現されてもよい。
 特徴量データベース131は、予め抽出された作業音の特徴量を格納する。この特徴量は、埋め込み(例えば、テンソル、行列など)、埋め込みベクトル又は分散表現などとして、数値又は数値の組み合わせで表現されてもよい。例えば、特徴量データベース131には、透明物体を扱う作業に付随する作業音の特徴量、及び、作業員が透明物体を扱う作業をしていると誤推定されうる作業音の特徴量が格納されてもよい。また、特徴量データベース131は、予め抽出された画像の特徴量を格納してもよい。例えば、特徴量データベース131は、透明物体を扱う作業を行う作業員が映る画像の特徴量(具体的には、画像に映る透明物体を示す特徴量)を格納してもよい。
 第1モデル132は、例えば、モデル生成部140により生成された学習済みのモデルである。第1モデル132は、例えば、作業音のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力する。より具体的には、第1モデル132は、例えば、入力された作業音データの特徴量を抽出し、抽出された特徴量と、予め記憶部130に保存された、透明物体を扱う作業の作業音の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定する。また、例えば、第1モデル132は、さらに、作業音のデータに対応した、作業を行う作業員が映る画像のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力してもよい。より具体的には、第1モデル132は、例えば、入力された画像データの特徴量を抽出し、抽出された特徴量と、予め記憶部130に保存された、透明物体を扱う作業を行う作業員が映る画像の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定してもよい。
 第2モデル133は、モデル生成部140により生成された学習済みのモデルである。第2モデル133は、例えば、作業音のデータに対応した、作業を行う作業員が映る画像のデータを入力とし、作業員が透明物体を扱う仕事をしているか否かを出力する。より具体的には、第2モデル133は、例えば、入力された画像データの特徴量を抽出し、抽出された特徴量と、予め記憶部130に保存された、透明物体を扱う作業を行う作業員が映る画像の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定してもよい。
 なお、第1モデル132及び第2モデル133は、入力データの特徴量を抽出して、抽出された特徴量を出力してもよい。
 第1モデル132及び第2モデル133は、具体的には、ニューラルネットワークモデルであり、例えば、畳み込みニューラルネットワーク(CNN)、再起型ニューラルネットワーク(RNN)又はLSTM(Long-Short Term Memory)であってもよい。
 [モデル生成部140]
 モデル生成部140は、例えば、教師データを用いて機械学習することにより第1モデル132及び第2モデル133を生成する。例えば、モデル生成部140は、機械学習により、作業音のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力する音識別モデル(以下、音響サブネットワークともいう)を生成する。また、例えば、モデル生成部140は、機械学習により、さらに、作業音のデータに対応する、作業を行う作業員が映る画像のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力する画像識別モデル(以下、映像サブネットワークともいう)を生成してもよい。第1モデル132は、例えば、音識別モデルであってもよいし、音識別モデルと画像識別モデルとを含むモデルであってもよい。第1モデル132に入力される作業音のデータは、例えば、スペクトログラムの画像であってもよいし、時系列の数値データであってもよい。作業音のデータは、非可聴帯域の音のデータを含んでもよい。
 また、モデル生成部140は、機械学習により、画像のデータを入力とし、画像に映る透明物体を示す特徴量を出力する画像識別モデル(例えば、第2モデル133)を生成してもよい。
 上述したように、音識別モデルは、例えば、入力された作業音のデータの特徴量を抽出し、抽出された特徴量と、予め記憶部130に保存された、透明物体を扱う作業の作業音の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明作業をしていると推定する。また、画像識別モデルは、例えば、入力された画像のデータの特徴量を抽出し、抽出された特徴量と、予め記憶部130に保存された透明物体を扱う作業を行う作業員が映る画像の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定する。なお、音識別モデルと画像識別モデルとを含むモデルは、これらの2つのモデルを用いた推定結果に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。
 モデル生成部140は、学習済みのモデルを記憶部130に格納することで、第1モデル132及び第2モデル133を更新してもよい。モデル生成部140は、例えば、プロセッサが記憶部130に記憶されているプログラムを実行することで実現される。
 なお、第1モデル132及び第2モデル133は、入力データの特徴量を抽出して、抽出された特徴量を出力してもよい。
 [入力受付部150]
 入力受付部150は、推定装置100を使用するユーザによる操作入力を受け付ける入力インタフェースである。入力受付部150は、具体的には、タッチパネルディスプレイなどによって実現される。例えば、入力受付部150がタッチパネルディスプレイを搭載している場合は、タッチパネルディスプレイが表示部(不図示)及び入力受付部150として機能する。なお、入力受付部150は、タッチパネルディスプレイに限られず、例えば、キーボード、ポインティングデバイス(例えば、タッチペンもしくはマウス)、又は、ハードウェアボタンなどであってもよい。また、入力受付部150は、音声による入力を受け付ける場合、マイクロフォンであってもよい。
 [3.動作例]
 続いて、実施の形態における推定システム200の動作例について説明する。
 [動作例1]
 まず、実施の形態における推定システム200の動作例1について図2を参照しながら具体的に説明する。図2は、実施の形態における推定システム200の動作例1を示すフローチャートである。
 図2に示されていないが、推定システム200では、例えば、収音装置10は、作業員の作業に付随する作業音を収音し、収音した作業音のデータを推定装置100へ出力する。
 推定装置100の取得部121は、収音装置10により収音された作業音のデータを取得し(S01)、取得した作業音のデータを推定部122へ出力する。
 次に、推定装置100の推定部122は、学習済みの第1モデル132に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する(S02)。
 以下、ステップS02についてより具体的に説明する。図3は、図2のステップS02におけるフローの一例を模式的に示す図である。例えば、推定部122は、取得部121から取得した作業時の音データ(いわゆる、作業音のデータ)を所定の時間毎(例えば、2秒)のデータに分割し、分割したデータを音識別モデル(例えば、第1モデル132)に入力する。このとき、図3に示されるように、作業音のデータは、音識別モデルに入力される前に、標準化などの前処理を行ってもよい。音識別モデルは、入力された作業音のデータから透明物体を扱う作業の作業音の特徴量を抽出する。ここでは、音識別モデルで抽出された特徴量を、評価対象の特徴量、つまり、評価音特徴量という。
 次に、推定部122は、音識別モデルから出力された評価音特徴量と、記憶部130に事前に登録された、透明物体を扱う作業の作業音(ここでは、目的音という)の特徴量である登録特徴量と、がどのくらい類似しているか否かを示す類似度を計算し、計算された類似度を出力する。
 図4は、収音された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度のグラフを示す図である。図4では、撮像装置20で撮像された画像をユーザが目視で確認し、作業員が透明物体を扱う作業をしている区間(ここでは、作業区間という)と、作業員が透明物体を扱う作業をしていない区間(ここでは、非作業区間という)とを区別した結果も記載している。また、図中の破線は、類似度の閾値を示している。例えば、音識別モデルで抽出された作業音の特徴量の、事前に登録された透明物体を扱う作業の作業音の特徴量に対する類似度が閾値(ここでは、30)以上である場合作業員が透明物体を扱う作業をしていると推定される。図4に示されるように、作業区間と非作業区間との差は、類似度のスコアに表れている。例えば、透明物体(例えば、ビニール袋、緩衝材など)を扱う作業で発生する音が収音されると、類似度のスコアが上昇している。一方、例えば、作業台の上に透明物体が置かれているが作業員が透明物体に触れていない区間では、透明物体から発せられる音が収音されないため、類似度のスコアが算出されない。
 [動作例1の検証例1]
 続いて、動作例1による作業の推定精度を検証した検証例1について説明する。検証例1では、1時間分の作業音を時系列に分析した。図5は、検証例1において1時間分の作業音を時系列に分析した結果を示す図である。検証例1では、透明物体は、透明のビニール袋(以下、透明袋という)であり、作業員の作業に付随する作業音のデータを第1モデル132(例えば、図3の音識別モデル)に入力して得られる作業音の特徴量と、事前に登録された、透明袋を扱う作業に付随する作業音の特徴量との類似度を算出した。なお、検証例1で収音される作業音のデータは、可聴帯域の音のデータであるが、非可聴帯域の音のデータを含んでもよい。
 図4と同様に、ユーザが画像を目視で確認して透明袋を扱う作業(以下、袋作業ともいう)を行っていることを示す正解ラベルを手動で付与した。図5の例では、作業員が透明袋に触れていないが透明袋が作業台の上に存在する状態と、作業員が商品を袋詰めしている状態とを、「袋作業」として正解ラベルを付与した。一方、作業員が書類を記載している状態、開梱作業などは、透明袋を扱う作業ではない(つまり、非袋作業)とした。
 また、図5に示される画像の特徴量の類似度は、画像識別モデルを用いて抽出された画像に映る透明袋を示す特徴量と、予め登録された画像に映る透明袋を示す特徴量との類似度を示している。
 図5に示されるように、透明袋から発せられる音以外の音が発生した場合に、類似度のスコアが上昇した。検証例1では、音識別モデルによる作業の識別精度は、正答率が28%であり、誤答率が5%であった。
 なお、動作例1の検証例1では、類似度を算出して透明物体を推定する第1モデル132の一例と、その動作のフローの一例を説明したが、この例に限られない。例えば、第1モデル132は、作業音のデータを入力して透明物体を扱う作業であるか否かを直接推定する(言い換えると、出力する)モデルであってもよい。以下に、第1モデル132の他の例と、その動作のフローの一例を説明する。
 [動作例1の検証例2]
 続いて、動作例1の検証例2について説明する。動作例1の検証例2では、第1モデル132は、作業音のデータを入力して透明物体を扱う作業であるか否かの推定結果を直接出力するモデルである例を説明する。図6は、検証例2で実行される袋作業の推定方法を説明するための図である。図6に示されるニューラルネットワークは、第1モデル132の一例である。
 まず、袋作業の推定に使用されるニューラルネットワークの学習について説明する。
 モデル生成部140は、学習データとして、作業音のスペクトログラムの画像又は作業音に対応する(つまり、作業音が収音された時刻と同じ時刻に撮像された)作業員が映る画像データを使用する。また、モデル生成部140は、教師データとして、学習データに、作業員が袋作業をしているか否か(言い換えると、袋作業の有無)の2分類、又は、袋作業有りの場合にその袋の種類(例えば、大袋、小袋など)を含む3分類のラベルを付与したデータを使用する。モデル生成部140は、学習により、ニューラルネットワークのパラメータを決定する。
 次に、推定部122は、学習時に決定されたパラメータを使用して、ニューラルネットワークによる推論を行う。例えば、推定部122は、作業分類をしたいデータ(作業音のデータ又は画像のデータ)をニューラルネットワークに入力し、袋作業の有無の2分類、又は、袋作業有りの場合に袋の種類で分類する3分類の推定結果を出力する。
 図7は、図6に示されるニューラルネットワークのアーキテクチャの一例を示す図である。図7の例では、ニューラルネットワークは、入力データが画像であるため、畳み込み層を有するが、例えば、入力データが時系列の数値データである場合は、畳み込み層を有しなくてもよい。なお、図7の例は、あくまでも一例であり、これに限定されない。
 [2分類の推定について]
 まずは、袋作業の有無の2分類の推定について説明する。図8は、2分類の推定を行う場合の正答率の算出方法を示す図である。ニューラルネットワークは、教師データとして、袋作業有り、及び、袋作業無しのラベルを付したデータを使用して学習された。正答率(%)は、図8に示される計算式で算出された。推定結果及び正答率を図9に示す。
 図9は、動作例1の検証例2における2分類の推定結果及び正答率を示す図である。図9の(a)は、ニューラルネットワークに入力される作業音のデータが可聴帯域の音のデータである場合の2分類の推定結果及び正答率を示しており、図9の(b)は、作業音のデータが非可聴帯域の音を含む広帯域音のデータである場合の2分類の推定結果及び正答率を示している。袋作業1は、縦及び横がそれぞれ約10cmのポリエチレン製の袋を扱う作業であり、袋作業2は、縦及び横がそれぞれ約30cmのポリエチレン製の袋を扱う作業である。図19の(a)及び図9の(b)に示されるように、入力データとして非可聴帯域の音を含む広帯域の音の作業音のデータを使用すると、可聴帯域の音の作業音のデータを使用するよりも、正答率が高かった。したがって、作業音のデータが可聴帯域の音のデータよりも広帯域の音のデータである方が、作業員の作業をより精度良く推定できることが確認された。
 [3分類の推定について]
 続いて、袋作業有りの場合に袋の種類で分類する3分類の推定について説明する。図10は、3分類の推定を行う場合の正答率の算出方法を示す図である。ニューラルネットワークは、教師データとして、袋作業有りの場合に袋の種類を示すラベルと、袋作業無しのラベルとを付したデータを使用して学習された。正答率(%)は、図10に示される計算式で算出された。推定結果及び正答率を図11に示す。
 図11は、動作例1の検証例2における3分類の推定結果及び正答率を示す図である。図11の(a)は、ニューラルネットワークに入力される作業音のデータが可聴帯域の音のデータである場合の3分類の推定結果及び正答率を示しており、図11の(b)は、作業音のデータが非可聴帯域の音を含む広帯域音のデータである場合の推定結果及び正答率を示している。図11の(a)及び図11の(b)に示されるように、入力データとして非可聴帯域の音を含む広帯域の音の作業音のデータを使用すると、可聴帯域の音の作業音のデータを使用するよりも、正答率が高かった。したがって、作業音のデータが可聴帯域の音のデータよりも広帯域の音のデータである方が、作業員の作業をより精度良く推定できることが確認された。
 [入力データの組み合わせによる2分類の推定について]
 続いて、入力データの組み合わせによる袋作業の有無の2分類の推定について説明する。図12は、入力データの組み合わせによる2分類の推定方法及び正答率の算出方法を示す図である。図12の(a)は、推定結果の分類方法を示しており、図12の(b)は推定結果とラベルとの対応関係を示している。図12の(a)では、分類Aは、入力データが(i)画像データである場合、及び、(ii)画像のデータ+広帯域音のデータである場合の少なくともいずれかの場合に、袋作業有りのラベル通りに作業を推定できたことを示す。また、分類Dは、入力データが上記(i)及び(ii)の少なくともいずれかの場合に、袋作業無しのラベル通りに作業を推定できたことを示す。正答率(%)は、図12の(b)に示される計算式で算出された。推定結果及び正答率を図13に示す。
 図13は、動作例1の検証例2における入力データの組み合わせによる2分類の推定結果及び正答率を示す図である。図13の(a)は、ニューラルネットワークに入力される入力データが画像のデータである場合の2分類の推定結果及び正答率を示しており、図13の(b)は、入力データが画像のデータ及び広帯域の作業音のデータである場合の推定結果及び正答率を示している。図13の(a)及び図13の(b)に示されるように、入力データとして広帯域の作業音のデータを使用すると、画像のデータのみを使用する場合に比べて、正答率が高かった。したがって、ニューラルネットワークに入力される入力データが画像のデータのみよりも、画像データ及び広帯域の作業音のデータである方が、作業員の作業をより精度良く推定できることが確認された。
 [動作例1の検証例3]
 続いて、動作例1の検証例3について具体的に説明する。検証例1では、作業の推定に、可聴帯域の作業音を使用したが、検証例3では、非可聴帯域の音を含む作業音のデータを使用した点で、検証例1と異なる。さらに、検証例3では、非可聴帯域の音を含む作業音のデータを使用して動作例1に記載の推定方法を実施した場合(本方法という)の推定精度と、画像AI(言い換えると、映像AI)を用いた推定方法を実施した場合の推定精度とを比較した。なお、画像AIは、一般的な画像AIを用いた。結果を図14に示す。
 図14は、画像AIを用いた推定方法の推定精度と本方法の推定精度との比較結果を示す図である。図14では、ラベルの欄の「1」は、透明袋を扱う作業を行っていること(いわゆる、袋作業)を示すラベル(いわゆる、正解ラベル)を付したことを示し、「0」は、正解ラベルを付していない(つまり、非袋作業)ことを示している。また、画像AI及び本方法の欄の「1」は、袋作業を行っていると推定したことを示し、「0」は袋作業を行っていないと推定したことを示している。ここでは、ラベルの欄に記載の「0」及び「1」と、画像AI及び本方法による推定結果とが一致しているか否かを確認した。その結果、画像AIの推定精度は、0%であり、本方法の推定精度は、72%であった。
 検証例3の結果、非可聴帯域の音を含む作業音のデータを使用して作業の推定を行うことで、可聴帯域の音に比べて、透明物体を扱う作業の推定精度が向上することが確認された。また、画像AI(つまり、画像識別モデル)と音識別モデルとを併用することで、画像AIのみを用いて作業を推定した場合よりも推定精度が向上することが確認された。
 [動作例2]
 続いて、実施の形態における推定システム200の動作例2について図15、図16及び、図17を参照しながら具体的に説明する。図15は、作業音のデータを用いた推定結果と画像のデータを用いた推定結果との違いを説明するための図である。図16は、実施の形態における推定システム200の動作例2のフローの概要を説明するための図である。図17は、実施の形態における推定システム200の動作例2を示すフローチャートである。動作例2では、動作例1と異なる点を中心に説明し、共通のステップについては説明を省略又は簡略化する。
 まず、動作例2に至る知見について説明する。例えば、図15に示されるように、ユーザが画像で作業員の作業を目視で確認して袋作業有りの区間(袋作業区間)を判定し、目視による判定結果と、作業音による袋作業の推定結果(作業音の袋作業音に対する類似度)と、画像による袋作業の推定結果との違いを確認した。袋作業の回数については、画像データのみを用いて作業を推定した場合でも、カウントできている。しかしながら、例えば、音の類似度のスコアの方が画像による推定よりも先に反応(上昇)している。また、例えば、透明袋が書類などで隠れて画像に映らないために画像のデータを用いても袋作業を推定できなかったが、透明袋を扱う際に発する音(透明袋音)がするため音の類似度のスコアが反応(上昇)している。
 このように、画像による袋作業の推定では、画像に透明袋が映らない場合、作業員が袋作業をしていると推定されないことがある。そのため、画像による袋作業の推定と作業音による袋作業の推定とを組み合わせて袋作業を推定することで、より精度良く袋作業を推定することができるようになる。
 次に、動作例2のフローの概要を説明する。例えば、図16に示されるように、動作例2では、推定装置100の取得部121は、作業音のデータに対応する画像のデータを取得すると、画像のデータを入力とする推定システム200へ画像のデータを入力する。例えば、当該推定システム200は、図3に示されるように、入力された画像データのサイズの調整又は標準化などの前処理を行い、ニューラルネットワーク(例えば、画像識別モデル)に入力して出力された画像の特徴量に基づいて、画像に映る透明袋を示す特徴量との類似度を算出する。また、動作例2では、推定装置100の取得部121は、作業音のデータを取得すると、作業音のデータを入力とする推定システム200へ作業音のデータを入力する。例えば、当該システムは、図3に示されるように、入力された作業音のデータの標準化などの前処理を行い、ニューラルネットワーク(例えば、音識別モデル)に入力して出力された作業音の特徴量に基づいて、袋作業音の特徴量との類似度を算出する。そして、これらの推定システム200による推定結果を組み合わせることにより、推定結果を出力する。
 続いて、図17を参照しながら動作例2について説明する。図17に示されていないが、収音装置10は、作業員の作業に付随する作業音を収音し、収音された作業音のデータを推定装置100へ出力する。また、撮像装置20は、収音装置10により収音された作業音に対応する(つまり、同じ時刻に撮像された)、作業を行う作業員が映る画像を撮像し、撮像された画像のデータを推定装置100へ出力する。なお、画像には、作業員が透明物体を扱う作業をしているときは、画像に作業員と共に透明物体(ここでは、透明袋)が映っている。
 次に、推定装置100の取得部121は、作業員の作業に付随する作業音のデータを取得すると(S01)、取得された作業音のデータを推定部122へ出力する。次に、推定部122は、第1モデル132に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する(S02)。具体的には、例えば、推定部122は、第1モデル132により抽出された特徴量と、予め記憶部130に保存された透明物体を扱う作業の作業音の特徴量との類似度が所定値(いわゆる、閾値)以上である場合、作業員が透明物体を扱う作業をしていると推定する。
 また、推定装置100の取得部121は、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得すると(S03)、取得された画像のデータを推定部122へ出力する。次に、推定部122は、第2モデル133に画像のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する(S04)。具体的には、例えば、推定部122は、第2モデル133より抽出された透明作業を行う作業員が映る画像の特徴量と、予め記憶部130に保存された透明物体を扱う作業員が映る画像の特徴量との類似度が所定値(いわゆる、閾値)以上である場合、作業員が透明物体を扱う仕事をしていると推定する。
 次に、推定部122は、第1モデル132を用いて作業音のデータから推定した推定結果及び第2モデル133を用いて画像のデータから推定した推定結果に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する(S05)。具体的には、例えば、推定部122は、第1モデル132により抽出された作業音の特徴量と、予め記憶部130に保存された透明物体を扱う作業の作業音の特徴量との類似度が所定値(閾値)以上であり、かつ、第2モデル133により抽出された画像の特徴量と、予め記憶部130に保存された透明物体を扱う作業員が映る画像の特徴量との類似度が所定値(閾値)以上である場合に、作業員が透明物体を扱う作業をしていると推定する。
 [動作例2の変形例1]
 動作例2では、第1モデル132に作業音のデータを入力して得られる特徴量と、第2モデル133に画像のデータを入力して得らえる特徴量とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する例を説明した。動作例2の変形例1では、動作例1の検証例2で説明した透明物体を扱う作業であるか否かを直接推定する第1モデル132の例により、第1モデル132に作業音のデータ及び画像のデータを入力して得られる作業音の特徴量及び画像の特徴量に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。
 図18は、実施の形態における推定システム200の動作例2の変形例1を示すフローチャートである。図18に示されるように、推定装置100の取得部121は、収音装置10により収音された作業音のデータを取得し(S01)、取得したデータを推定部122へ出力する。また、推定装置100の取得部121は、撮像装置20により撮像された作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得し(S03)、取得したデータを推定部122へ出力する。
 次に、推定部122は、作業音のデータと画像のデータとを第1モデル132に入力して得られる作業音の特徴量及び画像の特徴量に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する(S06)。
 [動作例2の変形例1のフローを実行する推定部122の構成例1]
 続いて、動作例2の変形例1のフローを実行する推定部122の構成例1について説明する。図19は、動作例2の変形例1のフローを実行する推定部122の構成例1を模式的に示す図である。図20は、構成例1により実行される袋作業の推定方法を説明するための図である。
 図19に示されるように、推定部122は、埋め込みベクトル作成部と、作業分類部と、袋作業の特定部とを備える。埋め込みベクトル作成部は、画像のデータを入力して画像の特徴量を抽出する画像サブネットワークと、音(ここでは、作業音)のデータを入力して音特徴量(ここでは、作業音の特徴量)を抽出する音サブネットワークと、フュージョン層とを備える。
 図19に示されるように、ニューラルネットワークは、例えば、画像サブネットワークと音サブネットワークとを備えてもよい。このようなニューラルネットワークは、第1モデル132であってもよい。また、音サブネットワークが第1モデル132であってもよいし、画像サブネットワークが第2モデル133であってもよい。
 図20に示されるように、モデル生成部140は、学習データとして、画像のデータと作業音のデータとを使用し、教師データとして、学習データの類似の有無をラベル付けしたデータを使用する。モデル生成部140は、学習により、ニューラルネットワークのパラメータを決定する。作業音のデータは、可聴帯域の音又は非可聴帯域の音を含む広帯域の音のデータである。作業音のデータは、例えば、257×199画素のスペクトログラムであってもよい。画像のデータは、例えば、224×224画素のデータであってもよい。なお、モデル生成部140は、フュージョン層に転移学習を行ってもよい。
 次に、推定部122は、学習時に決定されたパラメータを使用したフュージョン層により埋め込みベクトルを作成する。次に、推定部122は、埋め込みベクトルを作業分類部に入力し、Softmax層から出力された確率値に基づいて袋作業を特定する。
 [動作例2の変形例1のフローを実行する推定部122の構成例2]
 続いて、動作例2の変形例1のフローを実行する推定部122の構成例2について説明する。図21は、動作例2の変形例1のフローを実行する推定部122の構成例2を模式的に示す図である。構成例1では、作業分類部は分類ネットワークとSoftmax層とを備えたが、構成例2では、作業分類部は、対照学習ネットワークを備える。対照学習は、ラベル付けを行うことなく、データ同士を比較する仕組みを用いて、膨大なデータをそのまま学習できる自己教師あり学習の一つである。対照学習では、類似したデータは近くに、異なるデータは遠くになるように特徴量を学習する。
 [動作例2の変形例1のフローを実行する推定部122の構成例3]
 続いて、動作例2の変形例1のフローを実行する推定部122の構成例3について説明する。図22は、動作例2の変形例1のフローを実行する推定部122の構成例3を模式的に示す図である。構成例1及び構成例2では、分類ネットワークの前にフュージョン層が配置されていたが、構成例3では、分類ネットワークの後ろにフュージョン層が配置されている。
 [画像サブネットワーク及び音サブネットワークのアーキテクチャの例について]
 続いて、画像サブネットワーク及び音サブネットワークのアーキテクチャの例について説明する。図23は、画像サブネットワークのアーキテクチャの一例を示す図である。図24は、音サブネットワークのアーキテクチャの一例を示す図である。図23及び図24に示されるように、入力データである画像のデータ及び作業音のデータのサイズが異なる場合が多いため、画像サブネットワーク及び音サブネットワークの各層のサイズは同一でなくてもよいが、これらのサブネットワークの最終層のサイズが同一であればよい。
 [フュージョン層のアーキテクチャの例について]
 図25は、フュージョン層のアーキテクチャの一例を示す図である。図25に示されるように、画像サブネットワークから出力されたデータと、音サブネットワークから出力されたデータとが結合層に入力されて、学習時と推論時とで異なる出力が得られる。
 [分類ネットワークのアーキテクチャの例について]
 図26は、分類ネットワークのアーキテクチャの一例を示す図である。図26に示されるように、分類ネットワークの第一層のサイズは、例えば、画像サブネットワークの後ろに配置される場合は、画像サブネットワークの最終層から出力されたデータと同じサイズであり、音サブネットワークの後ろに配置される場合は、音サブネットワークの最終層から出力されたデータと同じサイズである。また、分類ネットワークの第一層のサイズは、例えば、分類ネットワークがフュージョン層の後ろに配置される場合、フュージョン層の最終層から出力されたデータと同じサイズである。
 [対象学習ネットワークのアーキテクチャの例について]
 図27は、対照学習ネットワークのアーキテクチャの一例を示す図である。図27に示されるように、対照学習ネットワークの第一層のサイズは、例えば、埋め込みベクトル作成部から出力される埋め込みベクトルのサイズと同一である。対照学習ネットワークは、転移学習として使用される。ただし、損失関数として、例えば下記式1を用いる。
Figure JPOXMLDOC01-appb-M000001
 ここで、sim(x,y)は、類似度を算出する関数であり、例えば、コサイン類似度が使用されてもよい。zi,zjは、対応する埋め込みベクトルであり、例えば、それぞれ、画像のデータ及び広帯域の作業音のデータの埋め込みベクトルが使用されてもよい。τは、調整パラメータである。
 上記式1の損失関数は、2つの埋め込みベクトルの類似度が大きい時は大きく、類似度が小さい時は小さくなる。
 [動作例2の変形例2のフローを実行する推定部122の構成例]
 図28は、動作例2の変形例2のフローを実行する推定部122の構成例を模式的に示す図である。動作例2の変形例2のフローについては、図18に記載の動作例2の変形例1のフローを参照しながら説明する。動作例2の変形例1では、画像のデータを取得して入力データとして使用したが、動作例2の変形例2では、図18のステップS03において、撮像装置20により撮像された画像のデータに代わり、測距センサなどにより取得された距離データを入力データとして使用してもよい。この場合、図28に示されるように、推定部122は、画像サブネットワークに代わり、距離サブネットワークを備える。なお、他の構成例は、図28の例に限られず、例えば、動作例2の変形例1の構成例2又は構成例3のように、フュージョン層の配置位置が変更されてもよいし、作業分類部が対照学習ネットワークを備えてもよい。
 [動作例3]
 続いて、実施の形態における推定システム200の動作例3について図29、図30A及び図30Bを参照しながら説明する。図29は、推定部122により作業員が透明物体を扱う作業をしていると誤推定されたときの作業音の例を示す図である。図30Aは、実施の形態における推定システム200の動作例3のフローチャートである。図30Bは、誤推定されうる作業音の特徴量を予め登録する動作の一例を示すフローチャートである。
 動作例3では、透明袋を扱う作業に付随する作業音を透明袋音といい、非透明袋を扱う(言い換えると、透明袋を扱わない)作業に付随する作業音を非透明袋音という。また、透明袋を扱う作業を袋作業という。
 まず、誤推定されうる作業音(以下、誤推定対象音ともいう)について図29を参照しながら説明する。図29の例では、類似度の閾値は、例えば、25であり、推定部122は、作業音の透明袋音に対する類似度が閾値以上である場合、作業員が透明袋を扱う作業(袋作業)をしていると推定する。このとき、ビニール袋を開く音、棚から袋を取り出す音など、透明袋を扱う作業に付随する作業音に基づいて作業員の作業を正確に推定している場合もあるが、袋作業をしていないにも拘らず袋作業をしていると誤推定される場合もある。例えば、箱をゴムで束ねる音、箱もしくは袋をカートの下段に収納する音、又は、移動中のバーコードスキャンの音などのように透明袋音以外の作業音(いわゆる非透明袋音)に基づいて、作業員が袋作業をしていると誤推定されている。
 このような誤推定を低減するために、推定部122は、非透明袋音の特徴量と、予め登録された透明袋音の特徴量との類似度を算出し、当該類似度が閾値を上回る場合、非透明袋音を誤推定対象音と判定し、記憶部130に保存する。動作例3では、推定部122は、予め登録された、誤推定されうる作業音(以下、誤推定対象音ともいう)の特徴量と、透明袋音の特徴量とを記憶部130から読み込み、作業音の特徴量とこれらの特徴量との類似度を比較して、作業員が袋作業をしているか否かを推定する。
 続いて、動作例3について図30Aを参照しながら説明する。図示されていないが、推定装置100の取得部121は、収音装置10により収音された作業音のデータを取得し、取得されたデータを推定部122へ出力する。
 推定部122は、取得した作業音のデータを音識別モデルに入力し(S11)、入力された作業音のデータから音声を検出し、入力特徴量を抽出する(S12)。
 次に、推定部122は、音識別モデルを用いて作業音(以下、入力音という)の特徴量(音特徴量)を抽出する(S13)。次に、推定部122は、記憶部130から透明袋音の特徴量と、誤推定対象音の特徴量とを読み込む(S14)。
 次に、推定部122は、類似度計算(S15)において、透明袋音と入力音の類似度、及び、誤推定対象音と入力音の類似度を算出する。
 次に、推定部122は、透明袋音と入力音の類似度が誤推定対象音と入力音の類似度を上回るか否かを判定し(S16)、上回ると判定した場合(S16でYes)、透明袋音と入力音の類似度が閾値を上回るか否かを判定する(S17)。推定部122は、透明袋音と入力音の類似度が閾値を上回ると判定した場合(S17でYes)、入力音が透明袋音であると判定する(S18)。これにより、推定部122は、入力音(作業音)の特徴量に基づいて、作業員が透明袋を扱う作業をしていると推定する。
 一方、推定部122は、ステップS16で透明袋音と入力音の類似度が誤推定対象音と入力音の類似度を上回らないと判定した場合(S16でNo)、入力音は透明袋音ではないと判定する(S19)。また、推定部122は、ステップS17で透明袋音と入力音の類似度が閾値を上回らないと判定した場合(S17でNo)、透明袋音ではないと判定する(S19)。これにより、推定部122は、入力音(作業音)の特徴量に基づいて、作業員が透明袋を扱わない作業をしていると推定する。
 続いて、動作例3で使用される誤推定対象音の特徴量を予め記憶部130に保存する動作例について図30Bを参照しながら説明する。図示されていないが、推定装置100の取得部121は、収音装置10により取得された作業音のデータを取得し、取得されたデータを推定部122へ出力する。このとき、取得部121により取得された作業音のデータは、透明袋を扱わない作業に付随する作業音である。
 次に、推定部122は、取得した作業音のデータを音識別モデルに入力し(S21)、入力された作業音のデータから音声を検出し、入力特徴量を抽出する(S22)。
 次に、推定部122は、音識別モデルを用いて作業音(以下、入力音という)の特徴量(音特徴量)を抽出する(S23)。次に、推定部122は、記憶部130から透明袋音の特徴量を読み込む(S24)。
 次に、推定部122は、類似度計算(S25)において、透明袋音と入力音の類似度を算出する。
 次に、推定部122は、透明袋音と入力音の類似度が閾値を上回るか否かを判定し(S26)、当該閾値を上回ると判定した場合(S26でYes)、当該入力音を誤推定対象音であると判定する(S27)。そして、推定部122は、収音された音(作業音)の特徴量を誤推定対象音の特徴量として記憶部130に保存する(S29)。一方、推定部122は、透明袋音と入力音の類似度が閾値を上回らないと判定した場合(S26でNo)、当該入力音を誤推定対象音ではないと判定する(S28)。
 [5.効果等]
 以上説明したように、本実施の形態に係る推定方法は、コンピュータ(例えば、推定装置100)による、作業員の作業を推定する推定方法であって、コンピュータは、収音された作業に付随する作業音のデータを取得し(図2のS01)、学習済みの第1モデル132に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する(図2のS02)。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第1モデル132を用いるため、透明物体を扱う作業を精度良く推定することができる。
 例えば、本実施の形態に係る推定方法では、コンピュータ(例えば、推定装置100)は、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得し(図17のS03)、学習済みの第2モデル133に画像のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定し(図17のS04)、第1モデル132を用いた推定結果及び第2モデル133を用いた推定結果に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する(図17のS05)。なお、第1モデル132を用いた推定結果は、第1モデル132により作業音のデータから推定された推定結果であり、第2モデル133を用いた推定結果は、第2モデル133により画像のデータから推定された推定結果である。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、第1モデル132により作業音のデータから推定された推定結果と、第2モデル133により画像のデータから推定された推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。そのため、推定方法を実行する装置は、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。
 例えば、本実施の形態に係る推定方法では、コンピュータ(例えば、推定装置100)は、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得し(図18のS03)、作業音のデータと画像のデータとを第1モデル132に入力することで、作業員が透明物体を扱う作業をしているか否かを推定する(S06)。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、作業音のデータ及び作業音に対応する画像のデータを入力とし、透明物体を扱う作業であるか否かを出力する第1モデル132を用いるため、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。
 例えば、本実施の形態に係る推定方法では、コンピュータ(例えば、推定装置100)は、第1モデル132から出力された作業音の特徴量と、予め記憶部130(例えば、図1の特徴量データベース131)に保存された透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、第1モデル132から出力された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定するため、透明物体を扱う作業を精度良く推定することができる。
 例えば、本実施の形態に係る推定方法では、コンピュータ(例えば、推定装置100)は、第1モデル132から出力された作業音の特徴量の、予め記憶部130(例えば、特徴量データベース131)に保存された透明物体を扱う作業の作業音の特徴量に対する類似度(言い換えると、第1類似度)と、予め記憶部130(例えば、特徴量データベース131)に保存された作業員が透明物体を扱う作業をしていると誤推定されうる作業音(例えば、図30Aの誤推定対象音)の特徴量に対する類似度(言い換えると、第2類似度)とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する(図30AのS16~S19)。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、第1モデル132から出力された作業音の特徴量と透明物体を扱う作業の作業音の特徴量と類似度(第1類似度)と、第1モデル132から出力された作業音の特徴量と誤推定されうる作業音の特徴量との類似度(第2類似度)とを比較することで、誤推定の発生を低減することができる。したがって、推定方法を実行する装置は、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。
 例えば、本実施の形態に係る推定方法では、コンピュータ(例えば、推定装置100)は、第1モデル132から出力された作業音の特徴量の、透明物体を扱う作業の作業音の特徴量に対する上記の類似度(上記の第1類似度)が、作業員が透明物体を扱う作業をしていると誤推定されうる作業音(図30Aの誤推定対象音)の特徴量に対する上記の類似度(上記の第2類似度)を上回る場合(図30AのS16でYes)、作業員が透明物体を扱う作業をしていると推定する。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。
 例えば、本実施の形態に係る推定方法では、コンピュータ(例えば、推定装置100)は、透明物体と異なる非透明物体を扱う作業の作業音のデータを第1モデル132に入力して得られる非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度(言い換えると、第3類似度)が閾値を上回る場合(図30BのS26でYes)、当該非透明物体を扱う作業の作業音を、透明物体を扱う作業の作業音と誤推定されうる作業音(いわゆる、誤推定対象音)であると判定し(図30BのS27)、非透明物体を扱う作業の作業音の特徴量を誤推定されうる作業音の特徴量として記憶部130(例えば、特徴量データベース131)に保存する(図30BのS29)。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度(第3類似度)に基づいて、当該非透明物体を扱う作業の作業音が透明物体を扱う作業をしていると誤推定されうる作業音であるか否かを精度良く判定することができる。そのため、推定方法を実行する装置は、誤推定される可能性が比較的高い作業音の特徴量を記憶部130に保存することができる。したがって、推定方法を実行する装置は、記憶部130に保存された誤推定され得る作業音の特徴量を用いることで、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。
 本実施の形態に係る推定方法では、作業音のデータは、非可聴帯域の音のデータを含んでもよい。
 これにより、推定方法を実行する装置(例えば、推定装置100)は、可聴帯域の音から非可聴帯域の音までを含む作業音のデータを用いて作業員が透明物体を扱う作業をしているか否かを推定する。このように、作業音のデータが非可聴帯域の音を含むことで、作業音のデータ中の誤推定の原因となる環境からの雑音が少なくなるため、推定方法を実行する装置は、透明物体を扱う作業の推定精度を高めることができる。さらに、推定方法を実行する装置は、可聴帯域の音のデータのみを用いる場合よりもより多くの情報に基づいて、作業員が透明物体を扱う作業をしているか否かを推定することができる。したがって、推定方法を実行する装置は、透明物体を扱う作業をより精度良く推定することができる。
 また、本実施の形態に係る推定装置100は、作業員の作業を推定する推定装置であって、収音された作業に付随する作業音のデータを取得する取得部121と、学習済みの第1モデル132に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する推定部122と、を備える。
 これにより、推定装置100は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第1モデル132を用いるため、透明物体を扱う作業を精度良く推定することができる。
 また、本実施の形態に係るプログラムは、上記の推定方法をコンピュータに実行させるためのプログラムである。
 これにより、コンピュータを用いて、上記の推定方法と同様の効果を奏することができる。
 (他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。
 図31は、他の実施の形態に係る推定システムの機能構成の一例を示すブロック図である。実施の形態に係る推定システム200は、推定装置100は、サーバ装置である例を説明したが、推定装置100はサーバ装置でなくてもよい。例えば、他の実施の形態に係る推定システム200aでは、推定装置100aは、パーソナルコンピュータなどの据え置き型のコンピュータ装置であってもよい。推定装置100aは、表示部160を備える点で、推定装置100と異なる。以下、異なる点のみ説明する。
 [表示部160]
 表示部160は、例えば、推定結果を表示する。表示部160は、例えば、文字などを含む画像情報を表示する表示装置であり、例えば、液晶(LC)パネル又は有機EL(Electro Luminescence)パネルなどを表示デバイスとして含むディスプレイである。
 なお、推定装置100aは、例えば、収音部と撮像部とを備えてもよく、作業空間80に1つ以上設置されてもよい。収音部と撮像部とを備えるとは、収音装置10及び撮像装置20と有線又は無線通信で接続される態様であってもよいし、収音装置10及び撮像装置20とを備える単一の装置であってもよい。そして、推定装置100aは、例えば、サーバ装置又はユーザの情報端末と通信接続されてもよい。この場合、推定装置100aは、所定期間(例えば、1日、数日、一週間など)、記憶部130に推定結果を保存して、サーバ装置又は情報端末に推定結果を出力してもよいし、推定の都度、推定結果を出力してもよい。サーバ装置は、クラウドサーバであってもよい。また、情報端末は、パーソナルコンピュータなどの据え置き型のコンピュータ装置であってもよく、タブレット端末などの携帯型のコンピュータ装置であってもよい。
 また、例えば、上記の実施の形態では、推定システム200、200aのそれぞれは、複数の装置によって実現されているが、単一の装置として実現されてもよい。また、システムが複数の装置によって実現される場合、推定システム200、200aのそれぞれが備える複数の構成要素は、複数の装置にどのように振り分けられてもよい。また、例えば、推定システム200又は200aと通信可能なサーバ装置が、情報処理部120に含まれる複数の構成要素を備えていてもよい。
 例えば、上記実施の形態における装置間の通信方法については特に限定されるものではない。また、装置間の通信においては、図示されない中継装置が介在してもよい。
 また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、推定装置100などのコンピュータが実行する推定方法として実現されてもよいし、このような推定方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、汎用のコンピュータを上記実施の形態の推定装置100として動作させるためのプログラムとして実現されてもよい。本開示は、これらのプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示によれば、透明物体を扱う作業を精度良く推定することができるため、作業時間など正確に把握できるようになり、工場又は物流などの現場における作業の効率化を図ることができる。
 10 収音装置
 20 撮像装置
 50 情報端末
 80 作業空間
 100、100a 推定装置
 110 通信部
 120 情報処理部
 121 取得部
 122 推定部
 130 記憶部
 131 特徴量データベース
 132 第1モデル
 133 第2モデル
 140 モデル生成部
 150 入力受付部
 160 表示部
 200、200a 推定システム

Claims (10)

  1.  コンピュータによる、作業員の作業を推定する推定方法であって、
     前記コンピュータは、
     収音された前記作業に付随する作業音のデータを取得し、
     学習済みの第1モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する、
     推定方法。
  2.  前記コンピュータは、
     前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、
     学習済みの第2モデルに前記画像のデータを入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定し、
     前記第1モデルを用いた推定結果及び前記第2モデルを用いた推定結果に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
     請求項1に記載の推定方法。
  3.  前記コンピュータは、
     前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、
     前記作業音のデータと前記画像のデータとを前記第1モデルに入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
     請求項1に記載の推定方法。
  4.  前記コンピュータは、
     前記第1モデルから出力された前記作業音の特徴量と、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量との類似度に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
     請求項1~3のいずれか1項に記載の推定方法。
  5.  前記コンピュータは、さらに、
     前記第1モデルから出力された前記作業音の特徴量の、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量に対する類似度と、予め前記記憶部に保存された前記作業員が前記透明物体を扱う作業をしていると誤推定されうる作業音の特徴量に対する類似度とに基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
     請求項1~3のいずれか1項に記載の推定方法。
  6.  前記コンピュータは、
     前記第1モデルから出力された前記作業音の特徴量の、前記透明物体を扱う作業の前記作業音の特徴量に対する前記類似度が、前記作業員が前記透明物体を扱う作業をしている誤推定されうる前記作業音の特徴量に対する前記類似度を上回る場合、前記作業員が前記透明物体を扱う作業をしていると推定する、
     請求項5に記載の推定方法。
  7.  前記コンピュータは、
     前記透明物体と異なる非透明物体を扱う作業の作業音のデータを前記第1モデルに入力して得られる前記非透明物体を扱う作業の前記作業音の特徴量と、前記透明物体を扱う作業の前記作業音の特徴量との類似度が閾値を上回る場合、前記非透明物体を扱う作業の前記作業音を、前記透明物体を扱う作業の作業音と誤推定されうる作業音であると判定し、
     前記非透明物体を扱う作業の前記作業音の特徴量を前記誤推定されうる作業音の特徴量として前記記憶部に保存する、
     請求項5に記載の推定方法。
  8.  前記作業音のデータは、非可聴帯域の音のデータを含む、
     請求項1~3のいずれか1項に記載の推定方法。
  9.  作業員の作業を推定する推定装置であって、
     収音された前記作業に付随する作業音のデータを取得する取得部と、
     学習済みの第1モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する推定部と、
     を備える、
     推定装置。
  10.  請求項1~3のいずれか1項に記載の推定方法をコンピュータに実行させるための、
     プログラム。
PCT/JP2023/019081 2022-06-22 2023-05-23 推定方法及び推定装置 WO2023248676A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-100193 2022-06-22
JP2022100193 2022-06-22

Publications (1)

Publication Number Publication Date
WO2023248676A1 true WO2023248676A1 (ja) 2023-12-28

Family

ID=89379849

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/019081 WO2023248676A1 (ja) 2022-06-22 2023-05-23 推定方法及び推定装置

Country Status (1)

Country Link
WO (1) WO2023248676A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186651A (ja) * 2009-02-12 2010-08-26 Toyota Motor Corp コネクタ嵌合判定装置及びコネクタ嵌合判定方法
JP2016051052A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 環境理解装置および環境理解方法
JP2019028512A (ja) * 2017-07-25 2019-02-21 パナソニックIpマネジメント株式会社 情報処理方法および情報処理装置
JP2021076913A (ja) * 2019-11-05 2021-05-20 株式会社日立製作所 計算機及びモデルの学習方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186651A (ja) * 2009-02-12 2010-08-26 Toyota Motor Corp コネクタ嵌合判定装置及びコネクタ嵌合判定方法
JP2016051052A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 環境理解装置および環境理解方法
JP2019028512A (ja) * 2017-07-25 2019-02-21 パナソニックIpマネジメント株式会社 情報処理方法および情報処理装置
JP2021076913A (ja) * 2019-11-05 2021-05-20 株式会社日立製作所 計算機及びモデルの学習方法

Similar Documents

Publication Publication Date Title
JP6709862B6 (ja) 畳み込みニューラルネットワーク画像認識技術による会計方法及び設備
CN110569701B (zh) 计算机执行的车辆定损方法及装置
EP3340106B1 (en) Method and system for assigning particular classes of interest within measurement data
JP7238217B2 (ja) 定義されたオブジェクトを識別するためのシステム
CN110570389B (zh) 车辆损伤识别方法及装置
US8655020B2 (en) Method of tracking an object captured by a camera system
US9576223B2 (en) Method and system for evaluating the resemblance of a query object to reference objects
WO2019090268A1 (en) Contextual training systems and methods
US20190371134A1 (en) Self-checkout system, method thereof and device therefor
CN111149129A (zh) 异常检测装置及异常检测方法
Chen et al. Edge-glued wooden panel defect detection using deep learning
CN113239227B (zh) 图像数据结构化方法、装置、电子设备及计算机可读介质
JP2007048172A (ja) 情報分類装置
CN104977038A (zh) 使用与关联存储器耦合的运动感测设备识别移动
WO2023248676A1 (ja) 推定方法及び推定装置
JP2011150425A (ja) リサーチ装置およびリサーチ方法
TW202004619A (zh) 自助結帳系統、方法與裝置
Vongbunyong et al. Vision System
CN115588239B (zh) 交互行为识别方法、装置、设备及存储介质
US20240193993A1 (en) Non-transitory computer-readable recording medium, information processing method, and information processing apparatus
US20230306630A1 (en) Image analysis server, object counting method using image analysis server, and object counting syste
US20230153978A1 (en) Methods and systems for grading devices
JP6926895B2 (ja) 情報処理装置、情報処理システムおよびプログラム
Ling Indoor navigation for the visually impaired by reading shop trademarks in shopping mall
JP2024091181A (ja) 情報処理プログラム、情報処理方法および情報処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23826864

Country of ref document: EP

Kind code of ref document: A1