WO2023037423A1 - 支援装置、支援方法及び支援プログラム - Google Patents

支援装置、支援方法及び支援プログラム Download PDF

Info

Publication number
WO2023037423A1
WO2023037423A1 PCT/JP2021/032919 JP2021032919W WO2023037423A1 WO 2023037423 A1 WO2023037423 A1 WO 2023037423A1 JP 2021032919 W JP2021032919 W JP 2021032919W WO 2023037423 A1 WO2023037423 A1 WO 2023037423A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
environment
behavior
unit
action
Prior art date
Application number
PCT/JP2021/032919
Other languages
English (en)
French (fr)
Inventor
美沙 深井
将志 田所
晴夫 大石
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023546606A priority Critical patent/JPWO2023037423A1/ja
Priority to PCT/JP2021/032919 priority patent/WO2023037423A1/ja
Publication of WO2023037423A1 publication Critical patent/WO2023037423A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present invention relates to a support device, a support method, and a support program.
  • reinforcement learning is used for automatic driving of automobiles and control of robots.
  • reinforcement learning is used for automatic driving of automobiles and control of robots.
  • the hardware of the robot will be damaged and that the car will crash.
  • Non-Patent Document 1 discloses a reinforcement learning technique based on Lyapunov's method, which rewards safe behavior.
  • CARL A technique called Cautious Adaptation For Reinforcement Learning
  • the agent learns the optimal action by having the agent perform trial and error on various actions in the work environment. At that time, it is necessary to prepare an environment for the agent to act.
  • Non-Patent Document 1 For example, in business, it is often unclear what constitutes safe behavior. For this reason, it is difficult to apply the technology of Non-Patent Document 1 to work and design appropriate rewards.
  • the support device includes an acquisition unit that acquires environment information that is information about the environment in the work and behavior information that is information about the behavior in the work; an extraction unit that associates and extracts information with the action information; and an environment and reward in reinforcement learning for a model that executes the task based on a combination of the environment information and the action information associated by the extraction unit. and a design department that designs the
  • FIG. 1 is a diagram illustrating a configuration example of a support device according to the first embodiment.
  • FIG. 2 is a diagram showing an example of environment information and action information.
  • FIG. 3 is a diagram showing an example of environment information and action information.
  • FIG. 4 is a diagram showing an example of environment information and action information.
  • FIG. 5 is a diagram showing an example of environment information and action information.
  • FIG. 6 is a diagram showing an example of environment design and action design.
  • FIG. 7 is a flowchart showing the flow of acquisition processing.
  • FIG. 8 is a flowchart showing the flow of extraction processing.
  • FIG. 9 is a flowchart showing the flow of learning processing.
  • FIG. 10 is a flowchart showing the flow of execution processing.
  • FIG. 11 is a diagram illustrating an example of a computer that executes a support program;
  • reinforcement learning for models that support work is performed using the environment in which work is actually performed. In such a case, it is conceivable that there will be a negative impact on business. On the other hand, according to the embodiment, it is possible to perform reinforcement learning of a model for supporting business while suppressing adverse effects on business.
  • the work in the embodiment includes all work performed by humans.
  • the work includes input work to terminal devices such as PCs (Personal Computers), response to inquiries from customers by voice and text, etc., inspection of equipment, etc.
  • a model that automates input work on a terminal device automatically performs an operation that simulates a human input work on the terminal device based on the captured image of the screen displayed by the terminal device.
  • the model may be one using, for example, a neural network.
  • FIG. 1 is a diagram showing an example of the configuration of a support device according to the first embodiment.
  • the support system 1 has support devices 10 and terminal devices 20 .
  • the support device 10 is connected to the terminal device 20 .
  • the terminal device 20 is a device such as a PC for a worker to perform work related to work. Further, the support device 10 may be connected to a camera, microphone, wearable device, or the like possessed by the worker.
  • the support device 10 has an input/output unit 11 , a storage unit 12 and a control unit 13 .
  • the input/output unit 11 is an interface for data input and output.
  • the input/output unit 11 is a NIC (Network Interface Card).
  • the input/output unit 11 can transmit and receive data to and from other devices.
  • the input/output unit 11 may be connected to an input device such as a mouse or keyboard. Also, the input/output unit 11 may be connected to an output device such as a display and a speaker.
  • the storage unit 12 is a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), an optical disc, or the like. Note that the storage unit 12 may be a rewritable semiconductor memory such as RAM (Random Access Memory), flash memory, NVSRAM (Non Volatile Static Random Access Memory).
  • RAM Random Access Memory
  • flash memory Non Volatile Static Random Access Memory
  • the storage unit 12 stores an OS (Operating System) and various programs executed by the support device 10 .
  • the storage unit 12 stores learning information 121 and model information 122 .
  • the learning information 121 is information for performing reinforcement learning.
  • Learning information 121 includes rewards and environments in reinforcement learning.
  • the model information 122 is information such as parameters for constructing a model that supports operations. If the model is a neural network, the model information 122 includes weights, biases, etc. for each node.
  • the model accepts input of information indicating the work environment and outputs information on actions.
  • the support device 10 supports work based on the output information.
  • the control unit 13 controls the support device 10 as a whole.
  • the control unit 13 includes, for example, electronic circuits such as CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array), etc. It is an integrated circuit.
  • control unit 13 has an internal memory for storing programs defining various processing procedures and control data, and executes each processing using the internal memory. Further, the control unit 13 functions as various processing units by running various programs. For example, the control unit 13 has an acquisition unit 131 , an extraction unit 132 , a design unit 133 , a learning unit 134 and an execution unit 135 .
  • the acquisition unit 131 acquires environment information, which is information about the environment in business, and action information, which is information about actions in business.
  • the acquisition unit 131 can acquire information about the behavior of the worker who performs the work as behavior information, and can acquire environment information about the worker as the environment information. In addition, the acquisition unit 131 can acquire, as action information, details of operations performed on the terminal device 20 by the worker, and can acquire, as environment information, the state of the terminal device 20 that changes according to the operations performed by the worker.
  • the acquisition unit 131 acquires, as environment information, an image in the direction of the worker's viewpoint captured by a camera, and sounds around the worker collected by a microphone.
  • the acquisition unit 131 acquires information such as images and sounds output from the terminal device 20 operated by the worker as environment information.
  • the image acquired by the acquisition unit 131 may be a still image such as a captured image, or may be a moving image.
  • the acquisition unit 131 may acquire the collected voice as a voice file, or may acquire the text obtained by converting the collected voice.
  • the acquisition unit 131 acquires, as action information, information on the worker's body movement sensed by a sensor attached to the worker and the worker's utterances collected by a microphone.
  • the acquisition unit 131 acquires the details of the operation performed by the worker on the terminal device 20 as action information.
  • the contents of the operation include the time at which the keyboard was pressed, the type of key that was pressed, the trajectory of mouse movement, the position and time at which the mouse was clicked, and the like.
  • the acquisition unit 131 can acquire the details of the operator's operation on the terminal device 20 as action information, and can acquire the captured image of the screen of the terminal device 20 that changes according to the operation as the environment information.
  • the acquisition unit 131 may acquire information identifying the application or window being operated by the worker on the terminal device 20 together with the operation content as action information.
  • the extraction unit 132 extracts environment information and behavior information in association with each other. In other words, the extraction unit 132 extracts a combination of the environment information and the action information acquired by the acquisition unit 131 .
  • the extraction unit 132 can associate and extract action information about actions in business and environment information about at least one of the environment before the action was taken and the environment affected by the action.
  • FIGS. 2 to 5 are diagrams showing examples of environment information and action information.
  • FIG. 2 and 3 show examples of environment information and action information related to work using the terminal device 20.
  • FIG. 2 and 3 show examples of environment information and action information related to work using the terminal device 20.
  • the extraction unit 132 extracts the captured image 51a and the operation content 52a in association with each other.
  • the captured image 51a corresponds to environment information.
  • the operation content 52a corresponds to action information.
  • the operation content 52a includes that the type of operation event is click and the coordinates of the cursor when the click is performed.
  • the environment before the action is taken is the captured image of the screen before the button 511a is pressed.
  • the environment affected by the action is the captured image of the screen transitioned after the button 511a is pressed.
  • the extraction unit 132 may extract the entire captured image 51a as the environment information, or may extract the button 511a, which is a part of the captured image 51a and is the target of the operation, as the environment information. .
  • the captured image 51a in FIG. 2 is an image obtained by cutting out a part of the screen displayed on the display.
  • the environment information may be a captured image of the entire screen displayed on the display, and may be an image including the taskbar of the OS, the toolbar of the browser or a predetermined application, and the like.
  • the extraction unit 132 extracts the capture image 51b and the operation content 52b in association with each other.
  • the captured image 51b corresponds to environment information.
  • the operation content 52b corresponds to action information.
  • the operation content 52b includes that the type of operation event is pressing of the "o" key.
  • the environment before the action is taken is the captured image of the screen before the "o” key is pressed.
  • the environment affected by the action is a captured image of the screen in which "yo" is input in the text box 511b after the "o” key is pressed.
  • romaji input by inputting "o” after “y”, hiragana "yo” is displayed.
  • the extraction unit 132 may extract the entire captured image 51b as the environment information, or may extract the text box 511b, which is a part of the captured image 51b and is the target of the operation, as the environment information. good.
  • the captured image 51b in FIG. 3 is an image obtained by cutting out a part of the screen displayed on the display.
  • the environment information may be a captured image of the entire screen displayed on the display, and may be an image including the taskbar of the OS, the toolbar of the browser or a predetermined application, and the like.
  • the extraction unit 132 may extract a series of multiple pieces of environment information in association with one piece of behavior information. For example, the extracting unit 132 can extract, as the environment information, captured images of a plurality of frames of screens in chronological order until a predetermined operation content on the terminal device 20 occurs.
  • the extraction unit 132 may further extract environment information related to an environment whose degree of similarity to the environment corresponding to the extracted environment information is equal to or greater than a threshold, in association with the action information.
  • past captured images similar to the captured image 51b may be extracted in addition to the captured image 51b in association with the operation content 52b.
  • the extraction unit 132 regards the captured images whose similarity is equal to or higher than the threshold as being similar to each other.
  • the extraction unit 132 extracts not only the environmental information at the moment when the action indicated by the action information was performed, but also the past similar environmental information.
  • Fig. 4 shows an example of environmental information and action information related to telephone response work.
  • the extraction unit 132 extracts the voice 51c of the telephone inquiry from the customer and the voice 52c of the operator's answer in association with each other.
  • the voice 51c corresponds to environment information.
  • the voice 52c corresponds to action information.
  • the extraction unit 132 may extract the text transcribed from the speech instead of the speech.
  • the environment before the action is taken is the voice 51c of the telephone inquiry from the customer.
  • the environment affected by the behavior is the voice uttered by the customer in response to the operator's answer voice 52c.
  • Fig. 5 shows an example of environmental information and action information related to equipment inspection work.
  • the extraction unit 132 associates and extracts the image 51d of the viewpoint of the moving worker and the destination position 52d to which the worker has moved.
  • the image 51d corresponds to environment information.
  • the position 52d corresponds to action information.
  • the environment before the action is taken is the image 51d of the viewpoint of the moving worker.
  • the environment affected by the action is the image of the worker's viewpoint after movement.
  • the design unit 133 designs an environment and a reward in reinforcement learning for a business execution model based on the combination of the environment information and the behavior information associated by the extraction unit 132 .
  • the design unit 133 assumes that the action indicated by the action information is the "correct action”, and performs design so that if the agent takes the same action in the environment in which the action was taken, a reward is given. .
  • Fig. 6 is a diagram showing an example of environmental design and behavioral design. As shown in FIG. 6, the design unit 133 performs environment design and reward design.
  • the design unit 133 For example, if clicking a predetermined button is the “correct action”, the design unit 133 provides a positive reward for actions such as clicking on the button and moving the cursor on the button. design. On the other hand, the design unit 133 performs design so that a negative reward (penalty) is given to an action of clicking on a button other than the button.
  • the design unit 133 transitions the environment to the captured image after the operation when the same operation as the operator, that is, clicking the button, is performed, and transitions the environment when the operation other than clicking the button is performed.
  • the design should be such that the agent executes the operation again on the same screen.
  • the extraction unit 132 extracts both environmental information about the environment before the action was taken and environmental information about the environment affected by the action.
  • the design unit 133 designs so that the agent is presented with the environment before the action is taken, and transitions to the environment affected by the action when the agent takes the "right action”.
  • the design unit 133 stores the contents of the design in the storage unit 12 as the learning information 121 .
  • the learning unit 134 builds a learning environment for performing model reinforcement learning according to the learning information 121 . Furthermore, the learning unit 134 updates the model information 122 based on the results of causing the agent to act in the learning environment.
  • the learning unit 134 presents the captured image of the screen of the terminal device 20 to the agent as an environment, and the action to be taken on the captured image (clicking, moving the cursor, etc.). be selected by the agent.
  • the learning unit 134 When the work involves movement by walking, the learning unit 134 presents a moving image of the viewpoint of the worker walking or a still image extracted from the moving image to the agent as an environment, and instructs the agent in which direction to proceed. let you choose.
  • the agent is a simulated entity that selects actions according to the output of the model constructed from the model information 122.
  • the learning unit 134 may learn based on environmental information and action information regarding one worker. In this case, it is expected that behavioral learning that reflects the characteristics of each worker can be expected.
  • the learning unit 134 may perform learning by combining environmental information and action information regarding a plurality of workers. In this case, more efficient work procedure learning can be expected.
  • the execution unit 135 uses a model that has undergone reinforcement learning based on the environment and reward designed by the design unit 133 to generate a series of business-related actions.
  • the execution unit 135 identifies behavior based on the output obtained by inputting environmental information in actual work to a learned model built from the model information 122 .
  • the execution unit 135 generates an action sequence from the worker's work environment information using a learned model, and supports the work based on the generated action sequence.
  • Business support may be something that directly performs the work, or it may be something that provides the worker with the actions that should be taken in the work.
  • the execution unit 135 automatically inputs items based on the captured image on the screen of the terminal device. Further, for example, the execution unit 135 may estimate the next task to be performed from the viewpoint video of the worker, and provide information about the estimated task by voice.
  • FIG. 7 is a flowchart showing the flow of acquisition processing. As shown in FIG. 7, when the worker has not finished the work (step S101, No), the acquisition unit 131 acquires environment information during work of the worker (step S102).
  • step S103 the acquisition unit 131 acquires the worker's action information (step S104).
  • step S103 If the worker does not take action (step S103, No), the acquisition unit 131 returns to step S101.
  • step S101 if the worker has finished the work (step S101, Yes), the acquisition unit 131 ends the process.
  • FIG. 8 is a flowchart showing the flow of extraction processing. If the corresponding environment is not extracted for all of the behavior information acquired by the acquisition unit 131 (step S201, No), the extraction unit 132 determines target behavior information (step S202).
  • the extraction unit 132 extracts environment information corresponding to the targeted behavior information (step S203).
  • the extraction unit 132 extracts the environment corresponding to all the behavior information acquired by the acquisition unit 131 (step S201, Yes).
  • the extraction unit 132 ends the processing.
  • FIG. 9 is a flowchart showing the flow of learning processing.
  • the design unit 133 has already designed rewards and environments for reinforcement learning.
  • the learning unit 134 determines target environmental information (step S302).
  • the learning unit 134 uses the environmental information as a target as an environment for reinforcement learning, and learns actions to be taken by trial and error (step S303).
  • the learning unit 134 updates the model information 122 based on the learning result.
  • the learning unit 134 ends the process.
  • FIG. 10 is a flowchart showing the flow of execution processing.
  • the execution unit 135 constructs a learned model from the model information 122 .
  • step S401 if the worker has not completed the task (step S401, No), the execution unit 135 acquires the worker's environment information (step S402).
  • step S404 the execution unit 135 executes the action sequence generated using the model.
  • step S403, No If the execution unit 135 cannot generate an appropriate action sequence for the environment (step S403, No), it returns to step S401.
  • step S401, Yes the execution unit 135 ends the process.
  • the acquisition unit 131 acquires environment information, which is information about the environment in business, and behavior information, which is information about behavior in business.
  • the extraction unit 132 extracts the environment information and the action information in association with each other.
  • the design unit 133 designs an environment and a reward in reinforcement learning for a business execution model based on the combination of the environment information and the behavior information associated by the extraction unit 132 .
  • the support device 10 can design for reinforcement learning based on actions and environments related to work. As a result, according to the embodiment, it is possible to easily perform reinforcement learning for supporting business at low cost.
  • the acquisition unit 131 acquires information about the behavior of the worker who performs the work as behavior information, and acquires information about the environment about the worker as the environment information. In this way, it is possible to easily obtain action information and environment information by paying attention to the action and environment of the worker.
  • the acquisition unit 131 acquires the details of the operator's operation on the terminal device 20 as behavior information, and acquires the state of the terminal device 20 that changes according to the operator's operation as environment information. Accordingly, it is possible to easily acquire environmental information regarding the business using the terminal device.
  • the extracting unit 132 associates the first action information regarding the action in business with the first environment information regarding at least one of the environment before the action was taken and the environment affected by the action. to extract. This makes it possible to easily design reinforcement learning from related behavioral information and environmental information.
  • the extraction unit 132 further extracts second environment information related to an environment whose degree of similarity to the environment is equal to or greater than the threshold, in association with the first action information.
  • the execution unit 135 uses a model that has undergone reinforcement learning based on the environment and reward designed by the design unit 133 to generate a series of actions related to work. This can reduce human work and decisions related to business.
  • each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as Note that the program may be executed not only by the CPU but also by other processors such as a GPU.
  • CPU Central Processing Unit
  • the support device 10 can be implemented by installing a support program that executes the above-described support processing as package software or online software on a desired computer.
  • the information processing device can function as the support device 10 by causing the information processing device to execute the support program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the support device 10 can also be implemented as a support server device that uses a terminal device used by a user as a client and provides the client with services related to the above-described support processing.
  • the support server device is implemented as a server device that provides a support service that inputs action information and environment information in business and outputs a learned model for supporting business.
  • the support server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above support processing by outsourcing.
  • FIG. 11 is a diagram showing an example of a computer that executes a support program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the support device 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the support device 10 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Abstract

実施形態の支援装置(10)は、業務における環境に関する情報である環境情報と、業務における行動に関する情報である行動情報と、を取得する。支援装置(10)は、環境情報と行動情報とを対応付けて抽出する。支援装置(10)は、対応付けられた環境情報と行動情報との組み合わせに基づき、業務を実行するモデルの強化学習における環境及び報酬を設計する。また、支援装置(10)は、設計した環境及び報酬により強化学習を行ったモデルを用いて、業務を支援する。

Description

支援装置、支援方法及び支援プログラム
 本発明は、支援装置、支援方法及び支援プログラムに関する。
 現実世界の環境を使ってモデルの強化学習を行う場合、環境に取り返しのつかない悪影響を与えないように注意する必要がある。
 例えば、強化学習は自動車の自動運転及びロボットの制御に利用される。一方で、現実世界の環境を使った強化学習の過程で、ロボットのハードウェアが損壊すること、及び自動車が衝突事故を起こすことが考えられる。
 これに対し、非特許文献1には、Lyapunovの手法を基にした強化学習であって、安全な行動に報酬を与える強化学習の技術が開示されている。
 また、非特許文献2には、転移ダイナミクス及び壊滅的な状態に関する不確実性をサンドボックスにおいて訓練しておき、現実の環境においては、エージェントが壊滅的な状態を避けるように学習を行うCARL(Cautious Adaptation For Reinforcement Learning)と呼ばれる技術が開示されている。
Yinlam Chow, Ofir Nachum, Edgar Duenez-Guzman, Mohammad Ghavamzadeh, "A Lyapunov-based Approach to Safe Reinforcement Learning", arXiv:1805.07708v1 [cs.LG] 20 May 2018 Jesse Zhang, Brian Cheung,  Chelsea Finn,  Sergey Levine,  Dinesh Jayaraman, "Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings", arXiv:2008.06622v1 [cs.LG] 15 Aug 2020
 しかしながら、従来の技術には、業務を支援するための強化学習を低コストかつ容易に行うことが困難な場合があるという問題がある。
 業務を支援するための強化学習においては、業務環境に対して様々な行動をエージェントに試行錯誤させ、最適な行動を学習させる。その際、エージェントが行動を行うための環境の準備が必要となる。
 例えば、業務においては、何をもって安全な行動と設定するべきかが不明瞭な場合が多い。このため、非特許文献1の技術を業務に適用し、適切な報酬を設計することは難しい。
 また、例えば、非特許文献2に記載のサンドボックスのようなシミュレーション環境を用意するためには多大なコストがかかり、また、業務の学習に最適なシミュレーション環境を用意することは困難である。
 上述した課題を解決し、目的を達成するために、支援装置は、業務における環境に関する情報である環境情報と、前記業務における行動に関する情報である行動情報と、を取得する取得部と、前記環境情報と前記行動情報とを対応付けて抽出する抽出部と、前記抽出部によって対応付けられた前記環境情報と前記行動情報との組み合わせに基づき、前記業務を実行するモデルの強化学習における環境及び報酬を設計する設計部と、を有することを特徴とする。
 本発明によれば、業務を支援するための強化学習を低コストかつ容易に行うことができる。
図1は、第1の実施形態の支援装置の構成例を示す図である。 図2は、環境情報と行動情報の例を示す図である。 図3は、環境情報と行動情報の例を示す図である。 図4は、環境情報と行動情報の例を示す図である。 図5は、環境情報と行動情報の例を示す図である。 図6は、環境設計と行動設計の例を示す図である。 図7は、取得処理の流れを示すフローチャートである。 図8は、抽出処理の流れを示すフローチャートである。 図9は、学習処理の流れを示すフローチャートである。 図10は、実行処理の流れを示すフローチャートである。 図11は、支援プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る支援装置、支援方法及び支援プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
 従来、業務を支援するモデルの強化学習は、実際に業務が行われている環境を用いて行われる。そのような場合、業務へ悪影響が生じることが考えられる。一方で、実施形態によれば、業務への悪影響を抑止しつつ、業務を支援するためのモデルの強化学習を行うことができる。
 なお、実施形態における業務は、人間が実施するあらゆる業務を含むものとする。例えば、業務には、PC(Personal Computer)等の端末装置への入力作業、音声及びテキスト等による顧客からの問い合わせ対応、設備の点検等が含まれる。
 例えば、端末装置への入力作業を自動化するモデルは、端末装置によって表示される画面のキャプチャ画像に基づき、人間の入力作業を模した操作を端末装置に対して自動的に行う。また、モデルは、例えばニューラルネットワークを用いたものであってもよい。
[第1の実施形態の構成]
 まず、図1を用いて、第1の実施形態に係る支援装置の構成について説明する。図1は、第1の実施形態に係る支援装置の構成の一例を示す図である。
 図1に示すように、支援システム1は、支援装置10及び端末装置20を有する。支援装置10は、端末装置20と接続されている。端末装置20は、作業者が業務に関する作業を行うためのPC等の装置である。また、支援装置10は、作業者が持つカメラ、マイク、又はウェアラブル装置等と接続されていてもよい。
 ここで、支援装置10の各部について説明する。図1に示すように、支援装置10は、入出力部11、記憶部12及び制御部13を有する。
 入出力部11は、データの入力及び出力のためのインタフェースである。例えば、入出力部11はNIC(Network Interface Card)である。入出力部11は他の装置との間でデータの送受信を行うことができる。
 また、入出力部11は、マウスやキーボード等の入力装置と接続されていてもよい。また、入出力部11は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。
 記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。
 記憶部12は、支援装置10で実行されるOS(Operating System)や各種プログラムを記憶する。記憶部12は、学習情報121及びモデル情報122を記憶する。
 学習情報121は、強化学習を行うための情報である。学習情報121は、強化学習における報酬及び環境を含む。
 モデル情報122は、業務を支援するモデルを構築するためのパラメータ等の情報である。モデルがニューラルネットワークである場合、モデル情報122にはノードごとの重み及びバイアス等が含まれる。
 なお、モデルは、作業の環境を示す情報の入力を受け付け、行動に関する情報を出力する。支援装置10は、出力した情報に基づき作業の支援を行う。
 制御部13は、支援装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。
 また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部13は、取得部131、抽出部132、設計部133、学習部134及び実行部135を有する。
 取得部131は、業務における環境に関する情報である環境情報と、業務における行動に関する情報である行動情報と、を取得する。
 取得部131は、業務を実施する作業者の行動に関する情報を行動情報として取得し、作業者に関する環境の情報を環境情報として取得することができる。また、取得部131は、作業者による端末装置20に対する操作の内容を行動情報として取得し、作業者による操作に応じて変化する端末装置20の状態を環境情報として取得することができる。
 例えば、取得部131は、カメラによって撮影された作業者の視点方向の画像、マイクによって収集された作業者の周囲の音声を環境情報として取得する。
 また、例えば、取得部131は、作業者によって操作される端末装置20から出力される、画像及び音声等の情報を環境情報として取得する。
 取得部131が取得する画像は、キャプチャ画像等の静止画像であってもよいし、動画像であってもよい。また、取得部131は、収集された音声を音声ファイルとして取得してもよいし、収集された音声を変換したテキストを取得してもよい。
 例えば、取得部131は、作業者に取り付けたセンサによって感知された作業者の身体の運動の情報、マイクによって収集された作業者の発話内容を行動情報として取得する。
 また、例えば、取得部131は、作業者が端末装置20に対して行った操作の内容を行動情報として取得する。操作の内容は、キーボードを打鍵した時刻、打鍵したキーの種類、マウスの移動の軌跡、マウスをクリックした位置及び時刻等である。
 このとき、取得部131は、作業者の端末装置20に対する操作内容を行動情報として取得し、操作に応じて変化する端末装置20の画面のキャプチャ画像を環境情報として取得することができる。
 さらに、取得部131は、端末装置20において作業者が操作しているアプリケーション又はウィンドウを識別する情報を操作内容とともに行動情報として取得してもよい。
 抽出部132は、環境情報と行動情報とを対応付けて抽出する。言い換えると、抽出部132は、取得部131によって取得された環境情報と行動情報との組み合わせを抽出する。
 抽出部132は、業務における行動に関する行動情報と、行動が取られる前の環境及び行動に影響を受けた環境のうちの少なくともいずれかに関する環境情報と、を対応付けて抽出することができる。
 図2から図5を用いて、環境情報と行動情報の対応付けについて説明する。図2、図3、図4及び図5は、環境情報と行動情報の例を示す図である。
 図2及び図3には、端末装置20を利用した業務に関する環境情報及び行動情報の例が示されている。
 図2の例では、抽出部132は、キャプチャ画像51aと操作内容52aとを対応付けて抽出する。キャプチャ画像51aは環境情報に相当する。操作内容52aは行動情報に相当する。
 作業者は、各種項目への入力を行い、ボタン511aをマウスでクリック(押下)したものとする。この場合、操作内容52aには、操作イベントの種別がクリックであること、及びクリックが行われた際のカーソルの座標が含まれる。
 この場合、例えば、行動が取られる前の環境は、ボタン511aが押下される前の画面のキャプチャ画像である。一方、行動に影響を受けた環境は、ボタン511aが押下された後に遷移する画面のキャプチャ画像である。
 なお、抽出部132は、キャプチャ画像51aの全部を環境情報として抽出してもよいし、キャプチャ画像51aの一部であって、操作の対象となったボタン511aを環境情報として抽出してもよい。
 なお、図2のキャプチャ画像51aは、ディスプレイに表示される画面の一部を切り出した画像である。一方で、環境情報は、ディスプレイに表示される画面全体のキャプチャ画像であって、OSのタスクバー、及びブラウザ又は所定のアプリケーションのツールバー等を含む画像であってもよい。
 図3の例では、抽出部132は、キャプチャ画像51bと操作内容52bとを対応付けて抽出する。キャプチャ画像51bは環境情報に相当する。操作内容52bは行動情報に相当する。
 作業者は、ローマ字で「yokosuka」と入力するために、まずテキストボックス511bにキーボードで「y」キーを打鍵(押下)し、その後キーボードで「o」キーを打鍵したものとする。
 この場合、操作内容52bには、操作イベントの種別が「o」キーの押下であることが含まれる。
 この場合、例えば、行動が取られる前の環境は、「o」キーが押下される前の画面のキャプチャ画像である。一方、行動に影響を受けた環境は、「o」キーが押下された後にテキストボックス511bに「よ」が入力された状態の画面のキャプチャ画像である。なお、ローマ字入力においては、「y」の後に「o」を入力することでひらがなの「よ」が表示される。
 なお、抽出部132は、キャプチャ画像51bの全部を環境情報として抽出してもよいし、キャプチャ画像51bの一部であって、操作の対象となったテキストボックス511bを環境情報として抽出してもよい。
 なお、図3のキャプチャ画像51bは、ディスプレイに表示される画面の一部を切り出した画像である。一方で、環境情報は、ディスプレイに表示される画面全体のキャプチャ画像であって、OSのタスクバー、及びブラウザ又は所定のアプリケーションのツールバー等を含む画像であってもよい。
 抽出部132は、1つの行動情報に一連の複数の環境情報を対応付けて抽出してもよい。例えば、抽出部132は、端末装置20に対する所定の操作内容が発生するまでの、時系列に沿った複数フレームの画面のキャプチャ画像を環境情報として抽出することができる。
 また、抽出部132は、抽出した環境情報に対応する環境との類似度が閾値以上である環境に関する環境情報を、行動情報と対応付けてさらに抽出してもよい。
 例えば、操作内容52bに対応付けて、キャプチャ画像51bに加えて、キャプチャ画像51bに類似する過去のキャプチャ画像を抽出してもよい。
 例えば、2つのキャプチャ画像に共通して示されている単語の数を類似度とする。そして、抽出部132は、類似度が閾値以上であるキャプチャ画像同士を類似しているものとみなす。
 すなわち、抽出部132は、行動情報が示す行動が実施された瞬間の環境情報だけでなく、過去の類似する環境情報を併せて抽出する。
 図4には、電話対応業務に関する環境情報及び行動情報の例が示されている。
 図4の例では、抽出部132は、顧客からの電話問い合わせの音声51cと、オペレータの回答の音声52cとを対応付けて抽出する。音声51cは環境情報に相当する。音声52cは行動情報に相当する。
 このとき、抽出部132は、音声の代わりに当該音声を書き起こしたテキストを抽出してもよい。
 この場合、例えば、行動が取られる前の環境は、顧客からの電話問い合わせの音声51cである。一方、行動に影響を受けた環境は、オペレータの回答の音声52cに対してさらに顧客が発した音声である。
 図5には、設備の点検業務に関する環境情報及び行動情報の例が示されている。
 図5の例では、抽出部132は、移動中の作業者の視点の映像51dと、作業者が移動した目的地の位置52dとを対応付けて抽出する。映像51dは環境情報に相当する。位置52dは行動情報に相当する。
 この場合、例えば、行動が取られる前の環境は、移動中の作業者の視点の映像51dである。一方、行動に影響を受けた環境は、移動後の作業者の視点の映像である。
 設計部133は、抽出部132によって対応付けられた環境情報と行動情報との組み合わせに基づき、業務を実行するモデルの強化学習における環境及び報酬を設計する。
 設計部133は、行動情報が示す行動を「正しい行動」と仮定し、当該行動がとられた際の環境において、エージェントが同様の行動を取った場合、報酬が付与されるように設計を行う。
 図6は、環境設計と行動設計の例を示す図である。図6に示すように、設計部133は、環境設計と報酬設計を行う。
 例えば、所定のボタンをクリックすることが「正しい行動」である場合、設計部133は、当該ボタン上でのクリック、及び当該ボタン上へのカーソルの移動という動作にプラスの報酬が与えられるように設計を行う。一方で、設計部133は、当該ボタン上以外でのクリックという動作にマイナスの報酬(罰則)が与えられるように設計を行う。
 さらに、設計部133は、作業者と同じ操作、すなわちボタンのクリックが行われた場合は環境を操作後のキャプチャ画像に遷移させ、ボタンのクリック以外の操作が行われた場合は環境を遷移させず同一の画面でエージェントに再度操作を実行させるように設計を行う。
 ここで、抽出部132は、行動が取られる前の環境に関する環境情報及び行動に影響を受けた環境に関する環境情報の両方を抽出するものとする。このとき、設計部133は、行動が取られる前の環境がエージェントに提示され、エージェントが「正しい行動」をとった場合に行動に影響を受けた環境に遷移するように設計を行う。
 なお、設計部133は、設計の内容を学習情報121として記憶部12に格納する。
 学習部134は、学習情報121に従いモデルの強化学習を行うための学習環境を構築する。さらに、学習部134は、学習環境においてエージェントに行動を実施させた結果を基にモデル情報122を更新する。
 業務が端末装置20を利用したものである場合、学習部134は、端末装置20の画面のキャプチャ画像を環境としてエージェントに提示し、当該キャプチャ画像上でとるべき行動(クリックやカーソルの移動等)をエージェントに選択させる。
 業務が歩行による移動を伴うものである場合、学習部134は、歩行中の作業者の視点の動画像又は当該動画像から切り出した静止画像を環境としてエージェントに提示し、エージェントに進むべき方向を選択させる。
 このように、作業者の業務中の環境情報を学習環境として代用し、その環境上でエージェントに行動をとらせることで、実業務へ影響を与えず学習を行うことが可能となる。
 なお、エージェントは、モデル情報122から構築したモデルの出力に応じて行動を選択する模擬的な主体である。
 また、学習部134は、1人の作業者に関する環境情報と行動情報を基に学習を行っても良い。この場合、各作業者の特性を反映した行動の学習が見込める。
 一方、学習部134は、複数の作業者に関する環境情報と行動情報を組み合わせて学習を行ってもよい。この場合、より効率的な作業手順の学習が見込める。
 実行部135は、設計部133によって設計された環境及び報酬に基づいて強化学習を行ったモデルを用いて、業務に関する行動の系列を生成する。
 例えば、実行部135は、モデル情報122から構築した学習済みのモデルに実際の業務における環境情報を入力して得られた出力に基づき行動を特定する。
 具体的には、実行部135は、作業者の業務中の環境情報から、学習済みのモデルを用いて行動系列を生成し、生成した行動系列に基づき業務の支援を行う。
 業務の支援は、作業を直接行うものであってもよいし、業務において取るべき行動を作業者に提供するものであってもよい。
 例えば、実行部135は、端末装置の画面のキャプチャ画像を基に、項目への自動入力を行う。また、例えば、実行部135は、作業者の視点映像から次に行う作業を推測し、推測した作業に関する情報を音声で提供してもよい。
[第1の実施形態の処理]
 図7は、取得処理の流れを示すフローチャートである。図7に示すように、作業者が作業を終了していない場合(ステップS101、No)、取得部131は、作業者の業務中の環境情報を取得する(ステップS102)。
 そして、作業者が行動を取った場合(ステップS103、Yes)、取得部131は、作業者の行動情報を取得する(ステップS104)。
 作業者が行動を取らなかった場合(ステップS103、No)、取得部131はステップS101に戻る。
 ここで、作業者が作業を終了した場合(ステップS101、Yes)、取得部131は処理を終了する。
 図8は、抽出処理の流れを示すフローチャートである。抽出部132は、取得部131によって取得されたすべての行動情報について、対応した環境が抽出されていない場合(ステップS201、No)、ターゲットとする行動情報を決定する(ステップS202)。
 そして、抽出部132は、ターゲットとした行動情報に対応する環境情報を抽出する(ステップS203)。
 抽出部132は、取得部131によって取得されたすべての行動情報について対応した環境が抽出された場合(ステップS201、Yes)、抽出部132は処理を終了する。
 図9は、学習処理の流れを示すフローチャートである。ここでは、設計部133によって強化学習のための報酬及び環境が設計済みであるものとする。
 図9に示すように、取得した環境情報について、作業者と同様の行動を生成できない場合(ステップS301、No)、学習部134は、ターゲットとする環境情報を決定する(ステップS302)。
 学習部134は、ターゲットとして環境情報を強化学習の環境として用いて、試行錯誤により取るべき行動について学習を行う(ステップS303)。学習部134は、学習の結果に基づき、モデル情報122を更新する。
 取得した環境情報について、作業者と同様の行動を生成できるようになった場合(ステップS301、Yes)、学習部134は処理を終了する。
 図10は、実行処理の流れを示すフローチャートである。ここでは、実行部135は、モデル情報122から学習済みのモデルを構築するものとする。
 図10に示すように、作業者が業務を終了していない場合(ステップS401、No)、実行部135は、作業者の環境情報を取得する(ステップS402)。
 そして、実行部135は、環境に対する適切な行動系列を生成できる場合(ステップS403、Yes)、モデルを用いて生成した行動系列を実行する(ステップS404)。
 実行部135は、環境に対する適切な行動系列を生成できない場合(ステップS403、No)、ステップS401に戻る。
 作業者が業務を終了した場合(ステップS401、Yes)、実行部135は処理を終了する。
[第1の実施形態の効果]
 これまで説明してきたように、取得部131は、業務における環境に関する情報である環境情報と、業務における行動に関する情報である行動情報と、を取得する。抽出部132は、環境情報と行動情報とを対応付けて抽出する。設計部133は、抽出部132によって対応付けられた環境情報と行動情報との組み合わせに基づき、業務を実行するモデルの強化学習における環境及び報酬を設計する。
 このように、支援装置10は、業務に関する行動及び環境を基に強化学習のための設計を行うことができる。その結果、実施形態によれば、業務を支援するための強化学習を低コストかつ容易に行うことが可能になる。
 また、取得部131は、業務を実施する作業者の行動に関する情報を行動情報として取得し、作業者に関する環境の情報を前記環境情報として取得する。このように、作業者の行動及び環境に注目することで容易に行動情報及び環境情報を取得することができる。
 また、取得部131は、作業者による端末装置20に対する操作の内容を行動情報として取得し、作業者による操作に応じて変化する端末装置20の状態を環境情報として取得する。これにより、端末装置を利用した業務に関して容易に環境情報を取得することができる。
 また、抽出部132は、業務における行動に関する第1の行動情報と、行動が取られる前の環境及び行動に影響を受けた環境のうちの少なくともいずれかに関する第1の環境情報と、を対応付けて抽出する。これにより、関連する行動情報と環境情報から強化学習の設計を容易に行うことができる。
 また、抽出部132は、環境との類似度が閾値以上である環境に関する第2の環境情報を第1の行動情報と対応付けてさらに抽出する。このように、行動情報に類似する複数の環境情報を対応付けることにより、強化学習の精度を向上させることができる。
 また、実行部135は、設計部133によって設計された環境及び報酬に基づいて強化学習を行ったモデルを用いて、業務に関する行動の系列を生成する。これにより、業務に関する人間の作業及び判断を削減することができる。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、CPUだけでなく、GPU等の他のプロセッサによって実行されてもよい。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、支援装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の支援処理を実行する支援プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の支援プログラムを情報処理装置に実行させることにより、情報処理装置を支援装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、支援装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の支援処理に関するサービスを提供する支援サーバ装置として実装することもできる。例えば、支援サーバ装置は、業務における行動情報及び環境情報を入力とし、業務を支援するための学習済みモデルを出力とする支援サービスを提供するサーバ装置として実装される。この場合、支援サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の支援処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図11は、支援プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、支援装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、支援装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 1 支援システム
 10 支援装置
 11 入出力部
 12 記憶部
 13 制御部
 20 端末装置
 51a、51b キャプチャ画像
 51c、52c 音声
 51d 映像
 52a、52b 操作内容
 52d 位置
 121 学習情報
 122 モデル情報
 131 取得部
 132 抽出部
 133 設計部
 134 学習部
 135 実行部
 511a ボタン
 511b テキストボックス

Claims (8)

  1.  業務における環境に関する情報である環境情報と、前記業務における行動に関する情報である行動情報と、を取得する取得部と、
     前記環境情報と前記行動情報とを対応付けて抽出する抽出部と、
     前記抽出部によって対応付けられた前記環境情報と前記行動情報との組み合わせに基づき、前記業務を実行するモデルの強化学習における環境及び報酬を設計する設計部と、
     を有することを特徴とする支援装置。
  2.  前記取得部は、前記業務を実施する作業者の行動に関する情報を前記行動情報として取得し、前記作業者に関する環境の情報を前記環境情報として取得することを特徴とする請求項1に記載の支援装置。
  3.  前記取得部は、前記作業者による端末装置に対する操作の内容を前記行動情報として取得し、前記作業者による操作に応じて変化する前記端末装置の状態を前記環境情報として取得することを特徴とする請求項2に記載の支援装置。
  4.  前記抽出部は、前記業務における行動に関する第1の行動情報と、前記行動が取られる前の環境及び前記行動に影響を受けた環境のうちの少なくともいずれかに関する第1の環境情報と、を対応付けて抽出することを特徴とする請求項1から3のいずれか1項に記載の支援装置。
  5.  前記抽出部は、前記環境との類似度が閾値以上である環境に関する第2の環境情報を前記第1の行動情報と対応付けてさらに抽出することを特徴とする請求項4に記載の支援装置。
  6.  前記設計部によって設計された環境及び報酬に基づいて強化学習を行ったモデルを用いて、業務に関する行動の系列を生成する実行部をさらに有することを特徴とする請求項1から5のいずれか1項に記載の支援装置。
  7.  支援装置によって実行される支援方法であって、
     業務における環境に関する情報である環境情報と、前記業務における行動に関する情報である行動情報と、を取得する取得工程と、
     前記環境情報と前記行動情報とを対応付けて抽出する抽出工程と、
     前記抽出工程によって対応付けられた前記環境情報と前記行動情報との組み合わせに基づき、前記業務を実行するモデルの強化学習における環境及び報酬を設計する設計工程と、
     を含むことを特徴とする支援方法。
  8.  コンピュータを、請求項1から6のいずれか1項に記載の支援装置として機能させるための支援プログラム。
PCT/JP2021/032919 2021-09-07 2021-09-07 支援装置、支援方法及び支援プログラム WO2023037423A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023546606A JPWO2023037423A1 (ja) 2021-09-07 2021-09-07
PCT/JP2021/032919 WO2023037423A1 (ja) 2021-09-07 2021-09-07 支援装置、支援方法及び支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/032919 WO2023037423A1 (ja) 2021-09-07 2021-09-07 支援装置、支援方法及び支援プログラム

Publications (1)

Publication Number Publication Date
WO2023037423A1 true WO2023037423A1 (ja) 2023-03-16

Family

ID=85507313

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/032919 WO2023037423A1 (ja) 2021-09-07 2021-09-07 支援装置、支援方法及び支援プログラム

Country Status (2)

Country Link
JP (1) JPWO2023037423A1 (ja)
WO (1) WO2023037423A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017201479A (ja) * 2016-05-06 2017-11-09 日本ユニシス株式会社 コミュニケーション支援システム
US20180165745A1 (en) * 2016-12-09 2018-06-14 Alibaba Group Holding Limited Intelligent Recommendation Method and System
JP2020044591A (ja) * 2018-09-14 2020-03-26 学校法人早稲田大学 自律型作業支援ロボットの環境適応性強化システム、動作シミュレーション装置及びそのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017201479A (ja) * 2016-05-06 2017-11-09 日本ユニシス株式会社 コミュニケーション支援システム
US20180165745A1 (en) * 2016-12-09 2018-06-14 Alibaba Group Holding Limited Intelligent Recommendation Method and System
JP2020044591A (ja) * 2018-09-14 2020-03-26 学校法人早稲田大学 自律型作業支援ロボットの環境適応性強化システム、動作シミュレーション装置及びそのプログラム

Also Published As

Publication number Publication date
JPWO2023037423A1 (ja) 2023-03-16

Similar Documents

Publication Publication Date Title
US10990901B2 (en) Training, validating, and monitoring artificial intelligence and machine learning models
US11113475B2 (en) Chatbot generator platform
EP3483797A1 (en) Training, validating, and monitoring artificial intelligence and machine learning models
US11914941B2 (en) Integrated circuit layout validation using machine learning
US8549478B2 (en) Graphical user interface input element identification
JP7316453B2 (ja) オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体
US10810018B2 (en) Device with extensibility
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
US11062240B2 (en) Determining optimal workforce types to fulfill occupational roles in an organization based on occupational attributes
US10685310B1 (en) Utilizing a machine learning model to determine complexity levels, risks, and recommendations associated with a proposed product
US20100275186A1 (en) Segmentation for static analysis
JP7438303B2 (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022529178A (ja) 人工知能推奨モデルの特徴処理方法、装置、電子機器、及びコンピュータプログラム
CN105335282A (zh) 用于应用的跨平台测试的方法和系统
CN111652453A (zh) 用于零件设计、仿真和制造的智能工作流程顾问
US11163377B2 (en) Remote generation of executable code for a client application based on natural language commands captured at a client device
CN112527281A (zh) 基于人工智能的算子升级方法、装置、电子设备及介质
Zhang et al. Unirltest: universal platform-independent testing with reinforcement learning via image understanding
CN111679829B (zh) 用户界面设计的确定方法和装置
WO2023037423A1 (ja) 支援装置、支援方法及び支援プログラム
US20230016772A1 (en) Checking device, checking method, and checking program
CN112799658B (zh) 模型训练方法、模型训练平台、电子设备和存储介质
WO2023166631A1 (ja) 支援装置、支援方法及び支援プログラム
US11841892B2 (en) Generating test scenarios by detecting failure patterns and themes in customer experiences
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21956720

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023546606

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE