WO2024091059A1 - 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법 - Google Patents

효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법 Download PDF

Info

Publication number
WO2024091059A1
WO2024091059A1 PCT/KR2023/016856 KR2023016856W WO2024091059A1 WO 2024091059 A1 WO2024091059 A1 WO 2024091059A1 KR 2023016856 W KR2023016856 W KR 2023016856W WO 2024091059 A1 WO2024091059 A1 WO 2024091059A1
Authority
WO
WIPO (PCT)
Prior art keywords
environment model
cps
data
creating
virtual environment
Prior art date
Application number
PCT/KR2023/016856
Other languages
English (en)
French (fr)
Inventor
배두환
신용준
신동환
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230083390A external-priority patent/KR20240059522A/ko
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2024091059A1 publication Critical patent/WO2024091059A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Definitions

  • CPS Cyber-Physical Systems
  • CPS is being actively researched in many application fields such as autonomous vehicles, robots, smart factories, and medical devices.
  • a CPS e.g., an autonomous vehicle
  • an operational environment e.g., a highway
  • FOT Field Operational Test
  • An alternative is a simulation-based approach in which the software controller of the CPS is simulated with a virtual environment model.
  • Korean Patent Publication No. 10-2014-0098602 (published on August 8, 2014) describes a hybrid system such as a cyber-physical system (CPS) that has the characteristics of both physical and computational elements.
  • CPS cyber-physical system
  • a technology for performing distributed simulation using a number of distributed simulators on subsystem models that model the subsystems that make up ) has been disclosed.
  • simulation-based approaches can reduce the cost and risk of CPS target verification compared to using FOT, they require highly crafted virtual environment models based on deep domain knowledge.
  • a virtual environment model generation technique using imitation learning for efficient cyber-physical system goal verification A method of generating a virtual environment model performed on a computer device, wherein the computer device includes at least one device configured to execute computer-readable instructions included in a memory.
  • a method of generating a virtual environment model includes a processor, and the method of generating a virtual environment model includes a CPS based on log data collected in a field operational test (FOT) using an imitation learning algorithm by the at least one processor.
  • FOT field operational test
  • the generating step includes creating the virtual environment using any one of the BC (Behavior Cloning) algorithm, GAIL (Generative Adversarial Imitation Learning), or a combination of the BC algorithm and the GAIL algorithm.
  • BC Behavior Cloning
  • GAIL Geneative Adversarial Imitation Learning
  • a model can be created.
  • the generating step includes collecting the FOT log of the CPS controller as interaction data between the CPS controller and the real environment; generating an environment model that imitates the real environment through imitation learning using the FOT log; And it may include performing verification of the CPS goal through simulation using the environment model.
  • generating an environment model that mimics the real environment comprises a set of environment states, a set of CPS actions, a policy function that captures the software controller of the CPS, and a set of CPS actions and previous states over time as a result of the CPS actions.
  • the environment model can be created based on an interaction model that includes transition functions that capture transitions of environmental states.
  • the step of generating an environment model that mimics the real environment is a model structure based on an environment state transition function, where the current environment state and current CPS behavior are composed of an input layer and the next environment state is composed of an output layer.
  • the environment model can be created with a model structure consisting of a hidden layer that calculates output variables from input variables.
  • generating an environment model that mimics the real environment includes generating training data from the FOT log using a sliding window of history length; And it may include learning the environment model through imitation learning using the training data.
  • the step of generating an environment model that imitates the real environment involves learning the environment model using training data consisting of input and output pairs of the real environment recorded in the FOT log, wherein the environment model Predict output data by running input data included in the training data through a model, calculate a loss based on the difference between the predicted output data and output data included in the training data, and use the loss to model the environment. can be updated.
  • the step of generating an environment model that imitates the real environment includes using the environment model and the environment model using training data and simulation data consisting of input and output pairs of the real environment recorded in the FOT log.
  • the output data is predicted by executing the input data included in the training data through the environment model, and the discriminator is used to predict output data and the training for the input data.
  • a loss for distinguishing output data included in the data may be calculated, the discriminator may be updated using the loss, and the environment model may be updated using the updated discriminator and the simulation data.
  • the step of generating an environment model that imitates the real environment includes determining the environment model and the environment model using training data consisting of input and output pairs of the real environment recorded in the FOT log.
  • output data is predicted by executing the input data included in the training data through the environment model, and a first loss is generated based on the difference between the predicted output data and the output data included in the training data.
  • a second loss by which the discriminator distinguishes between the predicted output data and the output data included in the training data, and update the environment model using the first loss and the second loss. can do.
  • the results of satisfying the CPS requirements can be statistically confirmed by generating as many simulation logs as necessary for statistical verification through simulation using the environment model.
  • a computer program stored in a computer-readable recording medium to execute a method of generating a virtual environment model on a computer the method of generating a virtual environment model is collected from a field operational test (FOT) using an imitation learning algorithm.
  • FOT field operational test
  • a computer-implemented virtual environment model generating apparatus comprising at least one processor configured to execute computer-readable instructions included in a memory, wherein the at least one processor performs FOT using an imitation learning algorithm.
  • CPS Computer-Physical System
  • a novel data-driven approach to automatically generate a virtual environment model from a small amount of FOT logs formally defines the environment model generation problem and solves it using an imitation learning algorithm to achieve low cost through simulation. It is possible to create an accurate virtual environment model for CPS goal verification.
  • FIG. 1 is a block diagram for explaining an example of the internal configuration of a computer device according to an embodiment of the present invention.
  • Figure 2 illustrates a framework for CPS target confirmation in one embodiment of the present invention.
  • Figure 3 shows an overview of the environmental model creation and simulation-based CPS target verification process in one embodiment of the present invention.
  • Figure 4 shows an example of an environment model structure in one embodiment of the present invention.
  • FIG. 5 shows pseudo code of the BC (Behavior Cloning) algorithm in one embodiment of the present invention.
  • FIG. 6 shows pseudo code of the GAIL (Generative Adversarial Imitation Learning) algorithm in one embodiment of the present invention.
  • FIGS 7 to 9 illustrate simulation-based verification use cases in one embodiment of the present invention.
  • Embodiments of the present invention relate to a new data-driven approach to automatically generate virtual environment models from small amounts of FOT logs.
  • Embodiments including those specifically disclosed herein restructure the environment model creation problem into an imitation learning problem to solve the difficulty of manually creating a virtual environment model, and create a virtual environment based on automated data for CPS goal verification.
  • a model can be created.
  • the virtual environment model generating device may be implemented by at least one computer device, and the virtual environment model generating method according to embodiments of the present invention may be implemented by at least one computer device included in the virtual environment model generating device. It can be performed through a computer device.
  • the computer program according to an embodiment of the present invention may be installed and driven in the computer device, and the computer device may perform the virtual environment model creation method according to the embodiments of the present invention under the control of the driven computer program. You can.
  • the above-described computer program may be combined with a computer device and stored in a computer-readable recording medium to execute the virtual environment model creation method on the computer.
  • FIG. 1 is a block diagram showing an example of a computer device according to an embodiment of the present invention.
  • a virtual environment model generating device according to embodiments of the present invention may be implemented by the computer device 100 shown in FIG. 1 .
  • the computer device 100 is a component for executing the virtual environment model creation method according to embodiments of the present invention, and includes a memory 110, a processor 120, a communication interface 130, and It may include an input/output interface 140.
  • the memory 110 is a computer-readable recording medium and may include a non-permanent mass storage device such as random access memory (RAM), read only memory (ROM), and a disk drive.
  • non-perishable large-capacity recording devices such as ROM and disk drives may be included in the computer device 100 as a separate permanent storage device that is distinct from the memory 110.
  • an operating system and at least one program code may be stored in the memory 110.
  • These software components may be loaded into the memory 110 from a computer-readable recording medium separate from the memory 110.
  • Such separate computer-readable recording media may include computer-readable recording media such as floppy drives, disks, tapes, DVD/CD-ROM drives, and memory cards.
  • software components may be loaded into the memory 110 through the communication interface 130 rather than a computer-readable recording medium.
  • software components may be loaded into memory 110 of computer device 100 based on computer programs installed by files received over network 160.
  • the processor 120 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. Commands may be provided to the processor 120 by the memory 110 or the communication interface 130. For example, processor 120 may be configured to execute received instructions according to program code stored in a recording device such as memory 110.
  • the communication interface 130 may provide a function for the computer device 100 to communicate with other devices through the network 160. For example, a request, command, data, file, etc. generated by the processor 120 of the computer device 100 according to a program code stored in a recording device such as memory 110 is transmitted to the network ( 160) and can be transmitted to other devices. Conversely, signals, commands, data, files, etc. from other devices may be received by the computer device 100 through the communication interface 130 of the computer device 100 via the network 160. Signals, commands, data, etc. received through the communication interface 130 may be transmitted to the processor 120 or memory 110, and files, etc. may be stored in a storage medium (as described above) that the computer device 100 may further include. It can be stored as a permanent storage device).
  • the communication method is not limited, and may include not only a communication method utilizing communication networks that the network 160 may include (e.g., mobile communication network, wired Internet, wireless Internet, and broadcasting network), but also short-distance wired/wireless communication between devices.
  • the network 160 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN).
  • PAN personal area network
  • LAN local area network
  • CAN campus area network
  • MAN metropolitan area network
  • WAN wide area network
  • BBN broadband network
  • the network 160 may include any one or more of network topologies including a bus network, star network, ring network, mesh network, star-bus network, tree or hierarchical network, etc. Not limited.
  • the input/output interface 140 may be a means for interfacing with the input/output device 150.
  • input devices may include devices such as a microphone, keyboard, camera, or mouse, and output devices may include devices such as displays and speakers.
  • the input/output interface 140 may be a means for interfacing with a device that integrates input and output functions, such as a touch screen.
  • the input/output device 150 may be configured as a single device with the computer device 100.
  • computer device 100 may include fewer or more components than those of FIG. 1 . However, there is no need to clearly show most prior art components.
  • the computer device 100 may be implemented to include at least a portion of the input/output device 150 described above, or may further include other components such as a transceiver, a camera, various sensors, and a database.
  • CPS continuously interacts with the physical environment through a software controller that observes the environment and determines actions.
  • a software controller that observes the environment and determines actions.
  • engineers can determine to what extent the CPS being analyzed can achieve a given goal.
  • due to real costs and risks iterating many FOTs to obtain statistically significant results is a difficult problem.
  • simulation-based verification can be a good alternative for efficient CPS target verification, but it requires an accurate virtual environment model that can replace the real environment that interacts with the CPS in a closed loop.
  • These embodiments relate to a new data-driven approach to automatically generate a virtual environment model from a small amount of FOT logs.
  • the environment model creation problem is reorganized into an imitation learning problem.
  • a virtual environment model can be created based on automated data for CPS target verification.
  • the data-based approach according to this embodiment will be referred to as ENVI (ENVironment Imitation).
  • imitation learning is a widely studied learning theory that mimics complex human behavior in a given task with only a limited amount of demonstration.
  • This embodiment utilizes imitation learning to mimic how the real environment interacts with the CPS being analyzed on a small set of log data collected at FOT. Because log data records how the CPS and the real environment interacted, the approach according to this embodiment can create an environment model that mimics the state transition mechanisms of the real environment according to CPS behavior as closely as possible to those recorded in the log data. there is.
  • the generated environment model can be used to simulate the CPS software controller as needed to statistically analyze the achievement of CPS goals.
  • the present invention illuminates the problem of creating an environment model for CPS goal verification with a formal problem definition, and can automatically generate a virtual environment model from a small amount of FOT logs using an imitation learning algorithm.
  • ENVI enables verification of CPS objectives without the use of such high-quality simulators. Engineers can simply provide ENVI with the software controller (i.e., the lane-keeping system being analyzed) and a small amount of FOT logs collected from scratch, which is much less data than is needed for statistically significant results using FOT. Then, ENVI automatically creates a virtual environment model that mimics the real environment behavior of the lane keeping system.
  • the challenge for ENVI is to use a limited amount of data to automatically create a model of a virtual environment that behaves as closely as possible to the real environment. To solve this, imitation learning can be used.
  • Imitation learning is a learning method that allows an agent to imitate an expert's behavior for a specific task by observing the expert's demonstration. For example, an autonomous vehicle can learn to drive by observing how a human driver controls the vehicle. Imitation learning assumes that experts make task decisions based solely on the conditions they encounter. Based on these assumptions, an expert's demonstration is a set of pairs of states and actions, and imitation learning aims to extract the expert's internal decision-making function (i.e., a policy function that maps states to actions) from the demonstration.
  • a representative imitation learning algorithm is explained as follows.
  • BC uses supervised learning to infer expert policy functions.
  • Training data can consist of pairs of states and corresponding actions from expert demonstrations.
  • Existing supervised learning algorithms can train policy functions that return expert-like behavior for a given state. Due to the simplicity of the BC algorithm, BC can create good policy functions that quickly mimic experts if there is enough demonstration data. However, if the training data (i.e. expert demonstrations) do not completely cover the input state space or are biased, the policy function may not correctly mimic the expert behavior.
  • GAIL leverages the idea of an adversarial generative network to evolve a policy function using iterative competition with a discriminator that evaluates the policy function. Therefore, both the policy function and the discriminator are trained in parallel.
  • the policy function takes states from expert demonstrations and generates simulated tasks.
  • the discriminator then takes the input (i.e. state) and output (i.e. simulated behavior) of the policy function and evaluates how the policy function behaves like a real expert, as shown in the demonstration.
  • the policy function is trained to maximize the discriminator's reward.
  • the discriminator is trained using both demonstration data and simulation traces of the policy function.
  • the demonstration data the state and task pairs that are the input and output of the policy function are indeed labeled, but the pairs in the simulation trace are spuriously labeled.
  • Supervised learning algorithms train a discriminator to quantitatively evaluate whether a state and action pair is real (returning a high reward) or fake (returning a low reward).
  • the policy function After numerous training iterations of the policy function and discriminator, the policy function usually imitates experts well to fool advanced discriminators. GAIL uses both expert demonstration data and simulation trace data of internally generated policy functions, so it works well even with small demonstration data. However, the learning speed is relatively slow due to the internal simulation of the policy function.
  • the CPS software controller starts from the initial state of the environment, observes the state, and determines appropriate actions to maximize the likelihood of achieving the goal. Then, when an action is taken, the environment for the next step changes, and CPS observes this again to determine the action for the next step.
  • the CPS and the environment interact in a closed loop without interference by third factors.
  • the CPS-ENV interaction model models the sequential decision-making process of an agent observing the state of the environment.
  • S is the set of observable states of the environment under consideration
  • A is the set of possible CPS actions.
  • ⁇ :S ⁇ A is a policy function that captures the software controller of the CPS
  • ⁇ :S ⁇ A ⁇ S is a transition function that captures transitions in environmental states over time as a result of CPS actions and previous states
  • s 0 is the initial environmental state.
  • the trajectories of the CPS-ENV interaction model succinctly capture the sequential interactions between the CPS under analysis and the environment, it is easy to determine whether the CPS goals have been achieved by analyzing the trajectories.
  • Figure 2 is a formal framework for CPS goal verification in one embodiment of the present invention, and visualizes how to use the CPS-ENV interaction model for simulation-based CPS goal verification.
  • the achievement of is quantitative.
  • M For the CPS-ENV interaction model M, For M marked with The verification result is for the trajectory of M. It is calculated by evaluating the achievement of.
  • the value of can be Boolean (indicating success or failure of the requirement in unambiguous terms) or Float ( It may be (representing the measurement value of the evaluation index).
  • one of the evaluation indicators for lane keeping requirements is the distance the vehicle is from the center of the lane. After verifying the lane-keeping objective, the average or maximum distance from the center is calculated.
  • the challenge in creating virtual environment models for simulation-based CPS objective verification is to develop an accurate virtual environment model that can replace the real environment of the CPS objective under verification while maintaining the same level of verification accuracy.
  • M r and M v are almost the same CPS, so S, A, ⁇ , s 0 are the same, but ⁇ r and ⁇ v are different because they represent how the corresponding environment reacts to the actions performed by the CPS.
  • imitation learning can be used to automatically create a virtual environment model with only a small amount of data.
  • the data are partial trajectories of M r that can be collected from several FOTs for the CPS under test in a real application environment.
  • Imitation learning is expected to be well suited to the problem of creating environmental models because it can efficiently extract from limited demonstrations how an expert performs sequential actions for a given state and minimize compound errors. Therefore, for the environment model creation problem, imitation learning can extract ⁇ v instead of ⁇ (the original goal of imitation learning), which can best reproduce a given trajectory of M r (i.e., FOT logarithm).
  • ENVI a new approach to the problem of creating environmental models for CPS goal verification.
  • we solve the problem by using imitation learning to automatically infer virtual environment state transition functions from logs recorded during the interaction between the CPS under test and its application environment.
  • the actual application environment is considered the 'expert' and FOT logs reveal this expert.
  • Figure 3 shows an environment imitation process and a simulation-based CPS target verification process in one embodiment of the present invention.
  • Figure 3 shows an overview of the environmental model creation and simulation-based CPS goal verification process using ENVI.
  • the virtual environment model generation method includes a FOT log collection step for model generation (S10), an environment model generation step using an imitation learning algorithm (S20), and CPS target verification using the generated environment model. It may include step S30.
  • the first step (S10) engineers collect the FOT logs of the CPS controller under analysis ⁇ deployed in the real application environment.
  • the interaction between the CPS and the real environment is abstracted as M r , including the unknown ⁇ r .
  • the trajectory of M r recorded in the log is used by the imitation learning algorithm in the second step (S20) to automatically generate a virtual environment model ⁇ v that imitates ⁇ r .
  • a simulation of ⁇ is performed in the virtual environment described in ⁇ v and simulation logs are generated as needed for statistical verification. Therefore, engineers can statistically determine to what extent CPS requirements are met using only a few FOT logs.
  • the first step in ENVI is to collect interaction data between the CPS controller and the real environment, which will later be used as a 'demonstration' for imitation learning to create a virtual environment.
  • the second step of ENVI is to generate a virtual environment model from the first collected FOT logs using an imitation learning algorithm.
  • the environment model creation step may consist of defining the environment model structure and generating a trained model by executing an imitation learning algorithm.
  • the environment model is implemented with a neural network to utilize imitation learning. Users define the neural network structure before training the environment model.
  • the virtual environment model structure is based on the previously defined environment state transition function ⁇ :S ⁇ A ⁇ S. This assumes that an ideal (real) environment generates the next state s t+1 ⁇ S by taking only the current environmental state s t ⁇ S and the current CPS action a t ⁇ A. This means that (s t , a t ) is sufficient to determine s t+1 under ideal circumstances at time t. However, in reality, they are observed by the sensors of the CPS being verified and may not contain sufficient information because the sensors have limited detection capabilities. To solve this problem, we extend ⁇ for the virtual environment model as ⁇ v :(S ⁇ A) l ⁇ S. Here, l is the length of state-action pairs needed to predict the next state.
  • ⁇ v is Predict s t+1 using .
  • M ⁇ S,A, ⁇ , ⁇ ,s 0
  • M v ⁇ S,A, ⁇ , ⁇ v , ⁇ 0 ).
  • Figure 4 shows an example of an environment model structure in one embodiment of the present invention.
  • Figure 4 shows an example structure of ⁇ v based on the extended definition of ⁇ v .
  • the input and output of ⁇ v are and s t+1 .
  • Environmental states and CPS actions a can generally be vectors, and let
  • the first task is to choose an appropriate value for the history length l. As the value of l increases, more information can be captured from the state of the environment while the training and execution cost of ⁇ v increases. Therefore, it is important to balance the amount of information and computational cost. For example, you can visualize FOT logs and see if there are cyclical patterns in the sequence of environmental states.
  • the second task is to design the hidden layer of ⁇ v .
  • the hidden layer specifies how to compute output variables from input variables. This is called forward propagation.
  • n is the number of FOT logs, ..,
  • BC trains the environment model ⁇ v using supervised learning.
  • the input and output pairs of the real environment recorded in the FOT log are provided to ⁇ v as training data, and ⁇ v is trained to learn the real environment state transitions indicated in the training data.
  • the BC algorithm takes a randomly initialized environment model ⁇ v and a training data set D as input. Returns the environment model ⁇ v trained using D.
  • the BC algorithm iteratively trains ⁇ v using D until a stopping condition (e.g., number of mixing iterations or convergence of model loss) is met (lines 1-7). For each (X, Y) ⁇ D, the algorithm repeats the following (lines 2-6). ( 1 ) Execute Update ⁇ v to minimize (line 5). When ⁇ v is returned, the BC algorithm ends (line 8).
  • a stopping condition e.g., number of mixing iterations or convergence of model loss
  • the BC algorithm in Figure 5 is intuitive and easy to implement. Additionally, the model loss converges quickly because it is a supervised learning approach. However, if the training data does not completely cover the input space or is biased, the model may not accurately mimic the real environment.
  • GAIL is a discriminator that evaluates ⁇ v not only in terms of ⁇ v but also in terms of the CPS controller Also train repeatedly.
  • ⁇ v with respect to ⁇ r (captured by D) by comparing ⁇ v (s, ⁇ (s)) and ⁇ r (s, ⁇ (s)). for teeth is trained using D by supervised learning, and ⁇ v is Trained using the evaluation results.
  • Figure 6 shows pseudocode of the GAIL algorithm.
  • the GAIL algorithm uses D and ⁇ to calculate ⁇ v and ⁇ until the stopping condition is met. are all trained repeatedly (lines 1-18).
  • the GAIL algorithm is for each (X, Y) ⁇ D (lines 2-17), run ⁇ v on X to predict the sequence of output Y' (line 3), Compute the discriminator loss loss d , which indicates how well y can distinguish between Y and Y' (line 4), and use loss d to Update (line 5).
  • the algorithm is Train ⁇ v using and ⁇ (lines 6-16). Specifically, the GAIL algorithm initializes a set of rewards R and model input x' (lines 6-7), ⁇ v , ⁇ , Collect r ⁇ R for each ).
  • the GAIL algorithm runs ⁇ v on x' to collect r ⁇ R for each x' (lines 8-14), predicts the output y' (line 9), and calculates x' and y to obtain the reward r. 'at (line 10), add r to the end of R (line 11), run ⁇ on y' to determine the CPS action a (line 12), and remove (s 1 , a 1 ). and add (y', a) cast Update with (line 13). When ⁇ v is returned, the GAIL algorithm ends (line 19).
  • GAIL uses ⁇ and Use the input-output pair (x', y') simulated by . This is why it is known to work well even with a small amount of training data.
  • the GAIL algorithm is more complex to implement than the BC algorithm, and the environmental model converges slowly or sometimes fails to converge depending on the hyperparameter values.
  • the BC algorithm trains ⁇ v using only training data, but the GAIL algorithm trains ⁇ v using simulation data together. BC and GAIL can be combined to use both training and simulation data without algorithm conflicts.
  • the BC and GAIL combined algorithm is identical to the GAIL algorithm in terms of input and output, and similar to the GAIL algorithm, ⁇ v and train all. especially, is updated identically to GAIL. However, ⁇ v is updated using both loss BC (line 4 of the BC algorithm in Figure 5) and loss GAIL (line 15 of the GAIL algorithm in Figure 6). Through this, the algorithm combining BC and GAIL can converge quickly (similar to BC) with a small amount of training data (similar to GAIL).
  • initialization data ⁇ 0 must be provided. Since ⁇ 0 is the partial trajectory of M r through l steps, the engineer must perform a partial FOT over l steps to obtain ⁇ 0 . Obtaining ⁇ 0 is much cheaper than having a full FOT for FOT-based CPS objective verification because l is much shorter than T (i.e. the full FOT period).
  • the engineer then runs M v as many times as needed for statistical verification. For example, to ensure that a vehicle equipped with a lane-keeping system under development is never more than 1 meter from the center of the lane, engineers use the generated environment model to simulate the lane-keeping system multiple times. Engineers then analyze the farthest distance from the lane center in each simulation and determine whether the requirements are statistically met.
  • Figures 7 to 9 illustrate a use case of simulation-based verification using ENVI in one embodiment of the present invention.
  • one version is used for training, and verification is performed on the same version as for training.
  • This is the basic use case. For example, to determine the first version of the lane keeping system controller, you need to collect some FOT logs of that version since there are no previous versions (and their FOT logs). Since training involves one version and validation is against a known version, this case is called TOVK.
  • multiple versions are used for training, and validation is performed on one of the versions used for training.
  • several versions of CPS controllers can be used for training. For example, if you have FOT logs collected from a previously developed version of a lane keeping system and FOT logs collected from a new version, all logs associated with different parameter values can be used together to create a single environment model. . Therefore, all FOT logs can be best utilized for creating virtual environment models. Training involves multiple versions and validation is against one of the known versions, in this case called TMVK.
  • ENVI a new data-based environment imitation approach that efficiently creates an accurate virtual environment model for CPS target verification
  • ENVI requires only a few FOTs to collect some FOT logs for training a virtual environment model.
  • Representative imitation learning algorithms i.e. BC, GAIL, and BC ⁇ GAIL
  • BC, GAIL, and BC ⁇ GAIL can be utilized to automatically generate accurate virtual environment models from the collected FOT logs.
  • the device described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components.
  • the devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable logic unit (PLU).
  • ALU arithmetic logic unit
  • FPGA field programmable gate array
  • PLU programmable logic unit
  • It may be implemented using one or more general-purpose or special-purpose computers, such as a logic unit, microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • OS operating system
  • a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include.
  • a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • the software and/or data may be embodied in any type of machine, component, physical device, computer storage medium or device for the purpose of being interpreted by or providing instructions or data to the processing device. there is.
  • Software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • the medium may continuously store a computer-executable program, or temporarily store it for execution or download.
  • the medium may be a variety of recording or storage means in the form of a single or several pieces of hardware combined. It is not limited to a medium directly connected to a computer system and may be distributed over a network. Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And there may be something configured to store program instructions, including ROM, RAM, flash memory, etc. Additionally, examples of other media include recording or storage media managed by app stores that distribute applications, sites or servers that supply or distribute various other software, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법이 개시된다. 가상 환경 모델 생성 방법은, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계를 포함할 수 있다.

Description

효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법
아래의 설명은 소량의 FOT(Field Operational Test) 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식에 관한 것이다.
CPS(Cyber-Physical Systems)는 물리적 구성 요소와 소프트웨어 구성 요소를 모두 활용하여 런타임 시 물리적 액추에이터를 지속적으로 수집, 분석 및 제어한다.
CPS는 자율주행차, 로봇, 스마트 공장, 의료 기기와 같은 많은 응용 분야에서 활발히 연구되고 있다.
CPS 개발의 본질적인 문제 중 하나는 개발 중인 CPS가 목표를 어느 정도 달성할 수 있는지 검증하는 것이다.
이에 답하기 위해 개발자는 운영 환경(예를 들어, 고속도로)에 CPS(예를 들어, 자율 차량)를 배치하고 FOT(Field Operational Test)에서 수집된 로그를 사용하여 CPS의 목표 달성(예를 들어, 차선 유지)을 확인할 수 있다.
그러나, FOT를 수행하는 것은 비용이 많이 들고 시간이 많이 걸리며 심지어 위험하기까지 하다. 특히, 검증 결과에서 특정 수준의 통계적 유의성을 달성하기 위해 수백 번 반복해야 하는 경우에는 더욱 그러하다.
대안은 CPS의 소프트웨어 컨트롤러가 가상 환경 모델로 시뮬레이션되는 시뮬레이션 기반 접근 방식이라 할 수 있다.
일례로, 한국 공개특허 제10-2014-0098602호(공개일 2014년 08월 08일)에는 물리적인 요소와 계산적인 요소의 특성을 모두 갖는 가상-물리 시스템(CPS)과 같은 하이브리드 시스템(Hybrid system)을 구성하는 서브시스템(Subsystem)을 모델링한 서브시스템 모델들에 대해 다수의 분산 시뮬레이터들을 이용하여 분산 시뮬레이션을 수행하는 기술이 개시되어 있다.
시뮬레이션 기반 접근 방식이 FOT를 사용하는 것에 비해 CPS 목표 검증의 비용과 위험을 줄일 수 있지만 깊은 도메인 지식을 기반으로 고도로 만들어진 가상 환경 모델이 필요하다.
소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식으로 환경 모델 생성 문제를 공식적으로 정의하고 모방 학습(Imitation Learning) 알고리즘을 사용하여 해결할 수 있다.
효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법 컴퓨터 장치에서 수행되는 가상 환경 모델 생성 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 가상 환경 모델 생성 방법은, 상기 적어도 하나의 프로세서의 의해, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계를 포함하는 가상 환경 모델 생성 방법을 제공한다.
일 측면에 따르면, 상기 생성하는 단계는, BC(Behavior Cloning) 알고리즘, GAIL(Generative Adversarial Imitation Learning), 상기 BC 알고리즘과 상기 GAIL 알고리즘이 결합된 알고리즘 중 어느 하나의 모방 학습 알고리즘을 사용하여 상기 가상 환경 모델을 생성할 수 있다.
다른 측면에 따르면, 상기 생성하는 단계는, CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터로서 상기 CPS 컨트롤러의 FOT 로그를 수집하는 단계; 상기 FOT 로그를 이용한 모방 학습을 통해 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계; 및 상기 환경 모델을 이용한 시뮬레이션을 통해 상기 CPS 목표 검증을 수행하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 환경 상태 집합, CPS 행동 집합, CPS의 소프트웨어 컨트롤러를 캡처하는 정책 함수, 및 CPS 행동과 이전 상태의 결과로 시간 경과에 따른 환경 상태의 전환을 캡처하는 전환 함수를 포함하는 상호 작용 모델을 기반으로 상기 환경 모델을 생성할 수 있다.
또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 환경 상태 전환 함수 기반의 모델 구조로서 현재 환경 상태와 현재 CPS 행동이 입력 계층으로 구성되고 다음 환경 상태가 출력 계층으로 구성되고 입력 변수에서 출력 변수를 계산하는 방법이 은닉 계층으로 구성되는 모델 구조로 상기 환경 모델을 생성할 수 있다.
또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 이력 길이의 슬라이딩 윈도우를 사용하여 상기 FOT 로그에서 훈련 데이터를 생성하는 단계; 및 상기 훈련 데이터를 이용한 모방 학습을 통해 상기 환경 모델을 학습하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델을 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 손실을 계산하고 상기 손실을 사용하여 상기 환경 모델을 업데이트할 수 있다.
또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터와 시뮬레이션 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기(discriminator)를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 손실을 계산하고 상기 손실을 사용하여 상기 판별기를 업데이트하고 상기 업데이트된 판별기와 상기 시뮬레이션 데이터를 사용하여 상기 환경 모델을 업데이트할 수 있다.
또 다른 측면에 따르면, 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는, 상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 제1 손실을 계산하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 제2 손실을 계산하고 상기 제1 손실과 상기 제2 손실을 사용하여 상기 환경 모델을 업데이트할 수 있다.
또 다른 측면에 따르면, 상기 CPS 목표 검증을 수행하는 단계는, 상기 환경 모델을 이용한 시뮬레이션을 통해 통계 검증에 필요한 만큼 시뮬레이션 로그를 생성하여 CPS 요구 사항에 대한 충족 결과를 통계적으로 확인할 수 있다.
가상 환경 모델 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서, 상기 가상 환경 모델 생성 방법은, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.
컴퓨터로 구현되는 가상 환경 모델 생성 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 과정을 처리하는 가상 환경 모델 생성 장치를 제공한다.
본 발명의 실시예들에 따르면, 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식으로 환경 모델 생성 문제를 공식적으로 정의하고 모방 학습 알고리즘을 사용하여 해결함으로써 시뮬레이션을 통해 저렴한 비용으로 CPS 목표 검증을 위한 정확한 가상 환경 모델을 생성할 수 있다.
도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 CPS 목표 확인을 위한 프레임워크를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 환경 모델 생성 및 시뮬레이션 기반 CPS 목표 검증 프로세스의 개요를 도시한 것이다.
도 4는 본 발명의 일실시예에 있어서 환경 모델 구조 예시를 도시한 것이다.
도 5는 본 발명의 일실시예에 있어서 BC(Behavior Cloning) 알고리즘의 의사 코드를 도시한 것이다.
도 6은 본 발명의 일실시예에 있어서 GAIL(Generative Adversarial Imitation Learning) 알고리즘의 의사 코드를 도시한 것이다.
도 7 내지 도 9는 본 발명의 일실시예에 있어서 시뮬레이션 기반 검증 사용 사례를 도시한 것이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 가상 환경 모델을 수동으로 생성하는 어려움을 해결하기 위해 환경 모델 생성 문제를 모방 학습 문제로 재구성하여 CPS 목표 검증을 위한 자동화된 데이터를 기반으로 가상 환경 모델을 생성할 수 있다.
본 발명의 실시예들에 따른 가상 환경 모델 생성 장치는 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 가상 환경 모델 생성 방법은 가상 환경 모델 생성 장치에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 가상 환경 모델 생성 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 가상 환경 모델 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 가상 환경 모델 생성 장치는 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.
도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 가상 환경 모델 생성 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.
메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.
프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
이하에서는 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법의 구체적인 실시예를 설명하기로 한다.
CPS는 환경을 관찰하고 조치를 결정하는 소프트웨어 컨트롤러를 통해 물리적 환경과 지속적으로 상호 작용한다. 엔지니어는 FOT 로그를 분석하여 분석 중인 CPS가 주어진 목표를 어느 정도까지 달성할 수 있는지 확인할 수 있다. 그러나, 실제 비용과 위험으로 인해 통계적으로 유의미한 결과를 얻기 위해 많은 FOT를 반복하는 것은 어려운 문제이다. 이를 해결하기 위한 시뮬레이션 기반 검증은 효율적인 CPS 목표 검증을 위한 좋은 대안이 될 수 있지만 폐쇄 루프에서 CPS와 상호 작용하는 실제 환경을 대체할 수 있는 정확한 가상 환경 모델이 필요하다.
본 실시예들은 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성하는 새로운 데이터 기반 접근 방식에 관한 것으로, 가상 환경 모델을 수동으로 생성하는 어려움을 해결하기 위해 환경 모델 생성 문제를 모방 학습 문제로 재구성하여 CPS 목표 검증을 위한 자동화된 데이터를 기반으로 가상 환경 모델을 생성할 수 있다. 본 실시예에 따른 데이터 기반 접근 방식을 ENVI(ENVironment Imitation)라 칭하기로 한다.
기계 학습에서 모방 학습은 제한된 양의 데모만으로 주어진 작업에서 복잡한 인간 행동을 모방하는 학습론으로 널리 연구되고 있다. 본 실시예에서는 모방 학습을 활용하여 실제 환경이 FOT에서 수집된 작은 로그 데이터 세트에서 분석 중인 CPS와 상호 작용하는 방식을 모방한다. 로그 데이터는 CPS와 실제 환경이 어떻게 상호 작용했는지 기록하기 때문에 본 실시예에 따른 접근 방식은 CPS 동작에 따라 실제 환경의 상태 전환 메커니즘을 로그 데이터에 기록된 것과 최대한 가깝게 모방하는 환경 모델을 생성할 수 있다. 생성된 환경 모델은 CPS 목표 달성을 통계적으로 분석하는 데 필요한 만큼 CPS 소프트웨어 컨트롤러를 시뮬레이션하는 데 사용될 수 있다. 다시 말해, 본 발명은 정형화된 문제 정의로 CPS 목표 검증을 위한 환경 모델 생성 문제를 조명한 것으로, 모방 학습 알고리즘을 이용하여 소량의 FOT 로그로부터 가상 환경 모델을 자동으로 생성할 수 있다.
본 발명에 따른 ENVI의 사용 사례를 입증하기 위해 CPS 목표 검증의 간단한 예를 설명한다.
자율 주행 차량의 차선 유지 시스템을 개발하는 소프트웨어 엔지니어를 생각해 보자. 엔지니어는 차선 중심으로부터의 거리를 지속적으로 모니터링하고 가능한 한 거리를 작게 유지하기 위해 얼마나 회전해야 하는지를 결정하는 스티어링 각도를 계산하는 차량의 소프트웨어 컨트롤러(즉, 차선 유지 시스템)를 개발하고 테스트하는 것을 목표로 한다.
소프트웨어 컨트롤러가 개발되면 엔지니어는 컨트롤러가 장착된 차량이 주행 중에도 차선의 중심을 계속 따르도록 해야 한다. 이를 위해 엔지니어는 차량을 안전한 도로에 전개하고, t = 1,...,T에서 거리 dt와 스티어링 각도 at를 포함한 FOT 로그를 수집한다. 여기서 T는 사전 설정된 FOT 지속 시간이다. 엔지니어는 수집된 데이터를 기반으로 차량이 차선 중심에서 벗어난 거리의 합(
Figure PCTKR2023016856-appb-img-000001
)을 계산하여 차선 유지 시스템의 품질을 정량적으로 평가할 수 있다. 정량적 평가는 시스템의 목표, 즉
Figure PCTKR2023016856-appb-img-000002
가 작은 임계값 ε에 대해 유지되는지 여부를 정확하게 검증하는 데 사용된다. 타이어와 지면 사이의 불균일한 마찰과 같은 FOT의 불확실성으로 인해 동일한 FOT를 여러 번 반복해야 하며, 그 결과에 통계적 분석을 적용해야 한다.
통계적으로 중요한 결과를 얻기 위해 FOT를 반복하는 데는 많은 시간과 자원이 필요하다. 이 문제를 해결하기 위해 엔지니어는 시뮬레이션에 의존하기로 결정할 수 있다. 그러나, 고품질 및 물리 기반 시뮬레이터를 사용하는 것은 특히 물리학에 대한 전문 지식이 충분하지 않은 소프트웨어 엔지니어에게 매우 어려운 일이다. 시뮬레이션 결과가 FOT 결과와 거의 동일하도록 시뮬레이터에서 시스템의 물리적 구성 요소(예를 들어, 휠 및 휠베이스의 크기)와 도로를 정확하게 설계하는 것은 쉽지 않다.
ENVI는 이러한 고품질 시뮬레이터를 사용하지 않고도 CPS 목표 검증을 가능하게 한다. 엔지니어는 단순히 소프트웨어 컨트롤러(즉, 분석 중인 차선 유지 시스템)와 처음부터 수집한 소량의 FOT 로그를 ENVI에 제공할 수 있으며, 이는 FOT를 사용한 통계적으로 중요한 결과에 필요한 데이터보다 훨씬 적다. 그런 다음, ENVI는 차선 유지 시스템의 실제 환경 동작을 모방한 가상 환경 모델을 자동으로 생성한다, 가상 환경 모델은 주어진 t = 2,...,T에서 dt와 at에 대해 dt+1을 시뮬레이션하고 가상 모델을 기반으로 계산된
Figure PCTKR2023016856-appb-img-000003
가 FOT를 기반으로 계산된 값과 거의 동일하도록 할 수 있다. 따라서, 엔지니어는 시뮬레이션을 여러 번 빠르게 다시 실행함으로써 적은 비용으로 소프트웨어 컨트롤러의 품질에 대한 통계적으로 중요한 결과를 얻을 수 있다. 또한, 여러 소프트웨어 컨트롤러 버전이 서로 다른 CPS 동작을 수행하는 경우 ENVI에서 생성된 가상 환경 모델을 재사용하여 실제 환경에서 테스트된 적이 없는 새 컨트롤러 버전의 CPS 목표 달성을 확인할 수 있다.
ENVI의 당면 과제는 제한된 양의 데이터를 사용하여 실제 환경과 최대한 유사하게 작동하는 가상 환경 모델을 자동으로 생성하는 것이다. 이를 해결하기 위해 모방 학습을 활용할 수 있다.
모방 학습(Imitation Learning)
모방 학습은 에이전트가 전문가의 시연을 관찰하여 특정 작업에 대한 전문가 행동을 모방할 수 있는 학습 방법이다. 예를 들어, 자율 주행 차량은 인간 운전자가 차량을 어떻게 제어하는지 관찰함으로써 운전하는 법을 배울 수 있다. 모방 학습은 전문가가 마주치는 상태에만 따라 작업을 결정한다고 가정한다. 이러한 가정에 기초하여, 전문가 시연은 일련의 상태와 행동의 쌍이며, 모방 학습은 시연에서 전문가의 내부 의사결정 기능(즉, 상태를 행동에 매핑하는 정책 기능)을 추출하는 것을 목표로 한다. 대표적인 모방 학습 알고리즘을 설명하면 다음과 같다.
(1) BC(Behavior Cloning)
BC는 지도 학습을 사용하여 전문가의 정책 기능을 추론한다. 훈련 데이터는 전문가의 시연에서 상태와 해당 작업을 쌍으로 구성할 수 있다. 기존의 지도 학습 알고리즘은 주어진 상태에 대해 전문가와 같은 동작을 반환하는 정책 기능을 훈련시킬 수 있다. BC 알고리즘의 단순성으로 인해, BC는 시연 데이터가 충분히 많으면 전문가를 빠르게 모방하는 좋은 정책 기능을 만들 수 있다. 그러나, 훈련 데이터(즉, 전문가 시연)가 입력 상태 공간을 완전히 커버하지 않거나 편향된 경우 정책 기능이 전문가 행동을 올바르게 모방하지 못할 수 있다.
(2) GAIL(Generative Adversarial Imitation Learning)
GAIL은 적대적 생성망의 아이디어를 활용하여 정책 기능을 평가하는 판별기와의 반복 경쟁을 사용하여 정책 기능을 진화시키는 것이다. 따라서, 정책 기능과 판별기는 모두 병렬로 훈련된다.
정책 기능은 전문가 시연에서 상태를 가져오고 시뮬레이션된 작업을 생성한다. 그런 다음 판별기는 정책 기능의 입력(즉, 상태)과 출력(즉, 시뮬레이션된 동작)을 얻고 시연에 나온 것처럼 정책 기능이 실제 전문가처럼 작동하는 방식을 평가한다. 시뮬레이션이 전문가 시연과 비슷할수록 정책 기능은 판별기에 의해 더 많은 보상을 받는다. 정책 기능은 판별기의 보상을 최대화하도록 훈련된다.
반면에, 판별기는 정책 기능의 시연 데이터와 시뮬레이션 추적을 모두 사용하여 훈련된다. 시연 데이터에서 정책 기능의 입력 및 출력인 상태 및 작업 쌍은 실제로 레이블이 있지만 시뮬레이션 추적의 쌍은 가짜로 레이블이 있다. 지도 학습 알고리즘은 상태와 동작 쌍이 실제(높은 보상 반환)인지 가짜(낮은 보상 반환)인지 정량적으로 평가하도록 판별기를 훈련시킨다.
정책 기능과 판별기의 수많은 학습 반복 후, 정책 기능은 일반적으로 고급 판별기를 속이기 위해 전문가를 잘 모방한다. GAIL은 내부적으로 생성된 정책 기능의 전문가 시연 데이터와 시뮬레이션 추적 데이터를 모두 사용하므로 작은 시연 데이터로도 잘 작동한다. 그러나, 정책 기능의 내부 시뮬레이션으로 인해 학습 속도가 상대적으로 느리다.
ENVI를 위한 문제 정의
이하에서는 분석 중인 CPS가 목표를 달성하기 위해 환경과 상호 작용하는 방법을 모델링하기 위한 수학적 프레임워크를 소개한다. 그런 다음 공식 프레임워크를 기반으로 CPS 목표 검증을 위한 환경 모델 생성 문제를 정의한다.
(1) CPS 목표 검증을 위한 공식 프레임워크
CPS는 물리적 환경과 상호 작용하여 목표를 달성한다. 특히, CPS 소프트웨어 컨트롤러는 환경의 초기 상태부터 시작하여 상태를 관찰하고 목표 달성 가능성을 최대화하기 위해 적절한 조치를 결정한다. 그런 다음 조치를 취하면 다음 단계에 대한 환경이 변경되고 CPS는 이를 다시 관찰하여 다음 단계에 대한 조치를 결정한다. 본 실시예에서는 CPS와 환경이 세 번째 요인에 의한 간섭 없이 닫힌 루프에서 상호 작용한다고 가정한다. 이 프로세스를 공식화하기 위해 마르코프 의사결정 프로세스에서 영감을 얻은 새로운 CPS-ENV 상호작용 모델을 제시한다. CPS-ENV 상호작용 모델은 환경 상태에 대해 관찰 중인 에이전트의 순차적 의사결정 프로세스를 모델링한다.
구체적으로, CPS-ENV 상호 작용 모델은 튜플 M={S,A,π,δ,s0)이다. 여기서, S는 고려 중인 환경의 관찰 가능한 상태 집합이고, A는 가능한 CPS 행동 집합이다. π:S→A는 CPS의 소프트웨어 컨트롤러를 캡처하는 정책 함수이며, δ:S×A→S는 CPS 행동과 이전 상태의 결과로 시간 경과에 따른 환경 상태의 전환을 캡처하는 전환 함수이고, s0은 초기 환경 상태이다. 예를 들어, CPS는 s0부터 시작하여 다음 상태 s1=δ(s0,a0)로 이어지는 행동 a0=π(s0)을 수행한다. CPS는 s1을 관찰하여 다시 다음 행동 a1=π(s1)등을 수행한다.
CPS-ENV 상호 작용 모델 M={S,A,π,δ,s0)의 경우, n단계를 거치는 일련의 전환 시퀀스
Figure PCTKR2023016856-appb-img-000004
을 생각한다. 여기서,
Figure PCTKR2023016856-appb-img-000005
는 CPS의 행동 at-1을 취함으로써 작용을 함으로써 환경 상태 st-1에서 다른 상태 st로의 전환을 나타낸다. 보다 공식적으로, T 시간 눈금에 대한 M의 궤적을 튜플
Figure PCTKR2023016856-appb-img-000006
의 시퀀스로 정의한다.
CPS-ENV 상호 작용 모델의 궤적은 분석 중인 CPS와 환경 간의 순차적 상호 작용을 간결하게 포착하기 때문에 궤적을 분석하여 CPS 목표가 달성되었는지 여부를 쉽게 확인할 수 있다.
도 2는 본 발명의 일실시예에 있어서 CPS 목표 확인을 위한 공식 프레임워크로, 시뮬레이션 기반 CPS 목표 검증에 CPS-ENV 상호 작용 모델을 사용하는 방법을 시각화한 것이다. 구체적으로,
Figure PCTKR2023016856-appb-img-000007
가 검증 중인 목표를 정확하게 지정하는 요구 사항이라 하자.
Figure PCTKR2023016856-appb-img-000008
의 달성은 정량적이다. CPS-ENV 상호작용 모델 M의 경우,
Figure PCTKR2023016856-appb-img-000009
로 표시된 M에 대한
Figure PCTKR2023016856-appb-img-000010
의 검증 결과는 M의 궤적에 대한
Figure PCTKR2023016856-appb-img-000011
의 달성을 평가하여 계산된다.
Figure PCTKR2023016856-appb-img-000012
의 유형에 따라
Figure PCTKR2023016856-appb-img-000013
의 값은 Boolean(명확한 기준으로 요구 사항의 성공 또는 실패를 나타냄) 또는 Float(
Figure PCTKR2023016856-appb-img-000014
의 평가 지표 측정값을 나타냄)일 수 있다. 예를 들어, 차선 유지 요건의 평가 지표 중 하나는 차량이 차선 중심에서 떨어져 있는 거리이다. 차선 유지 목표를 검증한 결과, 중앙에서 평균 또는 최대 거리가 계산된다.
(2) 문제 설명
시뮬레이션 기반 CPS 목표 검증을 위한 가상 환경 모델 생성의 문제는 동일한 수준의 검증 정확도를 유지하면서 검증 중인 CPS 목표의 실제 환경을 대체할 수 있는 정확한 가상 환경 모델을 개발하는 것이다. 특히, 분석 중인 동일한 CPS의 경우 CPS와 실제 환경(FOT) 간의 상호 작용을 나타내는 CPS-ENV 상호 작용 모델을 Mr={S,A,π,δr,s0), 동일한 CPS와 가상 환경(시뮬레이션) 간의 상호 작용을 나타내는 또 다른 모델을 Mv={S,A,π,δv,s0)라 하자. Mr과 Mv는 거의 동일한 CPS이기 때문에 S, A, π, s0가 동일하지만 δr과 δv는 해당 환경이 CPS에 의해 수행되는 행동에 어떻게 반응하는지를 나타내기 때문에 서로 다르다. 요구 사항
Figure PCTKR2023016856-appb-img-000015
의 경우,
Figure PCTKR2023016856-appb-img-000016
Figure PCTKR2023016856-appb-img-000017
사이의 차이를 최소화하는 δv를 갖는 것을 목표로 한다. 따라서, CPS 목표 검증을 위한 가상 환경 모델 생성의 문제는
Figure PCTKR2023016856-appb-img-000018
가 최소가 되도록 하는 δv를 찾는 것이다.
가상 환경 모델 생성 문제에는 세 가지 주요 과제가 있다. 첫째, 가능한 상태 및 행동의 수가 매우 많은 경우가 많아 개별 상태 및 행동을 철저하게 분석하여 가상 환경 모델(즉, 전환 함수 δv:S×A→S로 표현됨)을 구축할 수 없다. 둘째, 가상 환경 모델은 폐쇄 루프에서 분석 중인 CPS와 지속적으로 상호 작용하기 때문에 가상 환경과 실제 환경 간의 작은 차이도 시간이 지남에 따라 누적됨에 따라 검증 결과에서 상당한 차이를 보일 수 있는데, 이를 복합 오류 문제라고 한다. 이는 순차적 입력에 대한 오류 누적을 고려하지 않고 개별 입력 및 출력 쌍 측면에서 δr의 동작을 모방하는 전환 함수 δv를 가지는 것만으로는 충분하지 않다는 것을 의미한다. 셋째, δr를 생성하는 데 많은 FOT를 사용하는 것만큼 비용이 많이 들지 않아야 한다. 그렇지 않으면 시뮬레이션 기반 CPS 목표 검증을 사용할 필요가 없다. 고품격 시뮬레이터에서 가상 환경 모델을 수동으로 제작하려면 많은 전문 지식이 필요하다, 이는 통계적으로 유의한 검증 결과를 얻기 위해 FOT를 여러 번 수행하는 것보다 더 오래 걸린다. 따라서, 실용적인 접근 방식은 정확한 가상 환경 모델을 효율적이고 자동으로 생성해야 한다.
상기한 문제를 해결하기 위해 모방 학습을 활용하여 적은 양의 데이터만으로 가상 환경 모델을 자동으로 생성할 수 있다. 데이터는 실제 애플리케이션 환경에서 테스트 중인 CPS에 대한 몇 가지 FOT에서 수집할 수 있는 Mr의 부분 궤적이다. 모방 학습은 전문가가 지정된 상태에 대해 어떻게 순차적인 행동을 수행하는지를 제한된 시연에서 효율적으로 추출할 수 있고 복합 오류를 최소화할 수 있기 때문에 환경 모델 생성 문제에 매우 적합할 것으로 예상된다. 따라서, 환경 모델 생성 문제에 대해 모방 학습은 Mr(즉, FOT 로그)의 주어진 궤적을 가장 잘 재현할 수 있는 π(모방 학습의 원래 목표) 대신 δv를 추출할 수 있다.
ENVI의 환경 모방
이하에서는 CPS 목표 검증을 위한 환경 모델 생성 문제에 대한 새로운 접근 방식인 ENVI를 제공한다. 본 실시예에서는 모방 학습을 사용하여 테스트 중인 CPS와 해당 애플리케이션 환경 간의 상호 작용 중에 기록된 로그에서 가상 환경 상태 전환 함수를 자동으로 추론하여 문제를 해결한다. 이러한 맥락에서 실제 애플리케이션 환경은 '전문가'로 간주되며 FOT 로그는 이 전문가를 보여준다.
도 3은 본 발명의 일실시예에 있어서 환경 모방 프로세스 및 시뮬레이션 기반 CPS 목표 검증 과정을 도시한 것이다. 도 3은 ENVI를 사용한 환경 모델 생성 및 시뮬레이션 기반 CPS 목표 검증 프로세스의 개요를 나타내고 있다.
도 3을 참조하면, 본 발명에 따른 가상 환경 모델 생성 방법은 모델 생성을 위한 FOT 로그 수집 단계(S10), 모방 학습 알고리즘을 사용한 환경 모델 생성 단계(S20), 생성된 환경 모델을 사용한 CPS 목표 검증 단계(S30)를 포함할 수 있다.
첫 번째 단계(S10)에서는 엔지니어가 실제 애플리케이션 환경에 구축된 분석 π 하에서 CPS 컨트롤러의 FOT 로그를 수집한다. CPS와 실제 환경 간의 상호 작용은 알려지지 않은 δr을 포함하여 Mr로 추상화된다. 로그에 기록된 Mr의 궤적은 두 번째 단계(S20)에서 모방 학습 알고리즘에 의해 사용되어 자동으로 δr을 모방하는 가상 환경 모델 δv를 생성한다. 마지막 단계(S30)에서는 δv에서 설명하는 가상 환경에서 π의 시뮬레이션을 수행하여 통계 검증에 필요한 만큼 시뮬레이션 로그를 생성한다. 따라서, 엔지니어는 몇 개의 FOT 로그만 사용하여 CPS 요구 사항이 어느 정도 충족되는지 통계적으로 확인할 수 있다.
(1) FOT 로그 수집(S10)
ENVI의 첫 번째 단계는 CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터를 수집하는 것이며, 이는 나중에 가상 환경을 생성하기 위한 모방 학습의 '시연'으로 사용될 것이다. CPS-ENV 상호작용 모델 Mr={S,A,π,δr,s0)의 경우, 시간 T에 따라 수집된 상호작용 데이터는 T 단계에 걸쳐 Mr의 궤적, 즉
Figure PCTKR2023016856-appb-img-000019
으로 표현된다. 여기서,
Figure PCTKR2023016856-appb-img-000020
에서 st+1r(st,at)이고 at=π(st)이다. CPS 컨트롤러와 실제 환경 간의 상호 작용을 FOT 로그로 기록하는 것이 일반적이기 때문에 FOT에서 궤적을 쉽게 수집할 수 있다. 예를 들어, 차선 유지 시스템은 차량이 차선 중심에서 벗어난 거리와 FOT 중 t = 0,1,...,T에서 스티어링 각도에 대한 시계열 데이터를 기록한다.
실제로, 동일한 Mr의 궤적은 불균일한 표면 마찰과 같은 실제 환경의 불확실성으로 인해 반드시 같지는 않다. 따라서, 모방 학습에 의해 생성된 가상 환경 모델은 주어진 궤적을 최대한 모방하기 때문에 궤적에 기록된 실제 환경의 불확실성 또한 모방할 수 있다.
(2) 환경 모델 생성(S20)
ENVI의 두 번째 단계는 모방 학습 알고리즘을 사용하여 첫 번째 수집된 FOT 로그에서 가상 환경 모델을 생성하는 것이다. 먼저, 환경 모델 생성 단계는 환경 모델 구조를 정의하는 단계와, 모방 학습 알고리즘을 실행하여 훈련된 모델을 생성하는 단계로 구성될 수 있다.
(2-1) 환경 모델 구조 정의
본 실시예에서는 모방 학습을 활용하기 위해 환경 모델을 신경망으로 구현한다. 사용자는 환경 모델을 훈련하기 전에 신경망 구조를 정의한다.
가상 환경 모델 구조는 앞서 정의된 환경 상태 전환 함수 δ:S×A→S를 기반으로 한다. 이는 이상적인 (실제) 환경이 현재 환경 상태 st∈S와 현재 CPS 행동 at∈A만 취함으로써 다음 상태 st+1∈S를 생성한다고 가정한다. 즉, (st, at)가 시간 t에서 이상적인 환경에서 st+1을 결정하는 데 충분하다는 것을 의미한다. 그러나, 실제로는 검증 중인 CPS의 센서에 의해 관찰되고 센서가 감지 기능이 제한적이기 때문에 충분한 정보를 포함하지 않을 수 있다. 이 문제를 해결하기 위해 가상 환경 모델에 대한 δ를 δv:(S×A)l→S로 확장한다. 여기, l은 다음 상태를 예측하는 데 필요한 상태-행동 쌍의 길이이다. 즉, δv
Figure PCTKR2023016856-appb-img-000021
를 사용하여 st+1을 예측한다. δv는 l=1일 때의 δ와 같다. δ의 확장을 설명하기 위해 CPS-ENV 상호 작용 모델 M={S,A,π,δ,s0)을 Mv={S,A,π,δv0)로 확장한다. 여기서,
Figure PCTKR2023016856-appb-img-000022
는 s0에서 시작하는 전체 단계의 부분 궤적이다. 직관적으로 말해서, σ0은 δv에 대한 초기 입력으로, δ에 대한 s0(and a0=π(s0))과 유사하다.
도 4는 본 발명의 일실시예에 있어서 환경 모델 구조 예시를 도시한 것이다. 도 4는 δv의 확장된 정의에 기반한 δv의 구조 예시를 나타내고 있다. 위에서 정의한 바와 같이 δv의 입력과 출력은
Figure PCTKR2023016856-appb-img-000023
및 st+1이다. 환경 상태와 CPS 행동 a는 일반적으로 벡터일 수 있으며, |x|를 벡터 x의 길이라고 가정하자. 그러면, 신경망의 입력 뉴런의 수는 l×(|s|+|a|)이고, 출력 뉴런의 수는 |s|이다.
환경 모델 구조를 정의하려면 두 가지 수동 작업이 필요하다. 첫 작업은 이력 길이 l에 대한 적절한 값을 선택하는 것이다. l의 값이 증가하면 δv의 훈련 및 실행 비용이 증가하는 동안 환경 상태에서 더 많은 정보를 캡처할 수 있다. 따라서, 정보의 양과 계산 비용의 균형을 맞추는 것이 중요하다. 예를 들어, FOT 로그를 시각화하고 환경 상태 순서에 순환 패턴이 있는지 확인할 수 있다. 두 번째 작업은 δv의 은닉 층을 설계하는 것이다. 은닉 층은 입력 변수에서 출력 변수를 계산하는 방법을 지정한다. 이를 순방향 전파라고 한다. 은닉 층의 설계는 도메인에 따라 다르지만, 신경망 설계의 일반적인 지침은 전문가에게 존재한다.
(2-2) 모방 학습 알고리즘을 이용한 환경 모델 학습
δv의 구조가 결정되면, 적절한 훈련 데이터 D={(X1,Y1),...,(Xn,Yn)}의 집합을 사용하여 δv를 훈련시킬 수 있다. 여기서, n은 FOT 로그의 수이고, Xi는 i번째 FOT 로그에서 수집된 입력의 수이고 Yi는 출력의 해당 시퀀스(즉, δv(xj)의 기댓값은 모든 j∈{1,...,|Xi|}에 대해 yj이고 i∈{1,...,n}에 대해 |Xi|=|Yi|임)이다. x∈X는 상태-행동 쌍의 l-길이 시퀀스이므로 길이 l의 슬라이딩 윈도우를 사용하여 FOT 로그에서 D를 생성할 수 있다. 특히, FOT 로그
Figure PCTKR2023016856-appb-img-000024
에 대해 j∈{0,...,T-l+1}에서
Figure PCTKR2023016856-appb-img-000025
이다.
이하에서는 BC, GAIL 및 BC와 GAIL의 조합과 같은 모방 학습 알고리즘이 δv 훈련에 어떻게 사용될 수 있는지 설명한다.
a. BC 사용
BC는 지도 학습을 사용하여 환경 모델 δv을 훈련시킨다. FOT 로그에 기록된 실제 환경의 입력과 출력 쌍은 훈련 데이터로 δv에 제공되며 δv는 훈련 데이터에 표시된 실제 환경 상태 전환을 학습하도록 훈련된다.
도 5를 참조하면, BC 알고리즘은 무작위로 초기화된 환경 모델 δv와 훈련 데이터 세트 D를 입력으로 취한다. D를 사용하여 훈련된 환경 모델 δv를 반환한다.
BC 알고리즘은 정지 조건(예를 들어, 혼합 반복 횟수 또는 모델 손실의 수렴)이 충족될 때까지 D를 사용하여 δv를 반복적으로 훈련시킨다(1-7행). 각 (X, Y) ∈ D에 대해 알고리즘은 다음(2-6행)을 반복한다. (1) X를 실행하여 출력 Y'의 시퀀스를 예측하고(3행), (2) Y'과 Y 사이의 차이를 기준으로 훈련 손실 lossBC를 계산하고(4행), (3) lossBC를 최소화하기 위해 δv를 업데이트한다(5행). δv를 반환하면 BC 알고리즘이 종료된다(8행).
도 5의 BC 알고리즘은 직관적이고 구현하기 쉽다. 또한, 모델의 손실은 지도 학습 접근 방식이기 때문에 빠르게 수렴된다. 그러나 교육 데이터가 입력 공간을 완전히 포함하지 않거나 편향된 경우 모델이 실제 환경을 정확하게 모방하지 못할 수 있다.
b. GAIL 사용
GAIL은 δv뿐만 아니라 CPS 컨트롤러 측면에서 δv를 평가하는 판별기
Figure PCTKR2023016856-appb-img-000026
도 반복적으로 훈련시킨다. 특히, 상태 s의 경우 δv(s,π(s))와 δr(s,π(s))을 비교하여 δr(D로 캡처)에 대해 δv를 평가한다. 이를 위해
Figure PCTKR2023016856-appb-img-000027
는 지도 학습에 의해 D를 사용하여 훈련되고, δv
Figure PCTKR2023016856-appb-img-000028
의 평가 결과를 사용하여 훈련된다.
도 6은 GAIL 알고리즘의 의사 코드를 도시한 것이다. 도 6을 참조하면, GAIL 알고리즘은 BC 알고리즘과 유사하게, 무작위로 초기화된 환경 모델 δv와 훈련 데이터 세트 D=(X, Y)를 입력으로 사용하지만, 무작위로 초기화된 판별기
Figure PCTKR2023016856-appb-img-000029
와 분석 π 하에서 CPS 컨트롤러를 추가로 입력으로 사용한다. 훈련된 가상 환경 모델 δv를 반환한다.
GAIL 알고리즘은 정지 조건이 충족될 때까지 D와 π를 사용하여 δv
Figure PCTKR2023016856-appb-img-000030
를 모두 반복적으로 훈련시킨다(1-18행). GAIL 알고리즘은 각 (X, Y)∈D에 대해
Figure PCTKR2023016856-appb-img-000031
를 훈련시키려면(2-17행), X의 δv를 실행하여 출력 Y'의 시퀀스를 예측하고(3행), X에 대해
Figure PCTKR2023016856-appb-img-000032
가 Y와 Y'을 얼마나 잘 구분할 수 있는지를 나타내는 판별기 손실 lossd를 계산하고(4행), lossd를 사용하여
Figure PCTKR2023016856-appb-img-000033
를 업데이트한다(5행).
Figure PCTKR2023016856-appb-img-000034
가 업데이트되면 알고리즘은
Figure PCTKR2023016856-appb-img-000035
와 π를 사용하여 δv를 훈련시킨다(6-16행). 구체적으로, GAIL 알고리즘은 일련의 보상 R과 모델 입력 x'을 초기화하고(6-7행), δv, π,
Figure PCTKR2023016856-appb-img-000036
를 사용하여 각 x'에 대해 r∈R을 수집하고(8-14행) R을 집계하여 환경 모델 손실 lossGAIL을 계산하며(15행), lossGAIL을 사용하여 δv를 업데이트 한다(16행). GAIL 알고리즘은 각 x'에 대한 r∈R을 수집하려면(8-14행), 출력 y'을 예측하기 위해 x'에서 δv를 실행하고(9행), 보상 r를 얻기 위해 x'과 y'에서
Figure PCTKR2023016856-appb-img-000037
를 실행하며(10행), R의 끝에 r을 추가하고(11행), CPS 행동 a를 결정하기 위해 y'에서 π를 실행한다(12행), 그리고, (s1, a1)를 제거하고 (y', a)를 추가하여
Figure PCTKR2023016856-appb-img-000038
Figure PCTKR2023016856-appb-img-000039
로 업데이트 한다(13행). δv를 반환하면 GAIL 알고리즘이 종료된다(19행).
GAIL은 δv를 훈련시키기 위해 D의 실제 입력-출력 쌍 (x, y) 외에 π 및
Figure PCTKR2023016856-appb-img-000040
에 의해 시뮬레이션된 입력-출력 쌍 (x', y')을 사용한다. 이는 적은 양의 훈련 데이터로도 잘 작동하는 것으로 알려진 이유이다. 그러나, GAIL 알고리즘은 BC 알고리즘보다 구현이 더 복잡하며, 환경 모델은 하이퍼 파라미터 값에 따라 천천히 수렴하거나 때로는 수렴하지 못한다.
c. BC와 GAIL을 함께 사용
BC 알고리즘은 훈련 데이터만을 사용하여 δv를 훈련하지만 GAIL 알고리즘은 시뮬레이션 데이터를 함께 사용하여 δv를 훈련시킨다. BC와 GAIL은 알고리즘 충돌 없이 훈련 데이터와 시뮬레이션 데이터를 모두 사용하기 위해 결합될 수 있다.
BC와 GAIL이 결합된 알고리즘은 입력 및 출력 측면에서 GAIL 알고리즘과 동일하며, GAIL 알고리즘과 유사하게 δv
Figure PCTKR2023016856-appb-img-000041
를 모두 훈련시킨다. 특히,
Figure PCTKR2023016856-appb-img-000042
는 GAIL과 동일하게 업데이트된다. 그러나, δv는 lossBC(도 5의 BC 알고리즘 4행)와 lossGAIL(도 6의 GAIL 알고리즘 15행)를 모두 사용하여 업데이트 된다. 이를 통해 BC와 GAIL이 결합된 알고리즘은 적은 양의 훈련 데이터(GAIL과 유사)로 빠르게(BC와 유사) 수렴할 수 있다.
(3) 시뮬레이션 기반 CPS 목표 검증(S30)
엔지니어는 이전 단계에서 생성된 가상 환경 모델 δv를 사용하여 Mv={S,A,π,δv0)의 많은 시뮬레이션을 통해 분석 중인 CPS 컨트롤러가 목표
Figure PCTKR2023016856-appb-img-000043
(즉,
Figure PCTKR2023016856-appb-img-000044
계산)를 충족하는지 통계적으로 확인할 수 있다.
Mv를 시뮬레이션하려면 초기화 데이터 σ0이 제공되어야 한다. σ0은 l 단계를 거친 Mr의 부분 궤적이므로, 엔지니어는 σ0을 얻기 위해 l 단계에 걸쳐 부분 FOT를 수행해야 한다. σ0을 얻는 것은 l이 T(즉, 전체 FOT 기간)보다 훨씬 짧기 때문에 FOT 기반 CPS 목표 검증을 위한 전체 FOT를 가지는 것보다 훨씬 저렴하다.
그런 다음 엔지니어는 통계 검증에 필요한 만큼 Mv를 실행한다. 예를 들어, 개발 중인 차선 유지 시스템이 장착된 차량이 차선 중심에서 1m 이상 떨어져 있지 않는지 확인하기 위해 엔지니어는 생성된 환경 모델을 사용하여 차선 유지 시스템을 여러 번 시뮬레이션한다. 그런 다음 엔지니어는 각 시뮬레이션에서 차선 중심에서 가장 멀리 떨어진 거리를 분석하고 요구 사항이 통계적으로 충족되는지 확인한다.
실제로, 동일한 CPS 컨트롤러의 여러 버전을 개발하는 것이 일반적이다. 예를 들어, 진화적 개발 중에 순차적으로 개발될 수 있다. 차선 유지를 위한 최소 스티어링 정도를 나타내는 구성 매개변수로 구현된 차선 유지 시스템 컨트롤러를 고려해 보자. 그런 다음, 이전 버전의 CPS 목표 검증 결과를 기반으로 매개변수 값을 변경하여 새로운 버전의 차선 유지 시스템을 개발할 수 있다. 이러한 진화적 개발 프로세스에서 새로운 버전의 검증을 위해 환경 모델을 생성하는 데 사용되는 FOT 로그 버전에 따라 다양한 사용 사례를 고려할 수 있다. 특히 다음과 같은 세 가지 사용 사례를 고려할 수 있다.
도 7 내지 도 9는 본 발명의 일실시예에 있어서 ENVI를 사용한 시뮬레이션 기반 검증 사용 사례를 도시한 것이다.
도 7을 참고하면, 하나의 버전은 훈련용으로 사용되며, 검증은 훈련용과 동일한 버전에서 수행된다. 이는 기본 사용 사례이다. 예를 들어, 차선 유지 시스템 컨트롤러의 첫 버전을 확인하려면 이전 버전(및 해당 FOT 로그)이 없으므로 해당 버전의 일부 FOT 로그를 수집해야 한다. 훈련에는 하나의 버전이 포함되며 검증은 알려진 버전에 대한 것이므로 이 경우를 TOVK라고 한다.
도 8을 참조하면, 여러 버전이 훈련에 사용되며, 검증은 훈련에 사용되는 버전 중 하나에 대해 수행된다. 도 8에 도시한 바와 같이, 여러 버전의 CPS 컨트롤러를 훈련에 사용할 수 있다. 예를 들어, 이전에 개발된 버전의 차선 유지 시스템에서 수집한 FOT 로그와 새 버전에서 수집한 FOT 로그가 있는 경우 서로 다른 매개변수 값과 관련된 모든 로그를 함께 사용하여 단일 환경 모델을 생성할 수 있다. 따라서, 가상 환경 모델 생성에 모든 FOT 로그를 가장 잘 활용할 수 있다. 훈련에는 여러 버전이 포함되며 검증은 알려진 버전 중 하나에 대한 것이므로 이 경우 TMVK라고 한다.
도 9를 참조하면, 훈련용으로 여러 버전이 사용되며, 훈련용으로 사용된 적이 없는 새 버전에 대해 검증이 수행된다. 도 9에 도시한 바와 같이, 이는 TMVK 사용 사례와 유사하지만 새 버전에서 수집한 FOT 로그를 사용하지는 않는다. 즉, 이전에 수집된 FOT 로그만 새 버전의 확인에 사용된다. 이를 통해 CPS 목표 검증을 위한 새 버전의 새 FOT 비용을 크게 줄일 수 있다. 훈련에는 여러 버전이 포함되며 검증은 알 수 없는 버전에 대한 것이므로 이 경우 TMVU라고 한다.
이처럼 본 발명의 실시예들에 따르면, CPS 목표 검증을 위한 정확한 가상 환경 모델을 효율적으로 생성하는 새로운 데이터 기반 환경 모방 접근 방식인 ENVI를 제공할 수 있다. 값비싼 FOT를 여러 번 수행하는 대신 본 발명에 따른 ENVI는 가상 환경 모델 학습을 위해 일부 FOT 로그를 수집하기 위해 몇 개의 FOT만 필요로 한다. 대표적인 모방 학습 알고리즘(즉, BC, GAIL 및 BC×GAIL)을 활용하여 수집된 FOT 로그에서 정확한 가상 환경 모델을 자동으로 생성할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 컴퓨터 장치에서 수행되는 가상 환경 모델 생성 방법에 있어서,
    상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 가상 환경 모델 생성 방법은,
    상기 적어도 하나의 프로세서의 의해, 모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계
    를 포함하는 가상 환경 모델 생성 방법.
  2. 제1항에 있어서,
    상기 생성하는 단계는,
    BC(Behavior Cloning) 알고리즘, GAIL(Generative Adversarial Imitation Learning), 상기 BC 알고리즘과 상기 GAIL 알고리즘이 결합된 알고리즘 중 어느 하나의 모방 학습 알고리즘을 사용하여 상기 가상 환경 모델을 생성하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  3. 제1항에 있어서,
    상기 생성하는 단계는,
    CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터로서 상기 CPS 컨트롤러의 FOT 로그를 수집하는 단계;
    상기 FOT 로그를 이용한 모방 학습을 통해 상기 실제 환경을 모방하는 환경 모델을 생성하는 단계; 및
    상기 환경 모델을 이용한 시뮬레이션을 통해 상기 CPS 목표 검증을 수행하는 단계
    를 포함하는 가상 환경 모델 생성 방법.
  4. 제3항에 있어서,
    상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,
    환경 상태 집합, CPS 행동 집합, CPS의 소프트웨어 컨트롤러를 캡처하는 정책 함수, 및 CPS 행동과 이전 상태의 결과로 시간 경과에 따른 환경 상태의 전환을 캡처하는 전환 함수를 포함하는 상호 작용 모델을 기반으로 상기 환경 모델을 생성하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  5. 제3항에 있어서,
    상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,
    환경 상태 전환 함수 기반의 모델 구조로서 현재 환경 상태와 현재 CPS 행동이 입력 계층으로 구성되고 다음 환경 상태가 출력 계층으로 구성되고 입력 변수에서 출력 변수를 계산하는 방법이 은닉 계층으로 구성되는 모델 구조로 상기 환경 모델을 생성하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  6. 제3항에 있어서,
    상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,
    이력 길이의 슬라이딩 윈도우를 사용하여 상기 FOT 로그에서 훈련 데이터를 생성하는 단계; 및
    상기 훈련 데이터를 이용한 모방 학습을 통해 상기 환경 모델을 학습하는 단계
    를 포함하는 가상 환경 모델 생성 방법.
  7. 제3항에 있어서,
    상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,
    상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델을 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 손실을 계산하고 상기 손실을 사용하여 상기 환경 모델을 업데이트하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  8. 제3항에 있어서,
    상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,
    상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터와 시뮬레이션 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기(discriminator)를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 손실을 계산하고 상기 손실을 사용하여 상기 판별기를 업데이트하고 상기 업데이트된 판별기와 상기 시뮬레이션 데이터를 사용하여 상기 환경 모델을 업데이트하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  9. 제3항에 있어서,
    상기 실제 환경을 모방하는 환경 모델을 생성하는 단계는,
    상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 제1 손실을 계산하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 제2 손실을 계산하고 상기 제1 손실과 상기 제2 손실을 사용하여 상기 환경 모델을 업데이트하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  10. 제3항에 있어서,
    상기 CPS 목표 검증을 수행하는 단계는,
    상기 환경 모델을 이용한 시뮬레이션을 통해 통계 검증에 필요한 만큼 시뮬레이션 로그를 생성하여 CPS 요구 사항에 대한 충족 결과를 통계적으로 확인하는 것
    을 특징으로 하는 가상 환경 모델 생성 방법.
  11. 가상 환경 모델 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서,
    상기 가상 환경 모델 생성 방법은,
    모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 단계
    를 포함하는, 컴퓨터 프로그램.
  12. 컴퓨터로 구현되는 가상 환경 모델 생성 장치에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    모방 학습(Imitation Learning) 알고리즘을 이용하여 FOT(Field Operational Test)에서 수집된 로그 데이터(log data)를 기반으로 CPS(Cyber-Physical System) 목표 검증을 위한 가상 환경 모델을 생성하는 과정
    을 처리하는 가상 환경 모델 생성 장치.
  13. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    BC(Behavior Cloning) 알고리즘, GAIL(Generative Adversarial Imitation Learning), 상기 BC 알고리즘과 상기 GAIL 알고리즘이 결합된 알고리즘 중 어느 하나의 모방 학습 알고리즘을 사용하여 상기 가상 환경 모델을 생성하는 것
    을 특징으로 하는 가상 환경 모델 생성 장치.
  14. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    CPS 컨트롤러와 실제 환경 간의 상호 작용 데이터로서 상기 CPS 컨트롤러의 FOT 로그를 수집하고,
    상기 FOT 로그를 이용한 모방 학습을 통해 상기 실제 환경을 모방하는 환경 모델을 생성하고,
    상기 환경 모델을 이용한 시뮬레이션을 통해 상기 CPS 목표 검증을 수행하는 것
    을 특징으로 하는 가상 환경 모델 생성 장치.
  15. 제14항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 FOT 로그에 기록된 실제 환경의 입력과 출력 쌍으로 이루어진 훈련 데이터를 사용하여 상기 환경 모델과 상기 환경 모델에 대한 판별기를 함께 학습하는 것으로, 상기 환경 모델을 통해 상기 훈련 데이터에 포함된 입력 데이터를 실행하여 출력 데이터를 예측하고 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터의 차이를 기초로 제1 손실을 계산하고 상기 입력 데이터에 대해 상기 판별기가 상기 예측된 출력 데이터와 상기 훈련 데이터에 포함된 출력 데이터를 구분하는 제2 손실을 계산하고 상기 제1 손실과 상기 제2 손실을 사용하여 상기 환경 모델을 업데이트하는 것
    을 특징으로 하는 가상 환경 모델 생성 장치.
PCT/KR2023/016856 2022-10-27 2023-10-27 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법 WO2024091059A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0139805 2022-10-27
KR20220139805 2022-10-27
KR10-2023-0083390 2023-06-28
KR1020230083390A KR20240059522A (ko) 2022-10-27 2023-06-28 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법

Publications (1)

Publication Number Publication Date
WO2024091059A1 true WO2024091059A1 (ko) 2024-05-02

Family

ID=90831425

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/016856 WO2024091059A1 (ko) 2022-10-27 2023-10-27 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법

Country Status (1)

Country Link
WO (1) WO2024091059A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102266620B1 (ko) * 2019-12-03 2021-06-18 경기대학교 산학협력단 로봇 물체 조작 학습 시스템
KR20210123586A (ko) * 2020-04-03 2021-10-14 한국전자통신연구원 모방 학습을 통한 사물 자율 제어 방법 및 장치
JP7046262B2 (ja) * 2019-03-12 2022-04-01 三菱電機株式会社 移動体制御装置および移動体制御方法
KR20220104394A (ko) * 2021-01-18 2022-07-26 이승환 대상 모델의 특성을 반영하는 모방 모델 생성 시스템 및 방법
KR20220117625A (ko) * 2021-02-17 2022-08-24 한국기술교육대학교 산학협력단 자율형 cps의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 cps 자가진화 프레임워크 및 이를 이용한 자율형 cps의 성능 자가진화 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7046262B2 (ja) * 2019-03-12 2022-04-01 三菱電機株式会社 移動体制御装置および移動体制御方法
KR102266620B1 (ko) * 2019-12-03 2021-06-18 경기대학교 산학협력단 로봇 물체 조작 학습 시스템
KR20210123586A (ko) * 2020-04-03 2021-10-14 한국전자통신연구원 모방 학습을 통한 사물 자율 제어 방법 및 장치
KR20220104394A (ko) * 2021-01-18 2022-07-26 이승환 대상 모델의 특성을 반영하는 모방 모델 생성 시스템 및 방법
KR20220117625A (ko) * 2021-02-17 2022-08-24 한국기술교육대학교 산학협력단 자율형 cps의 성능 자가진화를 위한 연합 강화학습 기반의 자율형 cps 자가진화 프레임워크 및 이를 이용한 자율형 cps의 성능 자가진화 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN YONG-JUN: "Environment Imitation: Data-Driven Environment Model Generation Using Imitation Learning for Efficient CPS Goal Verification", ARXIV:2204.06799V1 (CORNELL UNIVERSITY), CORNELL UNIVERSITY LIBRARY, ARXIV.ORG, ITHACA, 14 April 2022 (2022-04-14), Ithaca, pages 1 - 18, XP093164389, Retrieved from the Internet <URL:https://arxiv.org/pdf/2204.06799> DOI: 10.48550/arxiv.2204.06799 *

Similar Documents

Publication Publication Date Title
Legay et al. Plasma lab: a modular statistical model checking platform
US12092465B2 (en) Evacuation using digital twins
Birchler et al. Machine learning-based test selection for simulation-based testing of self-driving cars software
CN105608249A (zh) 精益产品建模的系统和方法
Arrieta et al. Using machine learning to build test oracles: an industrial case study on elevators dispatching algorithms
WO2022009010A1 (en) Model fidelity monitoring and regeneration for manufacturing process decision support
CN113408621A (zh) 面向机器人技能学习的快速模仿学习方法、系统、设备
Bock et al. Status report on automotive software development
Gartziandia et al. Machine learning‐based test oracles for performance testing of cyber‐physical systems: An industrial case study on elevators dispatching algorithms
WO2024091059A1 (ko) 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법
Fremont et al. Safety in autonomous driving: Can tools offer guarantees?
Pahl et al. A Quality-driven Machine Learning Governance Architecture for Self-adaptive Edge Clouds.
Castiglioni et al. Stark: A software tool for the analysis of robustness in the unknown environment
WO2022055020A1 (ko) 자동화된 기계 학습 방법 및 그 장치
KR102585570B1 (ko) 적응형 시스템의 통계적 검증 기반 예측적 적응 기법
KR20240059522A (ko) 효율적인 사이버 물리 시스템 목표 검증을 위한 모방 학습을 활용한 가상 환경 모델 생성 기법
Cody et al. Test and evaluation harnesses for learning systems
Chanthery et al. Applying active diagnosis to space systems by on-board control procedures
Korotunov et al. Analysis of the Verification Approaches for the Cyber-Physical Systems.
Schratter et al. From simulation to the race track: Development, testing, and deployment of autonomous racing software
Shin et al. Environment Imitation: Data-Driven Environment Model Generation Using Imitation Learning for Efficient CPS Goal Verification
Uddin et al. On-Device Neural Network for Object Train and Recognition using Mobile.
Pikner et al. Autonomous Driving Validation and Verification Using Digital Twins.
Matalonga et al. Alternatives for Testing of Context-Aware Contemporary Software Systems in industrial settings: Results from a Rapid review
Fu Fault injection mechanisms for validating dependability of automotive systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23883163

Country of ref document: EP

Kind code of ref document: A1