WO2020162211A1 - 制御装置、制御方法及びプログラム - Google Patents

制御装置、制御方法及びプログラム Download PDF

Info

Publication number
WO2020162211A1
WO2020162211A1 PCT/JP2020/002377 JP2020002377W WO2020162211A1 WO 2020162211 A1 WO2020162211 A1 WO 2020162211A1 JP 2020002377 W JP2020002377 W JP 2020002377W WO 2020162211 A1 WO2020162211 A1 WO 2020162211A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
reward
server
physical
state
Prior art date
Application number
PCT/JP2020/002377
Other languages
English (en)
French (fr)
Inventor
晃人 鈴木
薫明 原田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/421,432 priority Critical patent/US11489735B2/en
Publication of WO2020162211A1 publication Critical patent/WO2020162211A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0806Configuration setting for initial configuration or provisioning, e.g. plug-and-play
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5041Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
    • H04L41/5054Automatic deployment of services triggered by the service manager, e.g. service implementation by automatic configuration of network components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/20Arrangements for monitoring or testing data switching networks the monitoring system or the monitored elements being virtualised, abstracted or software-defined entities, e.g. SDN or NFV

Definitions

  • the present invention relates to a control device, a control method and a program.
  • NFV Network Functions Virtualization
  • VNFs Virtual Network functions
  • Non-Patent Document 1 Non-Patent Document 1
  • Non-patent documents 2 and 3 a method called deep reinforcement learning, in which a function that outputs a behavior by inputting a state in reinforcement learning is approximated by a deep neural network, is known (Non-patent documents 2 and 3).
  • Non-Patent Document 1 since it is necessary to perform pre-learning by reinforcement learning for the number of possible network states, it is necessary to express the network state by the number of states. Therefore, there are cases where only discrete and low-dimensional (that is, representable with a small number of variables) network states can be handled, and the virtual network allocation accuracy is low (that is, physical resource utilization efficiency is low).
  • deep reinforcement learning can learn appropriate output even for continuous and high-dimensional inputs, so by applying deep reinforcement learning, continuous and high-dimensional network states are handled. It will be possible.
  • the present invention has been made in view of the above points, and an object thereof is to improve utilization efficiency of physical resources in dynamic allocation of virtual networks.
  • a control device is a control device that dynamically allocates a virtual network for providing a network service on a physical network by deep reinforcement learning.
  • a state at time t with network configuration information, network observation information indicating the amount of physical resources of the physical network, and user demand information indicating the demand of physical resources generated by the communication behavior of the user terminal of the network service as inputs Observation means for observing s t , allocation means for selecting an action a t for changing allocation of the virtual network on the physical network according to the policy ⁇ in the state s t , and a state transitioned by the action a t and rewards calculation means for calculating a reward r t + 1 from s t + 1, using the reward r t + 1, and having a learning means for learning the policy [pi.
  • FIG. 1 is a diagram showing an example of the overall configuration of a system according to an embodiment of the present invention.
  • the system includes a network control device 100 connected to a physical network 300.
  • the physical network 300 is a network environment of a telecommunications carrier, and includes, for example, a server device 10, a transfer device 20, and a user terminal 30.
  • the network control device 100 is a computer or computer system having a control unit 200.
  • the network control device 100 dynamically allocates the virtual network (hereinafter, also simply referred to as “VN”) constructed by the service provider to the physical network 300 by the control unit 200 (that is, the network control device 100 performs control). It functions as an NFV orchestrator by the unit 200.).
  • VN virtual network
  • the control unit 200 can follow the VN demand by learning the relationship between the network state (hereinafter also simply referred to as “NW state”) and the optimal VN allocation method by deep reinforcement learning. Realizes dynamic dynamic VN allocation.
  • VNF virtual network function
  • VM Virtual Machine
  • VM Virtual Machine
  • the VN allocation to the physical network 300 is performed by the control unit 200 transmitting a setting command indicating the optimum VN allocation to each server device 10 and each transfer device 20.
  • the NW state is the amount of each physical resource included in the physical network 300 (for example, the server capacity of each server device 10 or the link capacity of each transfer device 20).
  • the VN demand is the demand amount of a physical resource required for providing a network service (for example, the traffic amount (that is, data amount) of a certain link included in the physical network 300 or the VM that needs to be built on the server device 10). Number) etc.
  • NW state and VN demand are obtained from network configuration information, network observation information, user demand, etc. input to the network control device 100.
  • the network configuration information is, for example, network topology information of the physical network 300, physical resource constraint conditions (for example, the amount of physical resources described above), and the like.
  • the network observation information is, for example, traffic information indicating the traffic volume of each link configuring the physical network 300 and server usage information indicating the server capacity and the number of VMs of each server device 10.
  • the user demand information is, for example, information indicating the demand amount of the VM, the VNF and the like required for each user terminal 30 and the traffic demand amount.
  • the server device 10 is a computer or a computer system that realizes the VNF assigned by the network control device 100.
  • the server device 10 collects server usage information and transmits the collected server usage information to the network control device 100. Further, the server device 10 processes the traffic according to the VNF assigned by the network control device 100, and generates the traffic. Note that hereinafter, when distinguishing each of the plurality of server devices 10, they are referred to as “server device 10 1 ”, “server device 10 2 ”, and the like.
  • the transfer device 20 is a device that functions as a node that transfers traffic.
  • the transfer device 20 collects traffic information and transmits the collected traffic information to the network control device 100.
  • the transfer device 20 also processes traffic according to the route information.
  • the route information is, for example, information indicating a route between VMs, VNFs, VM-VNFs, and the like. Note that, hereinafter, when distinguishing each of the plurality of transfer devices 20, the transfer device 20 is expressed as “transfer device 20 1 ”, “transfer device 20 2 ”, and the like.
  • the user terminal 30 is a computer that transmits the traffic generated by the communication behavior of the user (for example, the operation to start using the network service) to the other user terminals 30, the server device 10, and the like.
  • the user terminal 30 also transmits user demand information to the network control device 100. Note that, hereinafter, when distinguishing each of the plurality of user terminals 30, they are represented as “user terminal 30 1 ”, “user terminal 30 2 ”, and the like.
  • FIG. 2 is a diagram showing an example of a hardware configuration of the network control device 100 according to the embodiment of the present invention.
  • the network control device 100 includes, as hardware, an external I/F 101, a RAM (Random Access Memory) 102, a ROM (Read Only Memory) 103, and a processor 104. And a communication I/F 105 and an auxiliary storage device 106. These pieces of hardware are connected to each other via a bus B so that they can communicate with each other.
  • the external I/F 101 is an interface with an external device.
  • the external device includes a recording medium 101a and the like.
  • the network control device 100 can read or write the recording medium 101a via the external I/F 101.
  • Examples of the recording medium 101a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.
  • a flexible disk a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.
  • RAM 102 is a volatile semiconductor memory that temporarily holds programs and data.
  • the ROM 103 is a non-volatile semiconductor memory that can retain programs and data even when the power is turned off.
  • the ROM 103 stores, for example, setting information regarding an OS (Operating System), setting information regarding a communication network, and the like.
  • the processor 104 is, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like, and is an arithmetic device that reads programs and data from the ROM 103, the auxiliary storage device 106, and the like onto the RAM 102 and executes processing.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the communication I/F 105 is an interface for connecting the network control device 100 to the physical network 300.
  • the auxiliary storage device 106 is, for example, a HDD (Hard Disk Drive) or SSD (Solid State Drive), and stores various programs and data.
  • the programs and data stored in the auxiliary storage device 106 include, for example, an OS, application software that implements various functions on the OS, a program that implements the control unit 200, and the like.
  • the network control device 100 can realize various processes described later by having the hardware configuration shown in FIG. In the example shown in FIG. 2, the case where the network control device 100 according to the embodiment of the present invention is realized by one device (computer) is shown, but the present invention is not limited to this, and a plurality of devices (computers) are provided. ) May be realized. Further, one device (computer) may include a plurality of processors 104 and a plurality of memories (RAM 102, ROM 103, auxiliary storage device 106, etc.). Further, the network control device 100 may include, for example, a display device such as a display and an input device such as a keyboard and a mouse in addition to the above hardware.
  • FIG. 3 is a diagram showing an example of a functional configuration of the control unit 200 in the embodiment of the present invention.
  • the control unit 200 includes an observation unit 201, an allocation unit 202, a reward calculation unit 203, a learning unit 204, and a setting command unit 205.
  • a control unit 200 is realized by, for example, a process that causes the processor 104 to execute one or more programs installed in the network control device 100.
  • the observation unit 201, the assignment unit 202, the reward calculation unit 203, and the learning unit 204 correspond to agents in deep reinforcement learning.
  • pre-learning and dynamic VN allocation are performed every time t of a certain fixed time interval (hereinafter also referred to as “control interval”). of time t state, behavior and reward each representing a s t, a t and r t.
  • control interval a certain fixed time interval
  • the pre-learning when performing the next learning, it is not necessary that the time corresponding to the control interval has actually elapsed.
  • Observation unit 201 the pre-learning and dynamic VN assigned as the state s t, observing VN demand and NW state like.
  • Observation unit 201 the network configuration information, network observation information, by inputting the user demand information, to observe the state s t.
  • N VN I-th VN VN i
  • the state st is
  • Assignment section 202 the pre-learning and dynamic VN assigned, as the action a t, selects and executes a change of VN allocated according strategy ⁇ in state s t.
  • the parameter limiting the change amount of the VN allocation is N and the action a t is defined as follows. Note that the set of selectable actions a t is ⁇ a t 1 , a t 2 ,... ⁇ .
  • Action a t 1 Allocating the server demand of VN 1 to the server device 10 1
  • Action a t 2 Allocating the server demand of VN 1 to the server device 10 2 ...
  • Action a t K assigning a server demand VN 1 in the server apparatus 10 K
  • Action a t 2K Allocate the server demand of VN 2 to the server device 10 K ...
  • N when n actions a t 1: Assign the server demand VN 1 in the server apparatus 10 1, and assigns a server demand VN 2 in the server apparatus 10 1, and, ... and, VN n server demands are allocated to the server device 10 1.
  • the n VNs of VN 1 to VN n are stored in one or more server devices 10 of the plurality of server devices 10 that are predetermined for each action a t. assign. Note that, for example, by adjusting the parameter N at each time t, it becomes possible to adjust the time required to change the VN allocation at each time t.
  • Compensation calculation unit 203 the pre-learning, when the state by the execution of the actions a t transitions from s t in s t + 1, calculates the reward r t + 1.
  • the reward r t+1 is defined as follows. That is, first, a constraint condition and an objective function of a VNE (Virtual Network Embedding) problem, which is a kind of optimization problem, are defined as follows.
  • VNE Virtual Network Embedding
  • the reward r t+1 ⁇ 100 Reward when the constraint condition is satisfied, but the utilization efficiency of either or both of the link bandwidth and the server capacity is reduced as a result of VN relocation (that is, when only the minimum number of VN relocations is realized)
  • the above-described constraint condition and objective function are examples, and in addition to this, for example, the constraint condition may be “the network delay is equal to or less than a predetermined threshold”, or the objective function may be “power consumption of the server device 10 ( Sum of)”.
  • the learning unit 204 learns the policy ⁇ so that the reward r t received in the future is maximized.
  • Setting instruction unit 205 in a dynamic VN allocation, transmits setting assignment unit 202 corresponding to the executed action a t command to the server device 10 and the transfer device 20 and the like.
  • setting assignment unit 202 corresponding to the executed action a t command to the server device 10 and the transfer device 20 and the like.
  • FIG. 4 is a flowchart showing an example of pre-learning processing in the embodiment of the present invention.
  • the subsequent steps S101 to S104 are repeatedly executed at each time t until a predetermined end condition is satisfied.
  • the predetermined termination condition may be, for example, that a predetermined number of repetitions has been reached, that an arbitrary index value indicating the learning result (for example, an index value indicating the utilization efficiency of physical resources) is equal to or greater than a predetermined value, etc. Can be mentioned.
  • any deep reinforcement learning algorithm can be used as the deep reinforcement learning algorithm.
  • DQN DeepQ-Network
  • A3C Asynchronous Advantage Actor-Critic
  • Step S101 observation unit 201, the network configuration information, network observation information, enter the user demand information, to observe the state s t (i.e., VN demand and NW status, etc.).
  • Step S102 Next, the allocation unit 202 selects and executes the action a t (that is, change of VN allocation) according to the policy ⁇ in the state s t . This causes the state s t to transition to the state s t+1 .
  • a t that is, change of VN allocation
  • Step S103 Next, the reward calculation unit 203 calculates the reward r t+1 .
  • the reward calculation unit 203 can calculate the reward r t+1 by inputting the network configuration information, the network observation information, and the user demand information in the state s t+1 .
  • the network configuration information may be input only for the first time.
  • the state s t+1 may be observed by the observation unit 201 before the step S103 is executed, and the reward s t+1 may be calculated using this observation result.
  • Step S104 Next, the learning unit 204 learns the policy ⁇ so that the reward r t received in the future is maximized.
  • the network controller 100 in the embodiment of the present invention as reward r t receive future becomes maximum (i.e., while reducing as much as possible VN relocation times, the utilization efficiency of the physical resources is maximized Policy) is learned.
  • each variable such as traffic demand as a continuous value without the need to discretize each variable, and the residual link of each link.
  • Information such as the bandwidth and the remaining server capacity of each server device 10 can be included as the NW state. Therefore, it becomes possible to realize the VN allocation with high accuracy so as to improve the utilization efficiency of the physical resources.
  • FIG. 5 is a flowchart showing an example of the dynamic VN allocation processing according to the embodiment of the present invention.
  • the subsequent steps S201 to S205 are repeatedly executed at each time t (that is, at each control interval).
  • Step S201 First, the allocating unit 202 determines whether or not a new VN allocation request has been received between the immediately preceding time t-1 and the current time t.
  • the new VN allocation request is transmitted from the terminal or the like to the network control device 100, for example, when the service provider of the network service operates the terminal or the like to perform a new VN allocation request operation.
  • step S202 When a new VN allocation request is received, the process proceeds to step S202. On the other hand, if a new VN allocation request has not been received, step S202 is not executed and the process proceeds to step S203.
  • Step S202 The allocating unit 202 allocates the VN corresponding to the new VN allocation request onto the vacant physical resource of the physical network 300.
  • Step S204 Next, the allocation unit 202 selects and executes the action a t (that is, change of VN allocation) according to the policy ⁇ in the state s t .
  • the policy ⁇ is a policy learned by pre-learning. As a result, the optimum VN allocation change is selected and executed, and the state s t transits to the state s t+1 .
  • Step S205 Next, the setting command unit 205 transmits a setting command according to the VN allocation changed in the above step S204 to the server device 10, the transfer device 20, and the like. As a result, the settings of each server device 10 and each transfer device 20 are changed so that the changed VN allocation is achieved.
  • the optimal action a t (that is, the number of VN relocations is reduced as much as possible while the physical resource utilization efficiency is maximized according to the policy ⁇ learned in the pre-learning) Change to VN allocation) is selected and executed.
  • server device 20 transfer device 30 user terminal 100 network control device 101 external I/F 101a recording medium 102 RAM 103 ROM 104 processor 105 communication I/F 106 auxiliary storage device 200 control unit 201 observation unit 202 allocation unit 203 reward calculation unit 204 learning unit 205 setting instruction unit 300 physical network

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

ネットワークサービスを提供するための仮想ネットワークを深層強化学習により物理ネットワーク上に動的に割り当てる制御装置であって、前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻tにおける状態stを観測する観測手段と、前記状態stにおける方策πに従って、前記物理ネットワーク上への前記仮想ネットワークの割り当てを変更する行動atを選択する割当手段と、前記行動atにより遷移した状態st+1から報酬rt+1を計算する報酬計算手段と、前記報酬rt+1を用いて、前記方策πを学習する学習手段と、を有することを特徴とする。

Description

制御装置、制御方法及びプログラム
 本発明は、制御装置、制御方法及びプログラムに関する。
 仮想ネットワーク機能(VNF:Virtual Network Function)を柔軟に組み合わせることで、様々なネットワークサービスの提供を可能するNFV(Network Functions Virtualization)と呼ばれる技術が知られている。これらのネットワークサービスは、サービス提供者が構築した仮想ネットワーク(VN:Virtual Network)を、電気通信事業者が持つ物理リソースに割り当てることで提供される。
 ところで、近年、ネットワークサービスの多様化によりトラヒックやサーバリソース等の需要変動が激化している。これに対して、これらの需要変動に応じて、ネットワークサービスの提供中に仮想ネットワークの割り当てを動的に制御する技術が知られている。例えば、ネットワーク状態と最適な制御方法との関係を強化学習により事前に学習しておき、実際の制御時における計算時間を不要とすることで、トラヒックの需要変動に追従可能な仮想ネットワークの動的割当方法が知られている(非特許文献1)。
 また、強化学習における状態を入力として行動を出力する関数を深層ニューラルネットワークで近似した深層強化学習と呼ばれる手法が知られている(非特許文献2及び3)。
R. Mijumbi et al., "Design and evaluation of learning algorithms for dynamic resource management in virtual networks," Network Operations and Management Symposium (NOMS), 2014. Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529. Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International conference on machine learning. 2016.
 しかしながら、非特許文献1に開示されている動的割当方法では、取り得るネットワーク状態の数だけ強化学習により事前学習を行う必要があるため、ネットワーク状態を状態数で表現する必要がある。したがって、離散的かつ低次元(つまり、少ない変数で表現可能)なネットワーク状態しか扱うことができず、仮想ネットワークの割当精度が低い(つまり、物理リソースの利用効率が低い)場合があった。
 他方で、深層強化学習は連続的かつ高次元な入力に対しても適切な出力を学習することが可能であるため、深層強化学習を適用することで、連続的かつ高次元なネットワーク状態を扱うことが可能になると考えられる。
 本発明は、上記の点に鑑みてなされたもので、仮想ネットワークの動的割当における物理リソースの利用効率を向上させることを目的とする。
 上記目的を達成するため、本発明の実施の形態における制御装置は、ネットワークサービスを提供するための仮想ネットワークを深層強化学習により物理ネットワーク上に動的に割り当てる制御装置であって、前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻tにおける状態sを観測する観測手段と、前記状態sにおける方策πに従って、前記物理ネットワーク上への前記仮想ネットワークの割り当てを変更する行動aを選択する割当手段と、前記行動aにより遷移した状態st+1から報酬rt+1を計算する報酬計算手段と、前記報酬rt+1を用いて、前記方策πを学習する学習手段と、を有することを特徴とする。
 仮想ネットワークの動的割当における物理リソースの利用効率を向上させることができる。
本発明の実施の形態におけるシステムの全体構成の一例を示す図である。 本発明の実施の形態におけるネットワーク制御装置のハードウェア構成の一例を示す図である。 本発明の実施の形態における制御部の機能構成の一例を示す図である。 本発明の実施の形態における事前学習処理の一例を示すフローチャートである。 本発明の実施の形態における動的VN割当処理の一例を示すフローチャートである。
 以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
 <全体構成>
 まず、本発明の実施の形態におけるシステムの全体構成について、図1を参照しながら説明する。図1は、本発明の実施の形態におけるシステムの全体構成の一例を示す図である。
 図1に示すように、本発明の実施の形態におけるシステムには、物理ネットワーク300と接続されるネットワーク制御装置100が含まれる。物理ネットワーク300は電気通信事業者のネットワーク環境であり、例えば、サーバ装置10と、転送装置20と、ユーザ端末30とが含まれる。
 ネットワーク制御装置100は、制御部200を有するコンピュータ又はコンピュータシステムである。ネットワーク制御装置100は、制御部200により、サービス提供者が構築した仮想ネットワーク(以降、単に「VN」とも表す。)を物理ネットワーク300上に動的に割り当てる(すなわち、ネットワーク制御装置100は、制御部200により、NFVオーケストレータとして機能する。)。このとき、制御部200は、ネットワーク状態(以降、単に「NW状態」とも表す。)と最適なVN割当方法との関係を深層強化学習により事前に学習しておくことで、VN需要に追従可能な動的VN割当を実現する。
 これにより、NW状態が連続的かつ高次元であっても、物理リソースの利用効率が高い動的VN割当を実現することが可能となる。なお、動的VN割当には、仮想ネットワーク機能(以降、単に「VNF」とも表す。)を物理リソース上に配置することだけでなく、例えば、仮想マシン(VM:Virtual Machine、以降、単に「VM」とも表す。)を物理リソース上に配置したり、VNF間やVM間、VNF-VM間等の最適な経路を決定したりすることも含まれる。
 ここで、物理ネットワーク300に対するVN割当は、最適なVN割当を示す設定命令が制御部200により各サーバ装置10及び各転送装置20に送信されることで行われる。
 また、NW状態とは、物理ネットワーク300に含まれる各物理リソースの量(例えば、各サーバ装置10のサーバ容量や各転送装置20のリンク容量)等のことである。VN需要とは、ネットワークサービスの提供に必要な物理リソースの需要量(例えば、物理ネットワーク300に含まれる或るリンクのトラヒック量(つまり、データ量)やサーバ装置10上に構築する必要があるVM数)等のことである。これらのNW状態やVN需要は、ネットワーク制御装置100に入力されるネットワーク構成情報やネットワーク観測情報、ユーザ需要等から得られる。
 ネットワーク構成情報とは、例えば、物理ネットワーク300のネットワークトポロジー情報や物理リソースの制約条件(例えば、上述した物理リソースの量)等のことである。また、ネットワーク観測情報とは、例えば、物理ネットワーク300を構成する各リンクのトラヒック量を示すトラヒック情報と、各サーバ装置10のサーバ容量やVM数を示すサーバ利用情報とのことである。また、ユーザ需要情報とは、例えば、ユーザ端末30毎に必要なVMやVNF等の需要量やトラヒックの需要量等を示す情報のことである。
 サーバ装置10は、ネットワーク制御装置100により割り当てられたVNFを実現するコンピュータ又はコンピュータシステムである。サーバ装置10は、サーバ利用情報を収集して、収集したサーバ利用情報をネットワーク制御装置100に送信する。また、サーバ装置10は、ネットワーク制御装置100により割り当てられたVNFに従ってトラヒックを処理し、トラヒックを発生させる。なお、以降では、複数のサーバ装置10の各々を区別する場合は、「サーバ装置10」、「サーバ装置10」等と表す。
 転送装置20は、トラヒックを転送するノードとして機能する機器である。転送装置20は、トラヒック情報を収集して、収集したトラヒック情報をネットワーク制御装置100に送信する。また、転送装置20は、経路情報に従ってトラヒックを処理する。なお、経路情報とは、例えば、VM間やVNF間、VM-VNF間等の経路を示す情報のことである。なお、以降では、複数の転送装置20の各々を区別する場合は、「転送装置20」、「転送装置20」等と表す。
 ユーザ端末30は、ユーザの通信行動(例えば、ネットワークサービスの利用開始操作等)により発生したトラヒックを、他のユーザ端末30やサーバ装置10等に送信するコンピュータである。また、ユーザ端末30は、ユーザ需要情報をネットワーク制御装置100に送信する。なお、以降では、複数のユーザ端末30の各々を区別する場合は、「ユーザ端末30」、「ユーザ端末30」等と表す。
 <ネットワーク制御装置100のハードウェア構成>
 次に、本発明の実施の形態におけるネットワーク制御装置100のハードウェア構成について、図2を参照しながら説明する。図2は、本発明の実施の形態におけるネットワーク制御装置100のハードウェア構成の一例を示す図である。
 図4に示すように、本発明の実施の形態におけるネットワーク制御装置100は、ハードウェアとして、外部I/F101と、RAM(Random Access Memory)102と、ROM(Read Only Memory)103と、プロセッサ104と、通信I/F105と、補助記憶装置106とを有する。これら各ハードウェアは、それぞれがバスBを介して通信可能に接続されている。
 外部I/F101は、外部装置とのインタフェースである。外部装置には、記録媒体101a等がある。ネットワーク制御装置100は、外部I/F101を介して、記録媒体101aの読み取りや書き込み等を行うことができる。
 記録媒体101aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
 RAM102は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM103は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM103には、例えば、OS(Operating System)に関する設定情報や通信ネットワークに関する設定情報等が格納されている。
 プロセッサ104は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、ROM103や補助記憶装置106等からプログラムやデータをRAM102上に読み出して処理を実行する演算装置である。
 通信I/F105は、ネットワーク制御装置100を物理ネットワーク300に接続するためのインタフェースである。
 補助記憶装置106は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、各種プログラムやデータを格納する。補助記憶装置106に格納されているプログラムやデータには、例えば、OS、当該OS上で各種機能を実現するアプリケーションソフトウェア、制御部200を実現するプログラム等がある。
 本発明の実施の形態におけるネットワーク制御装置100は、図2に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図2に示す例では、本発明の実施の形態におけるネットワーク制御装置100が1台の装置(コンピュータ)で実現されている場合を示したが、これに限られず、複数台の装置(コンピュータ)で実現されていてもよい。また、1台の装置(コンピュータ)には、複数のプロセッサ104や複数のメモリ(RAM102やROM103、補助記憶装置106等)が含まれていてもよい。また、ネットワーク制御装置100は、上記のハードウェアに加えて、例えば、ディスプレイ等の表示装置と、キーボードやマウス等の入力装置とを有していてもよい。
 <制御部200の機能構成>
 次に、本発明の実施の形態における制御部200の機能構成について、図3を参照しながら説明する。図3は、本発明の実施の形態における制御部200の機能構成の一例を示す図である。
 図3に示すように、本発明の実施の形態における制御部200には、観測部201と、割当部202と、報酬計算部203と、学習部204と、設定命令部205とが含まれる。このような制御部200は、例えば、ネットワーク制御装置100にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。なお、観測部201と、割当部202と、報酬計算部203と、学習部204とが、深層強化学習におけるエージェントに相当する。
 ここで、本発明の実施の形態では、或る一定の時間間隔(以降、「制御間隔」とも表す。)の時刻t毎に事前学習及び動的VN割当を実行するものとして、深層強化学習における時刻tの状態、行動及び報酬をそれぞれs、a及びrと表す。ただし、事前学習においては、次の学習を行うにあたり、制御間隔分の時間が実際に経過している必要はない。
 観測部201は、事前学習及び動的VN割当において、状態sとして、VN需要やNW状態等を観測する。観測部201は、ネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力することで、状態sを観測する。
 ここで、一例として、以下のように状態sを定義することが考えられる。
 ・想定するVN数の最大値:NVN
 ・i番目のVN:VN
 ・時刻tにおけるVN(i=1,・・・,NVN)のトラヒック需要(つまり、VNが必要とするトラヒックの需要量):T
 ・時刻tにおけるVN(i=1,・・・,NVN)のサーバ需要(つまり、VNが必要とするサーバ容量):S
 ・時刻tにおけるリンクm(m=1,・・・,M)の残余リンク帯域:B
 ・時刻tにおけるサーバ装置10(k=1,・・・,K)の残余サーバ容量:C
 このとき、状態sを、
Figure JPOXMLDOC01-appb-M000001
とする。
 また、例えば、過去時刻t-Tまでのトラヒック需要を考慮する場合、状態sは、
Figure JPOXMLDOC01-appb-M000002
とすればよい。
 割当部202は、事前学習及び動的VN割当において、行動aとして、状態sにおける方策πに従ってVN割当の変更を選択及び実行する。なお、方策πは、状態s=s,a=aとして、a=π(s)又はa~π(a|s)と表される。a~π(a|s)は条件付き確率分布π(a|s)からaを選択(サンプリング)することを表す。
 ここで、一例として、VN割当の変更量を制限するパラメータをNとし、以下のように行動aを定義することが考えられる。なお、選択可能な行動aの集合を{a ,a ,・・・}とする。
 (1)N=1の場合
 行動a :VNのサーバ需要をサーバ装置10に割り当てる
 行動a :VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 行動a :VNのサーバ需要をサーバ装置10に割り当てる
 行動a K+1:VNのサーバ需要をサーバ装置10に割り当てる
 行動a K+2:VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 行動a 2K:VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 (2)N=2の場合
 行動a :VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 行動a :VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 行動a :VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 行動a K+1:VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 行動a K+2:VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 行動a 2K:VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 (3)N=nの場合
 行動a :VNのサーバ需要をサーバ装置10に割り当て、かつ、VNのサーバ需要をサーバ装置10に割り当て、かつ、・・・、かつ、VNのサーバ需要をサーバ装置10に割り当てる
 ・・・
 このように、パラメータNがN=nである場合、VN~VNのn個のVNを、複数のサーバ装置10のうち、行動a毎に予め決められた1以上のサーバ装置10に割り当てる。なお、例えば、各時刻tでパラメータNを調整することで、各時刻tでVN割当の変更に要する時間を調整することが可能となる。
 報酬計算部203は、事前学習において、行動aの実行により状態がsからst+1に遷移した場合に、報酬rt+1を計算する。
 ここで、一例として、報酬rt+1を以下のように定義することが考えられる。すなわち、まず、最適化問題の一種であるVNE(Virtual Network Embedding)問題の制約条件と目的関数とを以下のように定義する。
 ・制約条件:リンク帯域の利用率が100%以下、かつ、サーバ容量の利用率が100%以下
 ・目的関数:リンク帯域、サーバ容量及びVN再配置回数
 このとき、全ての制約条件を満たしつつ、目的関数が最小となるように、以下のように報酬rt+1を定義する。なお、VN再配置とは、或るサーバ装置10に割り当てられているVNを、他のサーバ装置10に割り当てることをいう。
 ・制約条件を満たさない場合、報酬rt+1=-100
 ・制約条件を満たすが、VN再配置の結果、リンク帯域及びサーバ容量のいずれか又は両方の利用効率が低下した場合(つまり、VN再配置回数の最小化のみが実現されている場合)、報酬rt+1=-100
 ・制約条件を満たすが、リンク帯域の利用率が90%以上の場合(例えば、突発的なトラヒック変動が発生したような場合)、報酬rt+1=0
 ・上記以外で、制約条件を満たす場合(つまり、リンク帯域の利用率及びサーバ容量の利用率の最小化が実現されている場合)、報酬rt+1=1-(各リンク帯域の利用率の平均+各サーバ容量の利用率の平均)/2
 このように、制約条件を満たし、かつ、できるだけVN再配置回数を少なくしつつ、リンク帯域及びサーバ容量の利用率を最小化(すなわち、物理リソースの利用効率を向上)するように報酬rt+1が定義される。
 なお、上記の制約条件及び目的関数は一例であって、これ以外にも、例えば、制約条件として「ネットワーク遅延が所定の閾値以下」としてもよいし、目的関数として「サーバ装置10の消費電力(の合計)」としてもよい。
 学習部204は、事前学習において、将来にわたって受け取る報酬rが最大となるように方策πを学習する。
 設定命令部205は、動的VN割当において、割当部202が実行した行動aに応じた設定命令をサーバ装置10や転送装置20等に送信する。これにより、当該行動aにより変更されたVN割当となるように、各サーバ装置10や各転送装置20の設定が変更される。
 <事前学習処理>
 次に、動的VN制御を行う前に実行される事前学習処理について、図4を参照しながら説明する。図4は、本発明の実施の形態における事前学習処理の一例を示すフローチャートである。以降のステップS101~ステップS104は、所定の終了条件を満たすまで時刻t毎に繰り返し実行される。所定の終了条件としては、例えば、所定の繰り返し回数に達したこと、学習結果を表す任意の指標値(例えば、物理リソースの利用効率を表す指標値)が所定の値以上となったこと等が挙げられる。
 なお、深層強化学習のアルゴリズムとしては、任意の深層強化学習アルゴリズムを用いることが可能である。例えば、非特許文献1に記載されているDQN(Deep Q-Network)や非特許文献2に記載されているA3C(Asynchronous Advantage Actor-Critic)等を用いることが可能である。
 ステップS101:観測部201は、ネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力して、状態s(すなわち、VN需要やNW状態等)を観測する。ただし、各時刻tでネットワーク構成情報が不変である場合、ネットワーク構成情報は初回のみ(例えば、時刻t=1のときのみ)入力されればよい。
 ステップS102:次に、割当部202は、状態sにおける方策πに従って行動a(すなわち、VN割当の変更)を選択及び実行する。これにより、状態sが状態st+1に遷移する。
 ステップS103:次に、報酬計算部203は、報酬rt+1を計算する。なお、報酬計算部203は、状態st+1におけるネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力することで、報酬rt+1を計算することができる。ただし、上記と同様に、ネットワーク構成情報は初回のみ入力されてもよい。又は、ステップS103が実行される前に、観測部201により状態st+1を観測し、この観測結果を用いて報酬st+1が計算されてもよい。
 ステップS104:次に、学習部204は、将来にわたって受け取る報酬rが最大となるように方策πを学習する。
 以上により、本発明の実施の形態におけるネットワーク制御装置100では、将来にわたって受け取る報酬rが最大となるように(すなわち、できるだけVN再配置回数を少なくしつつ、物理リソースの利用効率が最大となるように)方策πが学習される。このとき、本発明の実施の形態では、深層強化学習を用いることで、例えばトラヒック需要等の各変数を離散化する必要がなく、連続値として扱うことが可能となると共に、各リンクの残余リンク帯域や各サーバ装置10の残余サーバ容量等の情報もNW状態として含めることが可能になる。したがって、物理リソースの利用効率を高くするようなVN割当を高い精度で実現することが可能となる。
 <動的VN割当処理>
 次に、ネットワークサービス提供中に実行される動的VN割当処理について、図5を参照しながら説明する。図5は、本発明の実施の形態における動的VN割当処理の一例を示すフローチャートである。以降のステップS201~ステップS205は、時刻t毎に(つまり、制御間隔毎に)繰り返し実行される。
 ステップS201:まず、割当部202は、1つ前の時刻t-1から現在の時刻tまでの間に、新たなVN割当要求を受け付けたか否かを判定する。ここで、新たなVN割当要求は、例えば、ネットワークサービスのサービス提供者が端末等を操作して新たなVNの割当要求操作を行うことで、当該端末等からネットワーク制御装置100に送信される。
 新たなVN割当要求を受け付けた場合、ステップS202に進む。一方で、新たなVN割当要求を受け付けていない場合、ステップS202が実行されずに、ステップS203に進む。
 ステップS202:割当部202は、新たなVN割当要求に応じたVNを、物理ネットワーク300の空いている物理リソース上に割り当てる。
 ステップS203:次に、観測部201は、ネットワーク構成情報やネットワーク観測情報、ユーザ需要情報を入力して、状態s(すなわち、VN需要やNW状態等)を観測する。ただし、各時刻tでネットワーク構成情報が不変である場合、ネットワーク構成情報は初回のみ(例えば、時刻t=1のときのみ)入力されればよい。なお、上記のステップS202が実行された場合は、状態sは、新たなVN割当要求に応じたVNが割り当てられた後のVN需要やNW状態等のことである。
 ステップS204:次に、割当部202は、状態sにおける方策πに従って行動a(すなわち、VN割当の変更)を選択及び実行する。ここで、方策πは事前学習で学習された方策である。これにより、最適なVN割当の変更が選択及び実行され、状態sが状態st+1に遷移する。
 ステップS205:次に、設定命令部205は、上記のステップS204で変更されたVN割当に応じた設定命令をサーバ装置10や転送装置20等に送信する。これにより、変更後のVN割当となるように、各サーバ装置10や各転送装置20の設定が変更される。
 以上により、本発明の実施の形態におけるネットワーク制御装置100では、事前学習で学習された方策πに従って最適な行動a(すなわち、できるだけVN再配置回数を少なくしつつ、物理リソースの利用効率が最大となるVN割当への変更)が選択及び実行される。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
 10    サーバ装置
 20    転送装置
 30    ユーザ端末
 100   ネットワーク制御装置
 101   外部I/F
 101a  記録媒体
 102   RAM
 103   ROM
 104   プロセッサ
 105   通信I/F
 106   補助記憶装置
 200   制御部
 201   観測部
 202   割当部
 203   報酬計算部
 204   学習部
 205   設定命令部
 300   物理ネットワーク

Claims (7)

  1.  ネットワークサービスを提供するための仮想ネットワークを深層強化学習により物理ネットワーク上に動的に割り当てる制御装置であって、
     前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻tにおける状態sを観測する観測手段と、
     前記状態sにおける方策πに従って、前記物理ネットワーク上への前記仮想ネットワークの割り当てを変更する行動aを選択する割当手段と、
     前記行動aにより遷移した状態st+1から報酬rt+1を計算する報酬計算手段と、
     前記報酬rt+1を用いて、前記方策πを学習する学習手段と、
     を有することを特徴とする制御装置。
  2.  前記状態sには、
     前記仮想ネットワークが必要とするトラヒックの需要量と、前記仮想ネットワークが必要とするサーバ容量の需要量と、前記物理ネットワークに含まれる各リンクの残余帯域と、前記物理ネットワークに含まれる各サーバの残余サーバ容量とが含まれる、ことを特徴とする請求項1に記載の制御装置。
  3.  前記割当手段は、
     前記行動aを、予め決められた行動集合の中から選択し、
     前記行動集合に含まれる各要素は、時刻t毎に予め設定されたパラメータNに応じて、N個の仮想ネットワークを、複数のサーバのうち、前記要素毎に予め決められた1以上のサーバに割り当てることを示す行動である、ことを特徴とする請求項1又は2に記載の制御装置。
  4.  前記報酬rt+1は、
     VNE問題の制約条件を満たし、かつ、前記VNE問題の目的関数が最小となるように定義される、ことを特徴とする請求項1乃至3の何れか一項に記載の制御装置。
  5.  前記制約条件は、
     前記物理ネットワークに含まれる各リンクの帯域が100%以下、かつ、前記物理ネットワークに含まれる各サーバのサーバ容量が100%以下であり、
     前記目的関数は、前記各リンクの帯域、前記各サーバのサーバ容量、及び前記仮想ネットワークの再配置回数であり、
     前記報酬rt+1は、
     (1)前記制約条件を満たさない場合は前記報酬rt+1を負値、
     (2)前記制約条件を満たすものの、前記各リンクの帯域及び各サーバのサーバ容量の少なくとも一方の利用効率が低下した場合は前記報酬rt+1を負値、
     (3)前記制約条件を満たすものの、前記各リンクの帯域が所定の閾値以上である場合は前記報酬rt+1を0、
     (4)前記(1)~前記(3)以外の場合は前記報酬rt+1を、報酬rt+1=1-(各リンク帯域の利用率の平均+各サーバ容量の利用率の平均)/2、
     により定義される、ことを特徴とする請求項4に記載の制御装置。
  6.  ネットワークサービスを提供するための仮想ネットワークを深層強化学習により物理ネットワーク上に動的に割り当てるコンピュータが、
     前記物理ネットワークのネットワーク構成情報と、前記物理ネットワークの物理リソース量を示すネットワーク観測情報と、前記ネットワークサービスのユーザ端末の通信行動によって発生した物理リソースの需要量を示すユーザ需要情報とを入力として、時刻tにおける状態sを観測する観測手順と、
     前記状態sにおける方策πに従って、前記物理ネットワーク上への前記仮想ネットワークの割り当てを変更する行動aを選択する割当手順と、
     前記行動aにより遷移した状態st+1から報酬rt+1を計算する報酬計算手順と、
     前記報酬rt+1を用いて、前記方策πを学習する学習手順と、
     を実行することを特徴とする制御方法。
  7.  コンピュータを、請求項1乃至5の何れか一項に記載の制御装置における各手段として機能させるためのプログラム。
PCT/JP2020/002377 2019-02-06 2020-01-23 制御装置、制御方法及びプログラム WO2020162211A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/421,432 US11489735B2 (en) 2019-02-06 2020-01-23 Dynamic network allocation apparatus, dynamic network allocation method and non-transitory computer-readable medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019020138A JP7063284B2 (ja) 2019-02-06 2019-02-06 制御装置、制御方法及びプログラム
JP2019-020138 2019-02-06

Publications (1)

Publication Number Publication Date
WO2020162211A1 true WO2020162211A1 (ja) 2020-08-13

Family

ID=71948247

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002377 WO2020162211A1 (ja) 2019-02-06 2020-01-23 制御装置、制御方法及びプログラム

Country Status (3)

Country Link
US (1) US11489735B2 (ja)
JP (1) JP7063284B2 (ja)
WO (1) WO2020162211A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962390A (zh) * 2021-12-21 2022-01-21 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
US11973662B1 (en) * 2023-08-31 2024-04-30 East China Normal University Intelligent mapping method for cloud tenant virtual network based on reinforcement learning model

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125593A (zh) 2020-08-31 2022-03-01 中兴通讯股份有限公司 Otn网络资源优化方法、装置、计算机设备和介质
JP7468304B2 (ja) 2020-11-09 2024-04-16 日本電信電話株式会社 制御装置、制御方法及びプログラム
US20230088244A1 (en) * 2021-09-20 2023-03-23 Servicenow, Inc. Common Interface for Supporting Virtualized Architectures
CN113641462B (zh) * 2021-10-14 2021-12-21 西南民族大学 基于强化学习的虚拟网络层次化分布式部署方法及系统
WO2023223514A1 (ja) * 2022-05-19 2023-11-23 日本電信電話株式会社 統合制御装置、統合制御システム、統合制御方法及びプログラム
CN115412401B (zh) * 2022-08-26 2024-04-19 京东科技信息技术有限公司 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018134911A1 (en) * 2017-01-18 2018-07-26 Nec Corporation Resource allocation system, method, and program
WO2018142700A1 (ja) * 2017-02-02 2018-08-09 日本電信電話株式会社 制御装置、制御方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625604B2 (en) * 2017-10-27 2023-04-11 Deepmind Technologies Limited Reinforcement learning using distributed prioritized replay
CN107770096B (zh) * 2017-12-11 2021-07-30 国网河南省电力公司信息通信公司 一种基于负载均衡的sdn/nfv网络动态资源分配方法
US11423295B2 (en) * 2018-07-26 2022-08-23 Sap Se Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning
US10977068B2 (en) * 2018-10-15 2021-04-13 Microsoft Technology Licensing, Llc Minimizing impact of migrating virtual services
US11461145B2 (en) * 2019-01-28 2022-10-04 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018134911A1 (en) * 2017-01-18 2018-07-26 Nec Corporation Resource allocation system, method, and program
WO2018142700A1 (ja) * 2017-02-02 2018-08-09 日本電信電話株式会社 制御装置、制御方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIZUTANI KIMIHIRO ET AL.: "Debuggable reinforcement learning for server resource management", IEICE TECHNICAL REPORT, vol. 115, no. 409, 14 January 2016 (2016-01-14), pages 31 - 36 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962390A (zh) * 2021-12-21 2022-01-21 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN113962390B (zh) * 2021-12-21 2022-04-01 中国科学院自动化研究所 基于深度强化学习网络构建多样化搜索策略的模型的方法
US11973662B1 (en) * 2023-08-31 2024-04-30 East China Normal University Intelligent mapping method for cloud tenant virtual network based on reinforcement learning model

Also Published As

Publication number Publication date
US11489735B2 (en) 2022-11-01
JP2020127182A (ja) 2020-08-20
US20220124003A1 (en) 2022-04-21
JP7063284B2 (ja) 2022-05-09

Similar Documents

Publication Publication Date Title
WO2020162211A1 (ja) 制御装置、制御方法及びプログラム
CN109218355B (zh) 负载均衡引擎,客户端,分布式计算系统以及负载均衡方法
EP3577561B1 (en) Resource management for virtual machines in cloud computing systems
US20110202925A1 (en) Optimized capacity planning
US8458334B2 (en) Optimized capacity planning
TW201243725A (en) Image analysis tools
CN109361750B (zh) 资源分配方法、装置、电子设备、存储介质
WO2022018798A1 (ja) 制御装置、仮想ネットワーク割当方法、及びプログラム
JPWO2018142700A1 (ja) 制御装置、制御方法、及びプログラム
CN115580882A (zh) 动态网络切片资源分配方法及装置、存储介质及电子设备
Pereira et al. Increasing the efficiency of fog nodes through of priority-based load balancing
CN115421930A (zh) 任务处理方法、系统、装置、设备及计算机可读存储介质
Modarressi et al. Using task migration to improve non-contiguous processor allocation in NoC-based CMPs
JP6938944B2 (ja) 情報処理装置、及び、負荷分散制御方法
CN111190719A (zh) 优化集群资源分配的方法、装置、介质及电子设备
IL301738A (en) Predictive block storage size allocation for cloud storage
US20220066922A1 (en) Co-operative memory management system
JP2018181123A (ja) リソース割当制御システム、リソース割当制御方法、及びプログラム
JP6374059B2 (ja) コンピュータ資源配分決定方法、コンピュータ資源配分決定方法プログラムおよび制御用コンピュータ
JP2015108877A (ja) 予測時間分布生成装置、制御方法、及びプログラム
JP2014078215A (ja) スケジュールシステム、スケジュール方法、スケジュールプログラム、及び、オペレーティングシステム
JP2012038275A (ja) 取引計算シミュレーションシステム、方法及びプログラム
JP7347531B2 (ja) 制御装置、制御方法及びプログラム
CN110955644A (zh) 一种存储系统的io控制方法、装置、设备及存储介质
JP4999932B2 (ja) 仮想計算機システム及び仮想計算機重み付け設定処理方法及び仮想計算機重み付け設定処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20753247

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20753247

Country of ref document: EP

Kind code of ref document: A1