WO2006073025A1 - Information processing system, information processing method, and program - Google Patents

Information processing system, information processing method, and program Download PDF

Info

Publication number
WO2006073025A1
WO2006073025A1 PCT/JP2005/021062 JP2005021062W WO2006073025A1 WO 2006073025 A1 WO2006073025 A1 WO 2006073025A1 JP 2005021062 W JP2005021062 W JP 2005021062W WO 2006073025 A1 WO2006073025 A1 WO 2006073025A1
Authority
WO
WIPO (PCT)
Prior art keywords
link
node
test
output
input
Prior art date
Application number
PCT/JP2005/021062
Other languages
French (fr)
Japanese (ja)
Inventor
Shigeki Sugano
Chyon Hae Kim
Tetsuya Ogata
Original Assignee
Waseda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University filed Critical Waseda University
Publication of WO2006073025A1 publication Critical patent/WO2006073025A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Definitions

  • the present invention relates to an information processing system, an information processing method, and a program using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as constituent elements
  • a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as constituent elements
  • it can be used when performing robot motion control, game character motion control on the display screen, air conditioning management, and the like.
  • Necessary conditions for the learner include (1) autonomous search for various outputs, (2) application to arbitrary tasks, (3) small computational cost, and (4) learning by reusing existing knowledge. (5) Response to time series can be considered, but the creation of learners that satisfy all of these conditions has not yet been achieved.
  • a reconfigurable circuit is provided, and the adaptability of the circuit to the environment is evaluated and evaluated.
  • There is an autonomous evolution system in which the hardware configuration changes autonomously in response to environmental changes by changing the circuit configuration based on the evaluation results and evolving it see Patent Document 1
  • Patent Document 1 Japanese Patent Laid-Open No. 10-307805 (Claim 1, FIG. 1, Abstract)
  • Patent Document 2 Japanese Patent Laid-Open No. 5-73705 (Claim 1, FIG. 1, Abstract)
  • Patent Document 3 Japanese Patent Laid-Open No. 4 336656 (Claim 1, FIG. 1, Abstract)
  • the evolution method is a method for evaluating the entire network and generating and generating the entire network.
  • a change in the circuit configuration based on the evaluation result can be regarded as a replacement of the entire circuit configuration with another configuration, and even if the result is only a partial change in the circuit configuration, This is not a change based on the result of evaluating a part of the result, but a change of the result of evaluating the entire circuit configuration. Therefore, there is a problem that the evaluation period becomes long. In this respect, as will be described later, the evaluation period is extremely short because the evaluation, generation, and selection are performed in units of network elements rather than the entire network.
  • the power for optimizing the coupling coefficient between neuron units In the case of an optimization method, normally, when constructing a network, the network structure is determined by the builder's prior knowledge regarding the environment and tasks in which the network is used, and the determined structure is determined. Optimization in is done. In other words, the coupling coefficient is optimized without changing the network structure. Therefore, created The learner to be used has high ability for a specific environment and task. It is difficult to use in any environment and task. In this respect, the present invention differs from the present invention in which the network structure itself is autonomously changed and optimized by optimizing the coupling coefficient in the determined network structure.
  • An object of the present invention is to provide an information processing system, an information processing method, and a program capable of performing effective autonomous control in a short time.
  • the present invention is an information processing system using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as a constituent element.
  • Network structure storage means for storing the structure of the network including the connection relationship of the network
  • input / output state storage means for storing the input / output state of the constituent elements formed by the network output generation process, and a form based on the network output result.
  • the enhancement signal generation means for generating an enhancement signal to be given as a reward or punishment to the network according to the evaluation result of the state of the control target, and at least one enhancement signal generated by the enhancement signal generation means Assigned to an element and configured from a configuration element with an enhanced signal to another configuration element
  • the propagation source and Z or propagation stored in the input / output state storage means in order based on the reinforcement signal given to the constituent element of the propagation source in order to propagate the reinforcement signal according to the chain connection relationship between the elements.
  • an enhancement signal to be given as a reward or punishment to the propagation destination component element is generated, and the enhancement signal given to the component element or its history or the accumulated value of the enhancement signal or
  • a configuration element is generated or deleted for each configuration element to change the network structure, and the network structure after the change is stored in the network structure storage unit and stored in the network structure storage unit
  • a network whose structure is changed by learning means Output generation means for generating the output of the network by using the enhancement signal storage means for storing the reinforcement signal of the constituent element generated by the learning means or its history or the cumulative value of the enhancement signal or the history for each constituent element;
  • the “control target” is, for example, a robot (may be a virtual robot such as a robot displayed on a display screen, which may be an actual robot, or a robot displayed by holography). These are the game characters displayed on the display screen, the environment of the space subject to air conditioning management, and so on. The same
  • control target state refers to, for example, the robot state (behavior result) brought about by the robot action based on the network output result, and the game character action based on the network output result.
  • the state of the target space brought about by the air conditioning management based on the state of the resulting character for example, if it is a fighting game, the damage received by the self, the damage given to the enemy, the result of winning or losing), and the network output result
  • Environmental conditions fort, safety, etc.
  • the “input / output state storage means” includes not only the current (latest step) I / O status but also the past (previous step) I / O status. It may be. Therefore, when the reinforcement signal is generated “depending on the input / output state of the constituent element” by the learning means, not only the present but also the past input / output state (history of a plurality of points in time in the past may be used). ) May be referred to. The same applies to the following inventions.
  • the "enhanced signal" in “sequentially based on the enhanced signal given to the constituent element of the propagation source” includes not only the current (latest step) enhanced signal but also the past (the previous step).
  • Enhancement signal may be included. Therefore, when generating the reinforcement signal to be given to the propagation destination configuration element by the learning means, not only the current enhancement signal given to the propagation source configuration element but also the past enhancement signal (the past one). It is also possible to refer to the history of multiple points in time, and to generate data based on the result of calculation using them.
  • Is used to perform generation or deletion judgment processing using the values obtained by performing various processing for example, the rate of change of each cumulative value, the This includes a process of calculating variance 'standard deviation, etc., and performing generation or deletion determination processing using values obtained by performing processing (regardless of linear' non-linear '). The same applies to the following inventions.
  • information processing performed by a "node” is usually a process that obtains one output using a plurality of inputs.
  • a special node such as a node located at the end of a network.
  • a dummy node may be used, for example, a process for obtaining one output using one input or a process for obtaining one output without input. The same applies to the following inventions.
  • an enhancement signal to be given to the network is generated in accordance with the evaluation result of the state of the controlled object, and this enhancement signal is transmitted from the network constituent elements to other elements. Propagate to constituent elements.
  • the strengthening signal to be propagated that is, the strengthening signal to be given to the constituent element of the propagation destination, is generated according to the input / output state of the constituent element of the propagation source and Z or the propagation destination, and configured in this way. It is determined whether to generate (add) or delete ( ⁇ ) a configuration element for each configuration element using the reinforcement signal or its history given individually for each element or the cumulative value of the enhancement signal or its history. This process is executed to change the network structure autonomously.
  • the network structure is determined in accordance with the use environment and tasks of the network, and the determined structure is determined.
  • the network structure itself is autonomously changed and optimized in order to avoid limitations on the environment and tasks due to the structure determination. It becomes possible. For this reason, even when the network usage environment and tasks change, there is a high possibility that learning can be performed by reusing previous learning results as existing knowledge, thereby achieving the above objective.
  • a state detection means for detecting the state of the controlled object or a state evaluation signal acquiring means for acquiring a state evaluation signal for evaluating the state of the controlled object itself is controlled.
  • the enhancement signal generation means may be configured to evaluate the state of the controlled object based on the state evaluation signal acquired by the state evaluation signal acquisition means and generate an enhancement signal according to the evaluation result.
  • the “state detection means” includes, for example, position, velocity, acceleration, distance, rotation angle, rotation angular velocity, rotation angular acceleration, temperature, humidity, pressure, odor, light, sound, vibration, touch, etc. These are various sensors that detect
  • the state of the control target is evaluated based on the state evaluation signal acquired by the state evaluation signal acquisition unit as described above, the state of the control target is evaluated without intervention of human judgment. This makes it possible to increase the speed of autonomous network construction and to easily perform consistent learning according to the purpose.
  • the information processing system described above further includes an evaluation result input receiving unit that receives an input of an evaluation result of the state of the control target by the user, and the enhancement signal generating unit is configured to receive the evaluation result received by the evaluation result input receiving unit.
  • the enhancement signal may be generated.
  • an enhancement signal is generated according to the user's evaluation result, and this enhancement signal is transmitted from the component element to another component element. Therefore, it is possible to promote the autonomous construction of the network so that the control target can be controlled in accordance with the user's intention.
  • the number of "users" may be one or more. When multiple users use or refer to the same controlled object, as in the latter case, it is possible to accept evaluation results by multiple users (evaluated results of different or identical states for the same controlled object). For example, if the control target is a search engine on the network, multiple user terminal devices connected to the network will be sent. It is possible to change the search algorithm of the search engine and the like.
  • the learning means equally applies the reinforcement signal generated by the enhancement signal generation means to all the output nodes constituting the output layer of the network. Propagation that is determined according to the input / output status of the source node based on the reinforcement signal given to the source node, with the source element as the node and the destination component as the input side link of the source node. It is desirable to generate an enhanced signal that is given as a reward or punishment to the destination input link according to the degree of contribution to the node output of the destination input link.
  • the enhanced signal when propagated from the node to its input side link, the enhanced signal given to the network can be propagated back from the output node, and Depending on the degree of contribution to the node output of the input link at the propagation destination, an enhanced signal to be given to the input link is generated, making it possible to perform reasonable evaluations for each link individually. Therefore, it is possible to realize generation or deletion for each component element.
  • the learning means uses the propagation source configuration element as a node and the propagation destination configuration element as the propagation source node.
  • the input side node connected to the input side of the input side link of the input side, and the contribution to the node output of the input side link determined according to the input / output state of the source node based on the reinforcement signal given to the source node Depending on the degree, it may be configured to generate a reinforcement signal to be given as a reward or punishment to the input side node of the propagation destination.
  • the node power is configured to propagate the enhanced signal to the input side node of the input side link in this way, the node power is combined with the back propagation of the enhanced signal from the node to the input side link.
  • the back propagation of the enhancement signal to the input side node of the input side link can be performed, and the back propagation of the enhancement signal can be realized more smoothly.
  • the enhancement signal storage means is a history of the enhancement signal given to the link or a cumulative value of the enhancement signal. Is stored for each link, and the learning means is preferably configured to delete this link when the cumulative value of the reinforcement signal given to the link falls below a threshold value. Better!/,.
  • the learning means performs a process of adding the accumulated value of the enhancement signal necessary for determining whether or not the force is below the threshold to the history of the enhancement signal stored in the enhancement signal storage means. Therefore, the cumulative value of the enhancement signal stored in the enhancement signal storage means may be read and grasped. The same applies to the following inventions.
  • the link is deleted when the cumulative value of the reinforcement signal given to the link falls below the threshold value in this way, it is useful for controlling the control target as intended. It is possible to make a selection of links that cannot be established, that is, links that are considered unnecessary, and it is possible to change the network structure autonomously.
  • the learning means is connected to the input side of the node. It is desirable to delete this node when the number of links becomes 1 or less.
  • a test that does not contribute to node output in addition to the input side link of the propagation destination is provided on the input side of the propagation source node.
  • a link is provided, and the enhancement signal storage means is configured to store the history of the enhancement signal given to the test link or the cumulative value of the enhancement signal, and the learning means is an enhancement signal given to the test link. It is desirable that the test link be registered in the network structure storage means as the input side link of the propagation source node when the cumulative value of the above exceeds the threshold.
  • test link When the test link is configured as described above, the test link that is considered to be useful for controlling the control target as intended is promoted to an actual link that contributes to the node output, and formally. Since it can be registered as an input-side link, autonomous link generation can be realized and the network structure can be changed autonomously.
  • the learning means performs the test link when the cumulative value of the reinforcement signal given to the test link falls below the threshold value. It is desirable to create a new test link to be deleted, coupled to an arbitrary node, and register it in the network structure storage means.
  • test links that are appropriate candidates for the links that are generated can be prepared in advance, enabling appropriate and smooth generation of links and autonomously changing the network structure. Let it be! /
  • the link is provided with a test node that does not contribute to the output of the network accompanying the link, and the test node receives the first input to the input side node of the link.
  • the propagation destination component is a test node, and the propagation destination test is performed according to the output of the propagation link and the propagation of the propagation test node based on the enhanced signal given to the propagation link. Reward for the node Or it is desirable to be the structure which produces
  • test node When the test node is provided in association with the link as described above, it is possible to prepare a candidate for a newly generated node (real node), and the network structure is autonomous. It becomes possible to change to.
  • the learning means uses the propagation source configuration element as the test node and the propagation destination configuration element as the first and second test nodes.
  • Test of the first and second input side test links of the propagation destination determined as the second input side test link and based on the input / output state of the test node of the propagation source based on the reinforcement signal given to the test node of the propagation source It is desirable to generate an enhanced signal that is given as reward or punishment for the first and second input side test links of the propagation destination according to the contribution to the node output.
  • the enhanced signal storage means includes the first and second propagation destinations.
  • the history of the enhancement signal given to the two input side test links or the cumulative value of the enhancement signal is also stored for each link, and the learning means is the first or second input side test link of the propagation destination.
  • the cumulative value of the enhancement signal given to the threshold value falls below the threshold value, the input side test link below the threshold value is deleted, and a new input side test link that is coupled to an arbitrary node is generated. It is desirable that the configuration be registered in the structure storage means.
  • the input side test link below the threshold value is deleted and a new input is made.
  • the test link is configured to be generated, a test link that is a suitable candidate for a newly generated link (actual link) can be prepared, so the link can be generated appropriately and smoothly. It is possible to autonomously change the network structure.
  • the first input test link is given a sufficiently large reward when this link is generated. If this is done and it is preferable not to be deleted, in effect, only the second input test link is subject to deletion.
  • the enhanced signal storage means has the first and second propagation destinations.
  • the history of the reinforcement signal given to the two input side test links or the cumulative value of the enhancement signal is also stored for each link, and the learning means is the first and second input side test links of the propagation destination.
  • the cumulative value of the enhancement signal given to all exceeds the threshold, the test node is promoted to a real node that contributes to the network output and registered in the network structure storage means in order to put the test node into practical use It is desirable to have a configuration that does this.
  • test node when the cumulative value of the enhancement signals given to the first and second input side test links exceeds the threshold value, the test node is put into practical use. New nodes (real nodes) can be created (added), and the network structure can be changed autonomously.
  • the node be configured to perform information processing using at least one logical circuit.
  • logic circuit for example, an AND (logical product) circuit, an OR (logical sum) circuit, an X OR (exclusive OR) circuit, a NOT (negative) circuit, a NAND ( A NOR (Not AND) circuit, a NOR (Negative OR: Not OR) circuit, an XNOR (Negative Exclusive OR: Exclusive Not OR) circuit, or the like can be used.
  • the present invention is an information processing method using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as a configuration element.
  • the network structure including the connection relationship between the elements is stored in the network structure storage means, and formed by the network output generation process.
  • the input / output states of the constituent elements to be stored are stored in the input / output state storage means, and the reinforcement signal generation means rewards the network according to the evaluation result of the state of the control target formed based on the output result of the network.
  • the learning means assigns the enhancement signal generated by the enhancement signal generation means to at least one component element, and from the component element to which the enhancement signal is given to the other component
  • the propagation source stored in the input / output state storage unit is sequentially based on the enhancement signal assigned to the configuration element of the propagation source.
  • a signal is generated, and the strengthening signal of the generated constituent element or its accumulated value is stored in the strengthening signal storage means for each constituent element, and the strengthening signal given to the constituent element or its history or the cumulative value of the strengthening signal or its history Is used to generate or delete a configuration element for each configuration element, change the network structure, and store the changed network structure in the network structure storage means.
  • the network structure stored in the structure storage means is referred to, and the network output is generated using the network whose structure has been changed by the learning means.
  • to store the enhancement signal of the generated component element or its accumulated value in the enhancement signal storage means for each component element includes the case where the accumulated value of the enhancement signal or the enhancement signal is overwritten and saved, This includes the case where the past enhancement signal or the cumulative value of the enhancement signal is stored as a history while the enhancement signal or the cumulative value of the enhancement signal is additionally stored.
  • the present invention provides a computer as an information processing system using a network that includes a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as constituent elements.
  • a network structure storage means for storing a network structure including a connection relationship between constituent elements, and The input / output state storage means for storing the input / output state of the constituent elements formed in the network output generation process, and the network is rewarded or rewarded according to the evaluation result of the state of the control target formed based on the network output result.
  • An enhancement signal generation means for generating an enhancement signal to be given as punishment, and an enhancement signal generated by the enhancement signal generation means is assigned to at least one component element, and the component element to which the enhancement signal is given is given to another component element.
  • the propagation source and Z or the Z or the Z stored in the input / output state storage means are sequentially based on the reinforcement signal given to the constituent element of the propagation source.
  • the structure of the network is changed by generating or deleting the configuration element for each configuration element using the enhancement signal given to the configuration element or its history, or the cumulative value of the enhancement signal or its history.
  • the network structure storage means stores the changed network structure and the network structure stored in the network structure storage means is referred to, and the network whose structure is changed by the learning means is used.
  • Output generation means for generating output
  • reinforcement signal storage means for storing the reinforcement signal of the constituent element generated by the learning means or its history, or the cumulative value of the enhancement signal or its history for each constituent element
  • the above program or a part of the above program is, for example, a magneto-optical disk (MO), a read-only memory (CD-ROM) using a compact disk (CD), a CD recordable (CD-R), a CD rewritable ( CD-RW), read-only memory (DVD-ROM) using digital 'Versatile' disc (DVD), random 'access' memory using DVD (D VD-RAM), flexible disc (FD), magnetic tape, Recording to storage media such as hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM), flash 'memory, random'access' memory (RAM), etc.
  • MO magneto-optical disk
  • CD-ROM read-only memory
  • CD-R compact disk
  • CD-RW CD rewritable
  • DVD-ROM read-only memory
  • D VD-RAM digital 'Versatile' disc
  • FD flexible disc
  • magnetic tape Recording to storage media such as hard disk,
  • LAN local area network
  • MAN metropolitan 'area' network
  • WAN wide area network
  • internet DOO intranet, extranet, etc.
  • wired network or a wireless communication network It is also possible to transmit using a transmission medium such as a network or a combination of these yarns, or to carry it on a carrier wave.
  • the above program may be a part of another program or may be recorded on a recording medium together with a separate program.
  • an enhancement signal to be applied to the network is generated according to the evaluation result of the state of the controlled object, and the enhancement signal is further transmitted from the network constituent element.
  • Network structure by evaluating, generating, or deleting for each configuration element using the enhancement signal or its history, or the cumulative value of the enhancement signal or its history. The time required for evaluation can be shortened compared to the case where the entire network is evaluated as an evaluation unit as in the past, and the network can be constructed autonomously with a low time order! If you can!
  • FIG. 1 shows the overall configuration of the information processing system 10 of the present embodiment.
  • FIG. 2 shows the data structure used in the processing by the information processing system 10.
  • Fig. 3 shows the overall flow of operation control of the robot 30
  • Fig. 4 shows the flow of processing of the network 20
  • Fig. 5 shows learning of the intermediate OR node (real node). The flow of processing is shown
  • Fig. 6 shows the flow of learning processing for non-inverted links.
  • Fig. 7 is an explanatory diagram of the learning process of the intermediate OR node
  • Fig. 8 is a diagram showing an example of distribution of the reinforcement signal during learning of the intermediate OR node
  • Fig. 9 is a diagram of the intermediate AND node.
  • FIG. 10 is a diagram illustrating an example of distribution of reinforcement signals during learning
  • FIG. 10 is an explanatory diagram of learning processing for a non-inverted link (real link).
  • FIG. 11 shows the configuration of initialization
  • FIG. 12 shows the configuration of deletion processing during learning.
  • FIG. 13 is an explanatory diagram of the output node initialization process G4
  • FIG. 14 is an explanatory diagram of the intermediate OR node initialization process G5
  • FIG. 15 is an explanatory diagram of the test intermediate OR node initialization process G7.
  • FIGS. 16 to 18 are explanatory diagrams of the intermediate OR node deletion processing E1.
  • an information processing system 10 uses a network 20 to control objects (this implementation In the embodiment, the robot 30 is taken as an example.
  • the network 20 is an information processing network configured in a computer.
  • the network 20 is arranged in the input layer, the intermediate layer, and the output layer, and each of the plurality of input nodes 21 and the plurality of intermediate nodes 22 performs information processing individually. And a plurality of output nodes 23, and a link 24 that links these nodes 21, 22 and 23 to transmit information between the nodes.
  • Each of the nodes 21, 22, 23 and the link 24 is a self-organizing network element (SONE) that functions as an element used to create a learning device.
  • Self-organized network elements is a network element (SONE) that autonomously constructs the network 20 by giving these elements death conditions, new element generation functions, enhanced signal generation / propagation functions, etc. It is a circuit element that can.
  • control target is described as a robot 30 called a Keppera robot as an example.
  • control target of the information processing system of the present invention is not limited to the Kepera robot and is not limited to the robot.
  • the robot 30 includes a right wheel 31 and a motor 32 that drives the right wheel 31, a left wheel 33 and a motor 34 that drives the right wheel 31, and six in the forward part in the traveling direction, In this portion, two infrared sensors 35 are provided.
  • This robot 30 is a robot that moves forward while avoiding a collision with the wall 36.
  • the eight infrared sensors 35 are provided to detect the distance D between the robot 30 and the wall 36.
  • each node functions as an information processing device.
  • each node is configured by a logical circuit (AND circuit or OR circuit), and includes an input node 21 and four types of intermediate nodes 22 (intermediate).
  • the node is basically a force input node 21 composed of a logic circuit that can obtain one output from a plurality of inputs, and is a dummy node that performs only output.
  • an AND circuit and an OR circuit are used, but other types of logic circuits such as an XOR circuit may be used, or a plurality of logic circuits may be combined to form one node.
  • the input node 21 is provided corresponding to the eight infrared sensors 35. Ie 1
  • the output node 23 is provided corresponding to the two motors 32 and 34.
  • one motor output signal (rotation speed) is 16 bits
  • the number of output nodes 23 is 32.
  • the output node 23 may be a mixture of force AND nodes that are all OR nodes.
  • an inverted link (a link whose output is inverted from the input), a non-inverted link, a test inverted link, and a test non-inverted link.
  • the information processing system 10 includes a sensor signal acquisition unit 41, a state evaluation signal acquisition unit 42, an enhancement signal generation unit 43, a motor output signal transmission unit 44, and a network processing unit. 50, robot information storage means 60, network information storage means 61, node information storage means 62, and link information storage means 63.
  • the sensor signal acquisition unit 41 performs a process of acquiring the sensor signals output from the eight infrared sensors 35 and writing them in the robot information storage unit 60.
  • the state evaluation signal acquisition means 42 performs a process of acquiring a state evaluation signal for evaluating the state (behavior result) of the robot 30 that is the control target.
  • the motor output signal (rotation speed) read from the robot information storage means 60 and transmitted to the motors 32 and 34 of the robot 30 is used. Therefore, the infrared sensor 35 functions as a state detection unit that detects the state of the robot 30 that is a control target.
  • the motor output signal is read and acquired from the robot information storage means 60, but the motor output signal stored in the robot information storage means 60 is transmitted to the robot 30 as it is. It is assumed that the motor output signal is acquired from the robot 30. You can also. Then, the actual motor output signal (actual rotational speed) detected by the state detection means, not the motor output signal as the control signal transmitted to the motors 32 and 34, can be used as the state evaluation signal. Good.
  • the robot 30 is a virtual robot displayed on a display screen that is not an actual robot, the motor output signal as the control signal and the actual motor output signal (actual rotation speed) are the same. is there.
  • the state evaluation signal acquisition unit 42 also acquires the state index value A6 (see FIG. 2) one step before stored in the robot information storage unit 60 as a state evaluation signal.
  • the reinforcement signal generation means 43 is based on the state evaluation signal acquired by the state evaluation signal acquisition means 42, and the state of the robot 30 that is the control target formed based on the output result of the network 20 (action result). In response to the evaluation result, processing is performed to generate a reinforcement signal that is given to the network 20 as a reward or punishment.
  • the reinforcement signal generating means 43 grasps the relative distance D between the robot 30 and the wall 36 based on the sensor signal from the infrared sensor 35, and reports when the robot 30 moves away from the wall 36. A reward (positive reinforcement signal) is given, and a punishment (minus reinforcement signal) is given when moving toward wall 36. Also, based on the motor output signal, it is ascertained whether or not the robot 30 is moving straight, giving reward (positive reinforcement signal) when traveling straight, and punishment (negative reinforcement signal) when not traveling straight. )give.
  • the enhancement signal generating means 43 determines that the robot 30 is in a state where at least one of the sensor signals from the infrared sensor 35 has a value larger than a threshold value (for example, zero). Since we are in the vicinity of wall 36, we sum the values of the 8 sensor signals, multiply the sum by 1 and then multiply by a constant if necessary. Is written in the current state index value A5 of the robot information storage means 60. Further, when the total value force threshold (for example, zero) of the sensor signal from the infrared sensor 35 is larger, this total value may be multiplied by 1 and further multiplied by a constant as necessary. Therefore, the closer to the wall 36, the larger the absolute value of minus.
  • a threshold value for example, zero
  • the state index value indicating the state of the robot 30 one step before (the value calculated in the same manner and stored in the robot information storage means 60, the state evaluation signal It is acquired by the acquisition means 42.)
  • the difference between the sensor signals is taken, and the obtained value is used as an enhancement signal to be given to the network 20.
  • the reinforcement signal becomes positive (reward), and if it approaches the wall 36, it becomes negative (punishment).
  • the current state index value is stored in the robot information storage means 60 as the state index value of the previous step for the processing of the next step.
  • the robot 30 is not in the vicinity of the wall 36. It is determined whether the motors 32 and 34 have the same rotation speed. If the rotation speeds are the same, it is determined that the motors are moving straight, and a reinforcement signal (reward) of “+1” is given, and the rotation speeds are the same. If it is not, it is judged that the vehicle is not moving straight, and a reinforcement signal of “-0.01” is given (small punishment).
  • a threshold value for example, zero
  • the motor output signal transmitting unit 44 performs processing for transmitting the motor output signal written in the robot information storage unit 60 to the motors 32 and 34 of the robot 30 based on the output result of the network 20.
  • the network processing means 50 performs processing using the network 20, and includes a learning means 51, an input conversion means 52, an output generation means 53, and an output conversion means 54. Yes.
  • the learning unit 51 equally applies the enhancement signal generated by the enhancement signal generation unit 43 to all the output nodes 23, and sequentially strengthens from the output layer to the intermediate layer, and further from the intermediate layer to the input layer.
  • the signal is propagated back to each link 24, each intermediate node 22, and each input node 21 according to the chain connection relationship between the constituent elements (between nodes and links and between nodes).
  • the process to propagate is performed.
  • the learning means 51 determines the propagation destination configuration element according to the input / output state of the propagation source and the Z or propagation destination configuration element based on the reinforcement signal given to the propagation configuration element (node or link). Generates a reinforcement signal that is given as a reward or punishment for the rement.
  • the learning means 51 uses the accumulated value of the reinforcement signal assigned to the configuration element (node or link) to generate or delete the configuration element for each configuration element to change the structure of the network 20 and change it.
  • the structure of the subsequent network 20 is registered in the network information storage means 61, the node information storage means 62, and the link information storage means 63 (see FIG. 2) that function as network structure storage means. Details of the learning process will be described later.
  • the input conversion means 52 performs a process of converting the sensor signal stored in the robot information storage means 60 into a binary number and setting it as the output of each input node 21.
  • the output generation means 53 has the structure of the network 20 stored in the network information storage means 61, the node information storage means 62, and the link information storage means 63 (see FIG. 2) that function as network structure storage means.
  • the processing for generating the output of the network 20 is performed using the network 20 whose structure is changed by the learning means 51 with reference to the network 20.
  • the output generation means 53 realizes the function (output generation function) of each logic circuit constituting each intermediate node 22 and each output node 23 by executing a program.
  • the output conversion means 54 performs processing for converting the output (binary number) of each output node 23 into a real number and writing it in the robot information storage means 60 as a motor output signal (rotation number).
  • the robot information storage means 60 includes an input array A1 (real number X 8, ie, sensor signals of each infrared sensor 35, which are sensor signals from the eight infrared sensors 35 acquired by the sensor signal acquisition means 41.
  • the corresponding Al (1) to A1 (8) force)) and the output array A2 (real number X2, that is, A2 (l) corresponding to each motor output signal) are the left and right motor output signals (rotations).
  • one step when referring to one step means one round of processing in units of the loop processing of steps S5 to S9 in FIG. 3, and each step S5 to S9 constituting the loop. It does not mean that processing.
  • the enhancement signal A4 given to the network 20 is the same as the enhancement signal B4 stored in the network information storage means 61 described later, and therefore the enhancement signal generation means 43 generates Is directly written in the enhancement signal B4 of the network information storage means 61, which is not the same as the reinforcement signal A4 of the robot information storage means 60, the memory for the enhancement signal A4 may be omitted.
  • the state index value that indicates the current state of the robot 30 is once written in the current state index value A5 of the robot information storage unit 60, and then the current state index value written in the robot information storage unit 60 A5 and robot
  • the state index value A6 of the previous step in the robot information storage means 60 Stored in the robot information storage means 60, it is possible to perform the process of calculating the enhancement signal without writing to the current state index value A5.
  • the memory reservation may be omitted.
  • the network information storage means 61 is an input node address B1 (which is a variable length array and corresponds to each input node 21) which is an address of a part for storing information of each input node 21 in the node information storage means 62.
  • intermediate node address B2 (which is the address of the part storing the information of each intermediate node 22 in the node information storage means 62 ( A variable-length array consisting of ⁇ 2 (1), ⁇ 2 (2) ⁇ ⁇ 2 ( ⁇ )... corresponding to each intermediate node 22), and information on each output node 23 in the node information storage means 62
  • the output node address ⁇ 3 (which is a variable-length array, corresponding to each output node 23, ⁇ 3 (1), ⁇ 3 (2) ⁇ ⁇ 3 (consists of 7)
  • the enhanced signal ⁇ ⁇ ⁇ 4 real number generated by the signal generation means 43 and given to the network 20 is written. It is something to remember.
  • the node information storage means 62 individually stores information on each of the six types of nodes, and the input of the node in the link information storage means 63 for each node.
  • Input side link address C1 variable length array, which is the address of the part that stores side link information, and consists of CI (1), CI (2) -Cl (k) ... corresponding to each input side link.
  • the total value of C10 (which is a real number, but the total value is not the cumulative value of each step, but means the total value of the enhancement signal propagated from each constituent element of the propagation source). is there.
  • This node information storage means 62 dynamically adds / deletes memory corresponding to these nodes in accordance with the addition / deletion of nodes.
  • the input side link address C1 is the first and second input side test link addresses CI (CI (1) and C1 (2 ) Only)
  • the output side link address C2 becomes the output side test link address C2 (C2 (1) only)
  • the test link address C4 disappears.
  • the test link means a link that does not contribute to the output and does not have an associated test node.
  • a real link means a practical link that contributes to output, and is a link that owns an associated test node.
  • the link information storage means 63 individually stores information on a plurality of links for each of the four types of links. For each link, the input of the link in the node information storage means 62 is stored.
  • the input side node address D1 which is the address of the part storing the information of the side node
  • the output side node address D2 which is the address of the part storing the information of the output side node of the link in the node information storage means 62
  • the network address D3 which is the address of the network information storage means 61
  • the test node address D4 which is the address of the part of the node information storage means 62 which stores the information of the test node associated with the link
  • Inverted non-inverted flag D5 (l bit to identify whether the link is an inverted link or a non-inverted link.
  • the network information storage means 61 stores B1 to B3, the node information storage means 62 stores C1 to C8, and the link information storage means 63 stores D1 to D6.
  • a network structure storage means for storing the structure of the network 20 including the coupling relationship between the constituent elements is configured.
  • the input / output state of the constituent elements formed by the output generation processing of the network 20 is determined by the portion storing C9 of the node information storage means 62 and the portion storing D7 of the link information storage means 63.
  • An input / output state storage means for storing is configured.
  • the learning unit includes the part that stores B4 of the network information storage unit 61, the part that stores C10 of the node information storage unit 62, and the part that stores D8 and D9 of the link information storage unit 63.
  • Strengthening signal storage means for storing the strengthening signal for the constituent element or its accumulated value generated by 51 for each constituent element is configured.
  • the sensor signal acquisition means 41, the state evaluation signal acquisition means 42, the enhancement signal generation means 43, the motor output signal transmission means 44, and the network processing means 50 are the computer main body constituting the information processing system 10.
  • a central processing unit (CPU) provided inside the PC (including not only personal computers but also higher-level models), and one or more programs that define the operating procedure of this CPU (for example, It is realized by a program written in C ++ language).
  • the robot information storage unit 60, the network information storage unit 61, the node information storage unit 62, and the link information storage unit 63 are realized by, for example, a main memory, a cache memory, or a local memory.
  • a main memory for example, it may be realized by using an external storage device such as a hard disk, MO, DVD-RAM, FD, magnetic tape, etc., as long as there is no problem with force S, access speed, storage capacity, etc.
  • autonomous control of the operation of the robot 30 is performed by the information processing system 10 as follows.
  • a program for realizing the information processing system 10 is launched, and the operation control of the robot 30 is started (step Sl).
  • the initialization process performed here includes an initialization process for information stored in the robot information storage means 60 (robot initialization process G1 in FIG. 11 described later) and an initial process for information stored in the network information storage means 61.
  • Initialization processing network initialization processing G2 in FIG. 11 to be described later
  • initialization processing for generating the required number (128 in this embodiment) of input nodes 21
  • output node initialization process G4 in FIG. 11 to be described later for generating the required number (32 in this embodiment) of output nodes 23, and each output node 23 as an input side link.
  • the sensor signal acquisition means 41 acquires sensor signals detected by the eight infrared sensors 35, and the acquired eight sensor signals are input to the input array Al (1) to Al (1) ⁇ Write to A1 (8) (see Figure 2) (step S3).
  • the robot information is obtained as a state evaluation signal by the state evaluation signal acquisition unit 42.
  • Sensor signals from the eight infrared sensors 35 stored in the input array Al (1) to A1 (8) of the storage means 60 and the output arrays A2 (l) and A2 (2) of the robot information storage means 60 The motor output signal (number of rotations) stored and the state index value A6 one step before stored in the robot information storage means 60 are acquired (step S4).
  • the reinforcement signal generation means 43 evaluates the state (behavior result) of the robot 30 to be controlled based on the state evaluation signal acquired by the state evaluation signal acquisition means 42, and the evaluation result In response, a reinforcement signal to be given as a reward or punishment to network 20 is generated (step S4).
  • the output arrays A2 (l) and A2 (2) include a motor output signal (number of rotations) based on the output result of the network 20 whose structure is changed by learning. ) Is not included, and the state index value A6 of the previous step is not included in the state index value as a result of the state evaluation performed in the previous step. Becomes zero.
  • the enhancement signal generation means 43 writes the enhancement signal thus generated in the enhancement signal A4 of the robot information storage means 60. Further, the reinforcement signal generation means 43 stores the current state index value obtained by evaluating the state (behavior result) of the robot 30 at the current step for use in the state evaluation process at the next step. Write to state index value A6 one step before means 60 and save. As described above, since the initial reinforcement signal is zero, the structure of the network 20 is not changed as if the initial learning process by the learning means 51 described later is not substantially performed. .
  • the network processing means 50 performs processing of the network 20, that is, learning processing and output generation processing (step S5).
  • the learning means 51 reads the reinforcement signal A4 from the robot information storage means 60 and writes it into the enhancement signal B4 from the network information storage means 61, whereby the reinforcement signal is transmitted as the network 20. Receive (step S501).
  • the learning means 51 refers to the output node address B3 of the network information storage means 61, and stores the information of each output node 23 corresponding to these output node addresses B3 in the node information storage means 62.
  • the same value as that of the enhancement signal B4 of the network information storage means 61 is stored in the total value C10 of the enhancement signal in the portion to be processed. As a result, all The enhancement signal is uniformly transmitted to the output node 23 (step S502).
  • the learning means 51 performs learning processing for each output node 23 corresponding to the output node address B3 of the network information storage means 61 (step S503). Details of the learning process of the output node 23 will be described later.
  • the learning means 51 performs learning processing for each intermediate node 22 corresponding to the intermediate node address B2 of the network information storage means 61 (step S504). Details of the learning process of the intermediate node 22 will be described later with reference to FIG. Fig. 5 shows the learning process flow for an intermediate OR node (real node).
  • the learning means 51 refers to the input side link address C1 of the node information storage means 62 for each output node 23 corresponding to the output node address B3 of the network information storage means 61.
  • a learning process is performed on each input side link of each output node 23 corresponding to the link address C1 (step S505). Details of the learning process for the input side link of the output node 23 will be described later.
  • the learning means 51 refers to the input side link address C1 of the node information storage means 62 for each intermediate node 22 corresponding to the intermediate node address B2 of the network information storage means 61, and these input side link addresses.
  • a learning process is performed for each input side link of each intermediate node 23 corresponding to C1 (step S506). Details of the learning process of the input side link of the intermediate node 22 will be described later with reference to FIG. Figure 6 shows the flow of non-inverted link learning processing.
  • learning processing (see steps S501 to S506) is performed as described above, and processing for generating a new output of the network 20 is performed using the network 20 after the structure is changed.
  • the change in the structure of the network 20 due to the learning process is caused by the reinforcement signal generated according to the evaluation result of the state of the robot 30 formed based on the output result of the network 20 before changing the structure.
  • the input / output states of the constituent elements used for various judgments in the learning process are the input / output states obtained by the network output generation process that forms the state of the robot 30 that is the basis for generating the reinforcement signal. It must be in a state.
  • the input / output states of the constituent elements used for various determinations in the learning process are stored in the memory (input / output status in FIG. 2).
  • Input / output state remaining in the state storage means that is, the network before the structure is changed
  • the input / output state obtained by the 20 output generation processes satisfies the above requirements.
  • the input conversion means 52 refers to the input node address B1 of the network information storage means 61 and grasps the part storing the information of each input node 21 in the node information storage means 62
  • the eight sensor signals stored in the input arrays Al (1) to A1 (8) of the robot information storage means 60 are converted into binary numbers, and the values obtained by the conversion are stored in the node information storage means 62.
  • Set as output C9 of each input node 21 (step S507)
  • the output generation means 53 refers to the intermediate node address B2 of the network information storage means 61 to grasp the part for storing the information of each intermediate node 22 in the node information storage means 62.
  • the output C9 of each intermediate node 22 is calculated (step S508).
  • the newly generated intermediate node 22 is added after the array of the intermediate node address B2 of the network information storage means 61, and this new intermediate node 22 is input to the network 20 in the input / output chain. Therefore, in order to realize output generation processing from the input layer to the output layer, the output generation processing of the intermediate node 22 is performed in the array of the intermediate node address B2 of the network information storage means 61. Perform in reverse order.
  • the output generating means 53 refers to the output node address B3 of the network information storage means 61 and grasps the part storing the information of each output node 23 in the node information storage means 62, and each output node According to the function of the logic circuit constituting 23, the output C9 of each output node 23 is calculated (step S509).
  • the calculation processing of the node performed in the above steps S508 and S509 is the same as the processing of the normal logic circuit, and the input side link corresponding to all the input side link addresses C1 of the node in the node information storage means 62
  • the link output D7 of the link information storage means 63 is read, and the output D7 of these input side links is used as the input of the relevant node to be calculated.
  • the AND'OR node flag C5 of the relevant node in the node information storage means 62 it is ascertained whether the relevant node is an AND node or an OR node, and if it is an AND node, the same processing as the AND circuit is performed. If this is the case, perform the same process as the OR circuit to Calculate the C9 output C9.
  • the output C9 of the node Is overwritten with False (or 0), and if at least one of the output D7 of all input side links corresponding to the input side link address C1 is True (or 1), the output C9 of that node is set to True. Overwrite with (or 1).
  • the node being calculated is an intermediate AND node or a test intermediate AND node, the output C9 of the node is overwritten with True (or 1), and then the input side link address C1 is set. If at least one of the outputs D7 of all corresponding input links is False (or 0), the output C9 of the node is overwritten with False (or 0).
  • the link calculation processing performed in conjunction with the node calculation processing in steps S508 and S509 is the same as the normal logic circuit processing, and the link to be calculated is an inverted link or test inversion.
  • the value obtained by inverting the value of the output C9 of the node of the node information storage means 62 for the input side node corresponding to the input side node address D1 of the link of the link information storage means 63 is When the link output D7 is overwritten and the link to be calculated is a non-inverted link or a test non-inverted link, the input corresponding to the input side node address D1 of the link in the link information storage means 63 The value of the node output C9 of the node information storage means 62 for the side node is directly overwritten to the output D7 of the link.
  • the output conversion means 54 refers to the output node address B3 of the network information storage means 61 to grasp the part for storing the information of each output node 23 in the node information storage means 62, and outputs each output.
  • the output C9 (binary number) of the node 23 is converted into a real number, and is written in the output array A2 of the robot information storage means 60 as a motor output signal (rotation number) (step S510).
  • the motor output signal transmitting means 44 writes the data in the output array A2 of the robot information storage means 60 based on the output result of the network 20 (output C9 of each output node 23).
  • the motor output signal (rotation speed) is transmitted to the motors 32 and 34 of the robot 30, thereby driving the motors 32 and 34 to operate the robot 30 (step S6).
  • the sensor signal acquisition means 41 acquires sensor signals detected by the eight infrared sensors 35, and the acquired eight sensor signals are input to the input array Al (1) of the robot information storage means 60. Write to ⁇ A1 (8) (step S7).
  • the state evaluation signal acquisition means 42 uses the eight infrared sensors 35 stored in the input arrays Al (1) to A1 (8) of the robot information storage means 60 as state evaluation signals. Signal, the motor output signal (number of revolutions) stored in the output array A2 (l), A2 (2) of the robot information storage means 60, and the one step before the step stored in the robot information storage means 60.
  • the state index value A6 is acquired (step S8).
  • the output arrays A2 (1) and A2 (2) are structured in the learning process of step S5.
  • the motor output signal (rotation speed) based on the output result of the changed network 20 is included, and the state index value as a result of the state evaluation at the previous step is also included in the state index value A 6 one step before. Therefore, the enhancement signal generated by the enhancement signal generation means 43 according to the evaluation result based on the state evaluation signal is a meaningful enhancement signal according to the appropriate state evaluation result.
  • the reinforcement signal generation means 43 is formed on the basis of the state evaluation signal acquired by the state evaluation signal acquisition means 42 based on the output result of the network 20 in which the structure is changed in the learning process of step S5.
  • the state (behavior result) of the robot 30 that is the controlled object is evaluated, and a strengthening signal to be given as reward or punishment to the network 20 is generated according to the evaluation result (step S8).
  • a reinforcement signal (reward) of “+1” is generated, and if the total value of sensor signals is greater than a threshold value (for example, 0), the total value Generates an enhancement signal (reward or punishment) that is a value obtained by multiplying the increase / decrease (difference from the total value of the previous step) by 1 and a constant. Otherwise, for example, an enhancement signal of “-0.01” ( Produce a small punishment). Then, the enhancement signal generation means 43 writes the enhancement signal generated in this way into the enhancement signal A4 of the robot information storage means 60.
  • the reinforcement signal generation means 43 stores the current state index value obtained by evaluating the state (behavior result) of the robot 30 at the current step for the state evaluation processing at the next step, and stores the robot state information. Write to state index value A6 one step before means 60 and save.
  • step S9 it is determined whether or not an instruction to end the operation control of the robot 30 has been issued. If the end instruction is not issued, the process returns to the network 20 process of step S5, and thereafter, the process of steps S5 to S9 is repeated until the end instruction is issued, while the end instruction is issued. In this case, the operation control of the robot 30 is ended (step S10).
  • intermediate node 22 intermediate OR node, intermediate AND node, test intermediate OR node, test intermediate AND node
  • output node 23 by the learning means 51 will be described.
  • FIG. 7 shows an example of an intermediate OR node (real node) 100 to be learned.
  • three input links 101, 102, 103 and an output link 104 are coupled to the intermediate OR node 100, and a test link 105 is provided on the input side of the intermediate OR node 100.
  • Each input ⁇ J-link 101, 102, 103 is coupled to input ⁇ J-node 106, 107, 108, respectively
  • output-side link 104 is coupled to output-side node 109
  • test link 105 is connected to any node 110.
  • the strengthening signal to be given to each input side link 101, 102, 103 is Rl (l), Rl (2), Rl (3) and given to these input side nodes 106, 107, 108.
  • the learning means 51 based on the reinforcement signal R given to the intermediate OR node 100, sets the input side links 101, 102 according to the input / output state of the intermediate OR node 100. , 103 intermediate OR node 100 for each input link 101, 102, 103 so that the enhanced signal is distributed (propagated) to each input link 101, 102, 103 according to the contribution to output Y of node 100
  • the reinforcement signals Rl (1), R1 (2), R1 (3) to be given are calculated (step S50401). Also In conjunction with this, the reinforcement signals R2 (l), R2 (2), R2 (3) to be given to the human power J nodes 106, 107, 108 of each human power J links 101, 102, 103 are calculated. (Step S50402).
  • the input ⁇ (1), ⁇ (2), ⁇ (3) to the intermediate OR node 100 refers to the input side link address C1 of the intermediate OR node 100 in the node information storage means 62. Then, the output D7 of each input side link 101, 102, 103 of the link information storage means 63 is read and obtained. Further, the output Y of the intermediate OR node 100 is obtained by reading the output C 9 of the intermediate OR node 100 in the node information storage means 62. Further, the reinforcement signal R given to the intermediate OR node 100 is obtained by reading the total value C10 of the enhancement signals of the intermediate OR node 100 in the node information storage means 62.
  • FIG. 8 shows an example of distribution of the enhancement signal calculated according to the rules of cases 1 to 5 above when the intermediate OR node of the propagation source is the intermediate OR node 100 of FIG. .
  • the learning means 51 calculates the reinforcement signal RT to be given to the test link 105. At this time, the learning means 51 calculates the reinforcement signal assuming that the test link 105 exists as an input side link of the intermediate OR node 100 (step S50403).
  • the input TX (x) of the test link 105 that is, the output of the test link 105 (the test link of the link information storage means 63) It is obtained by reading the output D7 of 105.) is added, and the enhancement signal RT is calculated according to the cases 1 to 5 described above.
  • the enhancement signal RT is calculated.
  • the enhancement signal calculated as described above that is, the enhancement signal Rl (1), R1 (2), R1 (3) to be given to each of the input side links 101, 102, 1103, and the test
  • the strengthening signal RT to be given to the link 105 is added to the cumulative value D8 of the strengthening signal of the link in the link information storage means 63 to update the cumulative value, overwriting the strengthening signal D9 of the link, and ,
  • Reinforced signal R2 (l), R2 (2), R2 (3) is sent to the node information storage means 62 Is added to the total value C10 of the strengthening signal of the relevant node (meaning that the strengthening signal is propagated to the relevant node also from other constituent elements, meaning that they are added) (step S50404).
  • the learning unit 51 sets the cumulative value D8 of the reinforcement signal of the link in the link information storage unit 63 for each of the input side links 101, 102, and 103 as a threshold value (in this embodiment, as an example, 0). It is determined whether or not the force is below, and if it is below, the input side link is deleted (step S50405). In this case, the reverse link deletion process E5 or the non-inverted link deletion process E6 shown in FIG.
  • test link 105 the learning means 51 has a cumulative value D8 of the reinforcement signal of the link in the link information storage means 63 that falls below a threshold value (in this embodiment, 0 as an example).
  • Test link 105 is deleted (step S50406) o In this case, test reverse link deletion process E7 or test non-reverse link in Fig. 12 described later is deleted. Delete process E8. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate OR node 100 of the node information storage means 62.
  • the learning means 51 determines whether or not the cumulative value D8 of the reinforcement signal of the link in the link information storage means 63 exceeds the threshold for the test link 105. Uses the test link address C4 of the intermediate OR node 100 of the node information storage unit 62, the address B2 of the intermediate OR node 100, and the network address C3 in order to promote the test link 105 to a real link for practical use. Thus, a real link is newly generated and additionally registered to the input side link address C1 of the intermediate OR node 100.
  • the inversion / non-inversion flag D5 of the link information storage means 63 for the test link 105 is True (meaning an inversion link)
  • an inversion link is newly generated and False (a non-inversion link is set).
  • Means Create a new reverse link.
  • the test link 105 is deleted.
  • the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed.
  • a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate OR node 100 of the node information storage means 62 (step S 50407).
  • the learning means 51 deletes the intermediate OR node 100 when the power of the input side link registered in the input side link address C1 of the intermediate OR node 100 becomes 1 or less (step S50408). ).
  • the learning means 51 clears the total value C 10 of the reinforcement signals of the intermediate OR node 100 in the node information storage means 62 to 0 (step S 50409).
  • the intermediate AND node learning process is substantially the same as the intermediate OR node learning process described above.
  • the learning means 51 determines each of the input links according to the contribution to the output Y of the intermediate AND node according to the input / output state of the intermediate AND node.
  • the reinforcement signal Rl (k) to be given to each input link is calculated so that the reinforcement signal is distributed (propagated) to the input link.
  • the reinforcement signal R2 (k) given to the input side node of each input side link is calculated.
  • the learning means 51 is coupled to the intermediate AND node according to the same rule as the above-described intermediate OR node learning process by inverting all inputs and outputs according to the de Morgan's law as described above.
  • Reinforcement signal Rl (k) (k 1 to N) to be given to one input-side link of interest among the N input-side links being used, and the input side of one input-side link of interest
  • Ie K-th (k l to N) input side link force Judgment as to which of the above cases 1 to 5 applies, and the reinforcement signal Rl (k) is calculated for each one input side link.
  • the reinforcement signal R2 (k) is calculated for the input side node of one input side link.
  • Fig. 9 shows the intermediate AND node power of the propagation source.
  • the reinforcement signal calculated according to the rules of cases 1 to 5 described above is used. Examples of distribution are shown.
  • Fig. 9 shows the inputs / outputs X (l), X (2), X (3), Y in Fig. 8 inverted and other enhanced signals R, Rl (1), R1 (2), R1 (3), R2 (l), R2 (2) and R2 (3) are left as they are.
  • the learning means 51 calculates the reinforcement signal RT to be given to the test link. At this time, the learning means 51 calculates the reinforcement signal assuming that the test link force exists as an input link of the intermediate AND node.
  • the input TX ie, the test link output of the link information storage means 63
  • the input X k
  • the output Y changes due to the addition of the test link as the input side link
  • the input TX by the test link that is, the output D7 of the test link is inverted and added to the input X (k).
  • the value of the intermediate AND node output C9 (actual output) is substituted, and the sign of the intermediate AND node enhancement signal sum C10 (actual enhancement signal sum) is changed to R—substituting C10
  • the reinforcement signal RT is calculated by applying the rules of cases 1 to 5 described above.
  • the learning unit 51 sets the cumulative value D8 of the enhancement signal of the link in the link information storage unit 63 as a threshold value (in this embodiment, it is set to 0 as an example). Judgment is made whether or not the force is below. If it is below, the input side link is deleted. In this case, the reverse link deletion process E5 or the non-inverted link deletion process E6 shown in FIG.
  • the learning unit 51 determines whether or not the cumulative value D8 of the enhancement signal of the link in the link information storage unit 63 is lower than a threshold value (in this embodiment, 0 as an example). If it is below, delete the test link. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate AND node of the node information storage means 62.
  • a threshold value in this embodiment, 0 as an example
  • the learning means 51 determines whether or not the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 exceeds the threshold for the test link.
  • the actual link is newly created by using the test link address C4 of the intermediate AND node of the node information storage means 62, the address B2 of the intermediate AND node, and the network address C3. Generated and additionally registered to the input AND link address C1 of the intermediate AND node.
  • the inversion 'non-inversion flag D5 of the link information storage means 63 for the test link is True (meaning an inversion link)
  • False meaning a non-inversion link).
  • test link deletion process E7 or the test non-inversion link deletion process E8 in FIG. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate AND node of the node information storage means 62.
  • the learning means 51 deletes the intermediate AND node when the power of the input side link registered in the input side link address C1 of the intermediate AND node is 1 or less.
  • the learning means 51 clears the total value C10 of the reinforcement signal of the intermediate AND node in the node information storage means 62 to zero. [0149] ⁇ Test intermediate OR node learning process>
  • the test intermediate OR node learning process is a simplified version of the previously described intermediate OR node learning process (see Fig. 7).
  • the learning means 51 based on the reinforcement signal R given to the test intermediate OR node, according to the input / output state of the test intermediate OR node, the first and second input side test links (FIG. (As in 10) The first and second input sides so that the enhancement signal is distributed (propagated) to the first and second input test links according to the contribution to the output Y of the test intermediate OR node.
  • the reinforcement signals Rl (1) and R1 (2) given to the test link are calculated.
  • unlike the learning process of the intermediate OR node see Fig.
  • the learning means 51 is exactly the same rule as the above-described intermediate OR node learning process, and corresponds to any of the first and second input-side test link forces described above. Each force is judged and the reinforcement signals Rl (1) and R1 (2) are calculated. Since there is no test link to be registered at the test link address C4 of the node information storage means 62 in the test intermediate OR node, the calculation of the reinforcement signal RT to be given to the test link corresponding to the test link address C4 is as follows. Do not do.
  • the reinforcement signals Rl (l) and Rl (2) to be given to the first and second input side test links calculated as described above are used to strengthen the link of the link information storage means 63.
  • the cumulative value is updated by adding to the cumulative value D8 of the signal, and overwritten on the enhancement signal D9 of the link. Note that the reinforcement signals R2 (l) and R2 (2) to be given to the input side nodes of the first and second input side test links are not calculated. Processing to add to the total value C10 of the enhancement signal is not performed.
  • the learning means 51 sets the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 for each of the first and second input-side test links as a threshold value (in this embodiment, as an example) It is determined whether or not the force is lower than 0. If it is lower, the input test link is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Note that the first input side test line In this case, it is the second input side test link that is deleted in the end, since a sufficiently large positive signal is stored so that it is not deleted.
  • the second input-side test link is deleted along with the deletion of the input-side node (real node) of the second input-side test link.
  • the number of links reaches 1 (ie, when only the first input test link is reached), including the case where the is deleted, a new second input test that joins to any node A link is randomly generated and registered in the test link OR node CI (C1 (2)) of the test intermediate OR node of the node information storage means 62.
  • the learning means 51 is the first input corresponding to the first input-side test link address C1 (which is the first array C1 (1)) of the test intermediate OR node of the node information storage means 62.
  • the test intermediate AND node learning process is a simplification of the intermediate AND node learning process described above.
  • the learning means 51 determines the first and second input side test links (FIG. 10 described later) according to the input / output state of the test intermediate AND node based on the reinforcement signal R given to the test intermediate AND node.
  • Test intermediate AND node to the first and second input test links so that the enhanced signal is distributed (propagated) to the first and second input test links according to the contribution to the output Y of the test intermediate AND node
  • the reinforcement signals Rl (l) and Rl (2) to be given are calculated.
  • the learning means 51 is exactly the same rule as in the above-described intermediate AND node learning process, and the first and second input-side test link forces correspond to any of the cases 1 to 5 described above. Judgment is made for each of the corresponding keys, and the reinforcement signals Rl (l) and R1 (2) are calculated.
  • the test link address C4 of the node information storage means 62 should be registered. Since there is no link, the enhancement signal RT to be assigned to the test link corresponding to this test link address C4 is not calculated.
  • the reinforcement signals Rl (l) and Rl (2) given to the first and second input-side test links calculated as described above are used to strengthen the link of the link information storage means 63.
  • the cumulative value is updated by adding to the cumulative value D8 of the signal, and overwritten on the enhancement signal D9 of the link. Note that the reinforcement signals R2 (l) and R2 (2) to be given to the input side nodes of the first and second input side test links are not calculated. Processing to add to the total value C10 of the enhancement signal is not performed.
  • the learning means 51 sets the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 for each of the first and second input side test links as a threshold value (in this embodiment, as an example) It is determined whether or not the force is lower than 0. If it is lower, the input test link is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Note that the first input side test link is stored with a sufficiently large positive signal so that it is not deleted. It becomes a test link.
  • the second input-side test link is deleted along with the deletion of the input-side node (real node) of the second input-side test link.
  • the number of links reaches 1 (ie, when only the first input test link is reached), including the case where the is deleted, a new second input test that joins to any node A link is randomly generated and registered in the test-side AND node input-side test link address CI (C1 (2)) of the node information storage means 62.
  • the learning means 51 is the first input corresponding to the first input-side test link address C1 of the test intermediate AND node of the node information storage means 62 (which is the first array C1 (1)).
  • the learning process for the output node is substantially the same as the learning process for the intermediate OR node described above.
  • the learning means 51 determines each input side link according to the contribution to the output Y of the output node of each input side link according to the input / output state of the output node based on the reinforcement signal R given to the output node.
  • the learning means 51 has exactly the same rule as the learning process of the intermediate OR node described above, and one of the N input side links coupled to the output node is focused on.
  • the learning means 51 calculates the reinforcement signal RT to be given to the test link coupled to the input side of the output node (the test link corresponding to the test link address C4 of the output node). At this time, the learning means 51 calculates the reinforcement signal assuming that the test link exists as the input side link of the output node.
  • the input TX (X) of the test link that is, the output of the test link (the output D of the test link of the link information storage means 63) 7 is added, and the enhancement signal RT is calculated according to the cases 1-5 described above.
  • the cumulative value D8 of the link enhancement signal of the link information storage means 63 to update the cumulative value.
  • the learning means 51 sets a threshold value (in this embodiment, 0 as an example) for the cumulative value D8 of the reinforcement signal of the link information storage means 63 for each input side link. Judgment is made whether or not the force is below. If it is below, the input side link is deleted. In this case, the reverse link deletion process E5 or the non-inverted link deletion process E6 shown in FIG.
  • the learning unit 51 determines whether or not the cumulative value D8 of the strengthening signal of the link in the link information storage unit 63 is below a threshold value (in this embodiment, it is 0 as an example). If it is below, delete the test link. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the output node of the node information storage means 62.
  • a threshold value in this embodiment, it is 0 as an example
  • the learning means 51 determines whether or not the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 exceeds the threshold value. To create a real link using the test link address C4 of the output node of the node information storage means 62, the address B3 of this output node, and the network address C3. And additionally register with the input side link address C1 of the output node.
  • the inversion / non-inversion flag D5 of the link information storage means 63 for the test link is True (meaning an inversion link)
  • False meaning a non-inversion link
  • a new non-inverted link is generated.
  • the test link is deleted.
  • test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the output node of the node information storage means 62.
  • the learning means 51 receives the input registered at the input side link address C1 of the output node.
  • the network information storage means 61 is referred to by the network address C3, and the node address randomly selected from the input node address Bl, the intermediate node address B2, and the output node address B3
  • the network address C3 is referred to by the network address C3, and the node address randomly selected from the input node address Bl, the intermediate node address B2, and the output node address B3
  • an inverted link or a non-inverted link is randomly selected to generate a new actual link, and the generated actual link address is used as the output node.
  • an inversion link initialization process G9 or a non-inversion link initialization process G10 in FIG. 11 described later is performed.
  • the learning means 51 clears the total value C10 of the reinforcement signal of the output node of the node information storage means 62 to zero.
  • FIG. 10 shows an example of a non-inverted link (real link) 120 to be learned.
  • An input side node 121 is coupled to the input side of the non-inverted link 120, and an output side node 122 is coupled to the output side.
  • a test node 123 in the illustrated example, a force test intermediate OR node that is a test intermediate AND node
  • First and second input side test links 124, 125 are coupled to the input side of the test node 123, and an output side test link 126 is coupled to the output side.
  • the output side test link 126 does not perform substantial information transmission in this embodiment, it is indicated by a two-dot chain line.
  • the first input test link 124 is coupled to the input node 121 of the non-inverted link 120, and the second input test link 125 is randomly coupled to any node 127 for output test.
  • Link 126 is coupled to output node 122 of non-inverted link 120.
  • the output of the non-inverted link 120 is set to Y
  • the output of the test node 123 is set to TY
  • the enhancement signal given to the non-inverted link 120 is set to R 1
  • the input side node of the non-inverted link 120 is set. 1
  • the enhancement signal given to 21 is R2
  • the enhancement signal given to test node 123 is RT.
  • the learning means 51 based on the reinforcement signal R1 given to the non-inverted link 120 of the propagation source, the output Y of the non-inverted link 120 of the propagation source and the test node 123 of the propagation destination.
  • the reinforcement signal RT to be given to the propagation destination test node 123 is calculated (step S50601).
  • the enhancement signal R1 given to the non-inverted link 120 of the propagation source is obtained by reading the enhanced signal D9 of the non-inverted link 120 of the link information storage unit 63.
  • the output Y of the non-inverted link 120 of the propagation source can be obtained by reading the output D7 of the non-inverted link 120 of the link information storage means 63.
  • the output TY of the test node 123 of the transmission destination refers to the test node address D4 of the non-inverted link 120 of the link information storage means 63, and stores the node information about the test node 123 corresponding to the test node address D4. It is obtained by reading the output C9 of the node of means 62.
  • the learning means 51 calculates the reinforcement signal RT to be given to the propagation destination test node 123 according to the following rules.
  • Case 2 When (R1> 0) ⁇ (TY ⁇ Y), test node 123 is deleted and a new test node is generated (the second input-side test link of the test node to be generated is Randomly connect to an arbitrary node.), Register to the test node address D4 of the non-inverted link 120 of the link information storage means 63. At this time, when the AND'OR node flag C5 force True (meaning an AND node) of the output node 122 corresponding to the output node address D2 of the non-inverted link 120 is generated, a test intermediate OR node is generated. If it is False (meaning an OR node), a test intermediate AND node is generated. In this case, R1> 0 and the non-inverted link 120 works well, whereas TY ⁇ Y and the test node 123 outputs differently than the non-inverted link 120. This is because the test node 123 is considered to work badly.
  • the non-inverted link 120 is working badly, whereas TY ⁇ Y, and the test node 123 outputs differently from the non-inverted link 120. Unlike the non-inverted link 120, it rewards as an enhanced signal.
  • the learning means 51 sets the cumulative value D8 of the reinforcement signals of these links in the link information storage means 63 for both the first and second input side test links 124, 125 of the test node 123 as the threshold value.
  • the test node 123 is promoted to a real node and put into practical use.
  • a new real node is generated using the address of the non-inverted link 120 to be learned and the network address D3, and additionally registered to the intermediate node address B2 of the network information storage means 61 with reference to the network address D3. (Step S50604).
  • test reversal link does not learn.
  • FIG. 11 shows an initialization configuration.
  • robot initialization processing G1, network initialization processing G2, input node initialization processing G3, and output node initialization processing G4 are performed only immediately after starting the program and starting the operation control of robot 30.
  • Force Initialization processing of other nodes and links G5 to G12 are performed not only immediately after the operation control of the robot 30 is started, but also every time a node or link is generated by subsequent learning.
  • the initialization method differs depending on the type of node and the type of link, and there are cases where a plurality of initializations are used properly depending on the situation.
  • Figure 11 shows the relationship between these initializations.
  • Fig. 11 it is necessary to initialize the tip of the arrow to initialize the root of the arrow.
  • the solid line in the figure means that it must be used, and the dotted line means that it may be used.
  • the alternate long and short dash line indicates a case where a test node or test link is changed to a real node or real link by promotion.
  • the input array A1 and the output array A2 of the robot information storage means 60 do not need to be initialized.
  • the network address A3 is initialized with the number of input nodes 128 and the number of output nodes 32, and the obtained network address is registered.
  • A4, A5, A6 shall be 0.
  • the information stored in the network information storage means 61 is initialized.
  • the network 20 is initialized by specifying the number of input nodes 21 and the number of output nodes 23.
  • the input node address B1 uses the address of the network 20 to be initialized, performs the initialization process G3 of the input node 21 for the specified number of input nodes, and obtains the address of the input node 21 obtained. Are registered sequentially. Since registration to the intermediate node address B2 is performed every time the intermediate node 22 is generated, it is not necessary to initialize the intermediate node address B2.
  • the address of the network 20 to be initialized is used, the initialization process G4 of the output node 23 is performed for the specified number of output nodes, and the obtained output node 23 address is sequentially sign up.
  • the enhancement signal B4 for network 20 is zero.
  • the input node 21 specifies and initializes the address of the network 20 to which the input node 21 belongs (network address C3 stored in the node information storage means 62). Since input node 21 is a dummy node, there is no need to initialize input side link address C1. Since registration to the output side link address C2 is performed every time an output side link coupled to the output side of the input node 21 is generated, there is no need to initialize the output side link address C2. The network address C3 is overwritten with the specified network 20 address. Since input node 21 is a dummy node, there is no need to initialize test link address C4 and AND 'OR node flag C5.
  • the input node flag C6 is set to True, and the output node flag C7 and the test node flag C8 are not initialized or set to False. Since the output C9 of the node is set by the input conversion means 52 (see step S507 in FIG. 4), there is no need for initialization.
  • the total value C10 of the enhancement signal is 0.
  • the output node 23 specifies and initializes the address of the network 20 to which the output node 23 belongs (network address C3 stored in the node information storage means 62).
  • network address C3 stored in the node information storage means 62.
  • For the input side link address C1 a node address randomly selected from the input node address Bl and the output node address B3 of the network information storage means 61 referenced by the designated network address C3 (in addition, the intermediate node address B2) Since no data is entered at this point, it cannot be selected.), And the address of the output node 23 to be initialized and the specified network address C3 are used.
  • the real link 141 coupled to the randomly selected node 140 is newly generated by randomly selecting the V of the inverted link or the non-inverted link and the shift (the inverted link initialization process G9 in FIG.
  • non-inverted link initialization processing G10 is performed), and the generated address of the real link 141 is stored in the input side link address C1.
  • a test node 142 attached to the actual link 141 is also newly generated (the test intermediate OR node initialization process G7 or the test intermediate AND node initialization process G8 in FIG. 11 is performed) and further coupled to the node 140.
  • a second input test link 146 that is randomly coupled to an arbitrary node 145 is newly generated (the test reverse link initialization process G 11 or the test non-reverse link initialization process G 12 in FIG. 11 is performed).
  • test link address C4 For the test link address C4, a node address randomly selected from the input node address Bl and output node address B3 of the network information storage means 61 referenced by the designated network address C3 (note that the intermediate node address B2 Since no data is entered at this point, it is not a selection target.), And the address of the output node 23 to be initialized and the specified network address C3 are used. As shown in Fig. 11, a new test link 148 coupled to a randomly selected node 147 is generated by randomly selecting either the test reversal link or the test non-reversal link (the test in Fig. 11). Reverse link initialization process G 11 or test non-reverse link initialization process G 12).
  • the AND'OR node flag C5 is set to False (meaning an OR node) because the output node 23 is an OR node in this embodiment. Since the node is the output node 23, the input node flag C6 is set to False, the output node flag C7 is set to True, and the test node flag C8 is set to False. Furthermore, the node output C9 is set to False, and the total value C10 of the enhancement signal is set to 0.
  • Intermediate OR node initialization processing G5 is performed by specifying and referencing the actual link to be deleted (the force of any link other than the test link).
  • one real link is deleted from the network 20, and the test node associated with the real link (the test node corresponding to the test node address D4 of the link information storage means 63 for the real link) is transferred to the real node. It is the processing power that is used when promoting.
  • the test intermediate OR node 161 (the test node address of the real link 160 of the link information storage means 63) associated with the real link 160 designated as the deletion target Test node corresponding to D4)
  • first and second input side test Use the addresses CI (CI (1), CI (2)) of the strings 162 and 163 and the address of the intermediate OR node 180 to be initialized that is generated (the address of the memory area that is also trying to secure this). If the first input test link 162 is a test reversal link, a reversal link (real link) is newly added. If the first input test link 162 is a test non-reverse link, a non-reverse link (real link) is renewed.
  • the generated actual link is used as the input side link 182 of the intermediate OR node 18 0
  • the address of the input side link 182 is registered to the input side link address C1. In other words, the inversion and non-inversion of the first input side test link 162 and the input side link 181 are matched, and the inversion and non-inversion of the second input side test link 163 and the input side link 182 are Match.
  • the input side node of the input side link 181 is the node 164 coupled to the input side of the first input side test link 162 (that is, the input side node of the actual link 160 to be deleted), and the input side link The input side node of 182 is the node 165 coupled to the input side of the second input side test link 163.
  • the newly generated input links 181, 182 are provided with test nodes respectively associated with them (test intermediate OR node initialization process G7 or test intermediate AND in FIG. 11). Execute node initialization processing G8.) O
  • the output-side link address C2 includes the generated intermediate OR node 180 address to be initialized and the output-side node address D2 of the real link 160 specified as the deletion target. And the network address D3 of the real link 160 designated as the deletion target, a non-inverted link (real link) is newly initialized and generated (the non-inverted link initialization process G10 in FIG. 11 is performed). In order to register the generated real link as the output side link 183 of the intermediate OR node 180, the address of the output side link 183 is registered in the output side link address C2.
  • the output side node of the output side link 183 is the node 167 coupled to the output side of the output side test link 166 of the test intermediate OR node 161 (that is, the output side node of the actual link 160 to be deleted). . It should be noted that the force is not shown in the figure.
  • the newly generated output side link 183 has a test node associated with it (the test node OR node initialization process G7 or the test intermediate AND node initialization process in FIG. 11). Do G8).
  • initialization is performed by overwriting the cumulative value D8 of the enhanced signal of the output link 183, which is the generated non-inverted link (real link), with the cumulative value D8 of the enhanced signal of the actual link 160 to be deleted. To do.
  • test link address C4 For the test link address C4, one node address randomly selected from the input node address Bl, the intermediate node address B2, and the output node address B3 of the network information storage means 61 referenced by the designated network address C3.
  • Test link 185 coupled to randomly selected node 184, as shown in FIG. 14, using the generated intermediate OR node 180 address to be initialized and network address D3.
  • Either a reverse link or a test non-reverse link is randomly selected and newly generated (perform test reverse link initialization process G 11 or test non-reverse link initialization process G 12 in Fig. 11;), The generated address of the test link 185 is registered in the test link address C4.
  • the AND'OR node flag C5 is set to False (meaning an OR node)
  • the input node flag C6 is set to False
  • the output node flag is set.
  • Group C7 is False
  • test node flag C8 is False
  • the node output C9 is set to False
  • the total value C10 of the enhancement signal is set to 0.
  • the intermediate AND node initialization process G6 is substantially the same as the intermediate OR node initialization process G5 described above.
  • the intermediate AND node initialization process G6 is performed by designating and referring to the actual link to be deleted (any of the links other than the test link).
  • one real link is deleted from the network 20, and the test node attached to the real link (the test node corresponding to the test node address D4 of the link information storage means 63 for the real link) is changed to the real node. It is the processing power that is used to promote to
  • the first and second test intermediate AND nodes (the test node corresponding to the test link address D4 of the real link in the link information storage means 63) associated with the real link designated as the deletion target Using the address CI (CI (1), C1 (2)) of the second input side test link and the address of the intermediate AND node to be initialized (address of the memory area to be secured) If the first input test link is a test reversal link, a reverse link (real link) is newly added. If the first input test link is a test non-reverse link, a non-reverse link (real link) is newly set. Generate by initialization (reverse link initialization process G9 or non-reverse link initialization process G10 in Fig.
  • the actual link address is registered in the output link address C2. Also, initialization is performed by overwriting the accumulated value D8 of the strengthened signal of the output link that is the generated non-inverted link (actual link) with the accumulated value D8 of the strengthened signal of the actual link to be deleted.
  • test link address C4 For the test link address C4, one node address randomly selected from the input node address Bl, intermediate node address B2, and output node address B3 of the network information storage means 61 referred to by the designated network address C3.
  • the test link coupled to the randomly selected node using the address of the intermediate AND node to be initialized generated and the network address D3 can be used as a test inverted link or a test non-inverted link. Either one of them is selected at random, and a new one is generated (test inversion link initialization processing G11 or test non-inversion link initialization processing G12 in Fig. 11 is performed), and the generated test link address is set to test link address C4. Register with.
  • the input node flag C6 is set to False
  • the output node flag C7 is set to False
  • the test node flag C8 is set to False
  • the output C9 of the node is set to False
  • the total value C10 of the enhancement signal is set to 0.
  • Test intermediate OR node initialization process G7 is performed by specifying the real link and the network address D3 of this real link. This is also the force that is always attached to one actual link (registered at the actual link test node address D4).
  • the input-side test link address C1 includes the input-side node address D1 of the designated real link 200 and the address of the generated test intermediate OR node 201.
  • the test reverse link is used if the specified real link 200 is a reverse link, and the test non-reverse if the specified real link 200 is a non-reverse link.
  • a new link is initialized and created (test reverse link initialization process G11 or test non-reverse link initialization process G12 in Fig.
  • the generated link is designated as the first input test link 202 and its address Is registered as the first input side test link address CI (1), and the accumulated value D8 of the reinforcement signal of the first input side test link 202 is set to a sufficiently large positive value (for example, 10 3 °°). Overwrite. This is to prevent the first input side test link 202 from being deleted.
  • the input side test link address C1 the input node address B1, the intermediate node address B2, and the output node address B3 of the network information storage means 61 referred to by the network address D3 of the designated real link 200 are used.
  • randomly A second input test link 204 coupled to the selected node 203 is newly generated by randomly selecting a test inversion link or a test non-inversion link (test inversion in Fig. 11).
  • the generated second input side test link 204 is added. Registering a scan as a second input test link address Cl (2).
  • the output side test link address C2 does not need to be initialized. This is because the strengthened signal is not stored and the information is not transmitted in the output side test link 205 of the test intermediate OR node 201. Accordingly, in FIG. 15, the output side test link 205 is indicated by a one-dot chain line.
  • the network address C3 is overwritten with the network address D3 of the specified real link 200.
  • there is no test link to be registered in the test link address C4 so it is necessary to initialize the test link address C4! /.
  • the initialization target is a test intermediate OR node
  • AND 'OR node flag C5 is set to False (meaning an OR node)
  • input node flag C6 is set to False
  • output node flag C7 is set to False
  • test node flag C8 is True.
  • the node output C9 Is False
  • the total value CIO of the enhancement signal is 0.
  • test intermediate AND node initialization process G8 is substantially the same as the test intermediate OR node initialization process G7 described above. That is, the test intermediate AND node initialization process G8 is performed by designating the actual link and the network address D3 of the actual link. This is also the force that is always attached to one real link (registered in the test node address D4 of the real link) during the test.
  • the output side test link address C2 does not need to be initialized. In the test link at the output side of the test intermediate AND node, the enhancement signal is not stored and the information is not transmitted. [0216] The network address C3 is overwritten with the network address D3 of the specified real link. In the case of a test node, there is no test link to be registered in the test link address C4, so it is necessary to initialize the test link address C4! /.
  • the initialization target is a test intermediate AND node
  • AND 'OR node flag C5 is set to True (meaning an AND node)
  • input node flag C6 is set to False
  • output node flag C7 is set to False
  • test node flag C8 is True.
  • the node output C9 is set to True
  • the total value C10 of the enhancement signal is set to 0.
  • Reverse link initialization process G9 has the following two cases. One is to promote the test reverse link, and the other is to create the reverse link directly without the original test reverse link. In the latter case, immediately after starting the program and starting the operation control of the robot 30, there is a case where it is generated from the output node 23 toward another node, and there is a real link connected to the output node 23. And when it is deleted, it may be generated instead.
  • test node address D4 For test node address D4, specify this generated inverted link and network address D3, and output node corresponding to the specified output node address D2 (output of the generated inverted link) Side node) AND 'OR node flag C5 force True (means AND node), test intermediate OR node, false (means OR node), test intermediate AND node, new Initialized and generated (Test intermediate OR node in Figure 11) Perform initialization processing G7 or test intermediate AND node initialization processing G8. ) And register the generated test node at test node address D4. In other words, the AND'OR between the output node of the generated inverted link and the test node associated with the inverted link is reversed.
  • Inverted 'Non-inverted flag D5 is set to True (meaning inverted link), and test link flag D6 is set to False.
  • the output D7 of the link is set to False, the accumulated value D8 of the strengthening signal is overwritten with the accumulated value D8 of the strengthening signal of the specified test inversion link, and the strengthening signal D9 is set to 0.
  • Direct initialization processing without using test inversion link consists of input node address D1 and output node address D2. Specify the network address D3. Register the specified addresses in D1 to D3. Since the inverted link (actual link) generated in the initialization process in this case only comes out from the output node 23, the output side node of the generated inverted link is the output node 23. On the other hand, the input side node of the generated reverse link is determined randomly.
  • D5 to D9 are initialized before the test node address D4 is initialized.
  • Inverted and non-inverted flag D5 is set to True (meaning inverted link), and test link flag D6 is set to False.
  • the link output D7 is set to False, the enhancement signal accumulated value D8 is set to 0, and the enhancement signal D9 is set to 0.
  • test node address D4 For test node address D4, specify this generated inverted link and network address D3, and output node corresponding to the specified output node address D2 (output of the generated inverted link) Side node) AND 'OR node flag C5 force True (means AND node), test intermediate OR node, false (means OR node), test intermediate AND node, new Generate and initialize (perform test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8 in Fig. 11), and register the generated test node at test node address D4. In other words, the AND'OR between the output node of the generated inverted link and the test node associated with the inverted link is reversed.
  • test node address D4 is initialized later is that the inversion / non-inversion flag D5 of the inversion link associated with the test node is referred to when the test node is initialized.
  • the output of the input side node corresponding to the input side node address D1 is finally provided. Register the generated inverted link address to the side link address C2 and the input side link address C1 of the output side node corresponding to the output side node address D2, and finish the initialization.
  • the non-inversion link initialization process G10 is substantially the same as the above-described inversion link initialization process G9. In other words, there are the following two cases in the non-inverted link initialization process G10. One is to promote a test non-inverted link, and the other is to create a non-inverted link directly without the original test non-inverted link. In the latter case, immediately after starting the program and starting the operation control of the robot 30, there is a case where it is generated from the output node 23 toward another node, and the real link connected to the output node 23 is once. When deleted, it may be generated instead.
  • test non-inversion link When using a test non-inversion link, specify the original test non-inversion link and output node address D2 for initialization. Since the generated non-inverted link is due to promotion, the output node of the generated non-inverted link is the same node as the output node j of the original test non-inverted link.
  • test node address D4 For test node address D4, specify this generated non-inverted link and network address D3, and output node corresponding to the specified output node address D2 (generated non-inverted link) AND 'OR node flag of C5 force True (meaning AND node), test intermediate OR node if false (meaning OR node), test intermediate AND node if false (meaning OR node) , Newly initialized and generated (perform test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8 in Figure 11) Register the test node to test node address D4. In other words, the AND 'OR of the output node of the generated non-inverted link and the test node attached to the non-inverted link is reversed.
  • Inversion 'Non-inversion flag D5 is set to False (means non-inversion link), and test link flag D6 is set to False.
  • the output D7 of the link is set to False, the accumulated value D8 of the enhancement signal is overwritten with the accumulated value D8 of the enhancement signal of the designated non-inverted test link, and the enhancement signal D9 is set to 0.
  • Direct initialization without using the test non-inverted link is performed by designating the input side node address D1, the output side node address D2, and the network address D3.
  • the specified addresses are registered in D1 to D3. Since the non-inverted link (actual link) generated in the initialization process in this case is output only from the output node 23, the output-side node of the generated non-inverted link is the output node 23. On the other hand, the input side node of the generated non-inverted link is determined randomly.
  • D5 to D9 are initialized before the test node address D4 is initialized. Invert 'non-invert flag D5 is set to False (means non-inverted link), and test link flag D6 is set to False. The link output D7 is False, the enhancement signal cumulative value D8 is 0, and the enhancement signal D9 is 0.
  • test node address D4 For test node address D4, specify this generated non-inverted link and network address D3, and output node corresponding to the specified output node address D2 (generated non-inverted link) AND 'OR node flag of C5 force True (meaning AND node), test intermediate OR node if false (meaning OR node), test intermediate AND node if false (meaning OR node) Then, a new initialization is performed (the test intermediate OR node initialization process G7 or the test intermediate AND node initialization process G8 in FIG. 11 is performed), and the generated test node is registered in the test node address D4. In other words, the AND 'OR of the output node of the generated non-inverted link and the test node attached to the non-inverted link is reversed.
  • the test node address D4 is initialized later when the test node is initialized. This is because the non-inverted flag D5 of the non-inverted link associated with the test node is referred to.
  • the input side node corresponding to the input side node address D1 Register the generated non-inverted link address to the output side link address C2 and the input side link address C1 of the output side node corresponding to the output side node address D2, and finish the initialization.
  • the test reverse link initialization process Gil is performed by specifying the input side node address D1, the output side node address D2, and the network address D3.
  • test link Since the test link is not provided in the test link, the test node address D4 does not need to be initialized. Inverted 'Non-inverted flag D5 is True (meaning inverted link), and test link flag D6 is True. The link output D7 is False, the enhancement signal accumulated value D8 is 0, and the enhancement signal D9 is 0.
  • the test non-reverse link initialization process G12 is substantially the same as the test reverse link initialization process G11 described above. That is, the test non-inversion link initialization process G12 is performed by designating the input side node address D1, the output side node address D2, and the network address D3. For the input side node address D1, the specified input side node address is registered. For the output side node address D2, register the specified output side node address. For network address D3, register the specified network address.
  • test link Since the test link is not provided in the test link, the test node address D4 does not need to be initialized. Inverted 'non-inverted flag D5 is False (means non-inverted link To do. ) And the test link flag D6 is set to True. The link output D7 is set to False, the enhancement signal accumulated value D8 is set to 0, and the enhancement signal D9 is set to 0.
  • FIG. 12 shows the configuration of the deletion process during learning.
  • the end process corresponding to the robot initialization process Gl, network initialization process G2, input node initialization process G3, and output node initialization process G4 in FIG.
  • these termination processes are not directly related to the structural change of the network 20 and will not be described.
  • the other node and link termination processing is performed each time the node or link is deleted, it will be described as the deletion processing E1 to E8 during learning.
  • the deletion method varies depending on the type of node and the type of link. In Fig. 12, to delete the root of the arrow, it is necessary to delete the tip of the arrow.
  • the solid line in the figure must be used, and the dotted line means that it may be used.
  • the memory for the test link corresponding to the test link address C4 of the intermediate OR node to be deleted is released. That is, the information on the test link in the link information storage means 63 is released according to a test reverse link deletion process E7 or a test non-reverse link deletion process E8 described later, and the test link is deleted.
  • the address of the intermediate OR node to be deleted is searched from the intermediate node address B2 of the network information storage means 61 and removed. Then, depending on the conditions, perform one of the following three different processes (1), (2), and (3).
  • test link flag D6 is True (means a test link) and output node 226 corresponding to output node address D2 of output link 223 If the test node flag C8 is False (meaning a real node), it corresponds to the output link 223, that is, the test link coupled to the output node 226 (corresponding to the test link address C4 of the output node 226) (Test link) is deleted (test inversion link deletion processing E7 or test non-inversion link deletion processing E8 in Fig. 12 described later is performed), and test link 241 to be connected to randomly selected node 240 is randomly generated. (The test reverse link initialization process G11 or the test non-reverse link initialization process G12 shown in FIGS. 11 and 12 is performed.), The address of the test link 241 is set to the output node 226. To register to strike link address C4.
  • Test link flag D6 is True (means test link), and output node 227 corresponding to output node address D2 of output link 223 If the test node flag C8 is True (meaning a test node), the output side link 224 is deleted.
  • test link flag D6 of the output link 225 is False (meaning a real link)
  • the input node address D1 of the output link 225 is changed to the intermediate OR to be deleted.
  • test node delete the test node (test node corresponding to the test node address D4 of the output side link 225 before the setting change) attached to the output side link 225 before the setting change (the test intermediate OR in Fig. 12 described later).
  • Node deletion process E3 or test intermediate AND node deletion process E4 is performed), and a new test node 229 is generated (test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8 in Fig. 11 described above)
  • the input side link corresponding to the input side link address C1 of the intermediate OR node 260 to be deleted is If there is one (input side link 265), and the input side node force corresponding to the input side node address D1 of this input side link 265 is the intermediate OR node 260 to be deleted, the intermediate OR node For each of the output side links corresponding to each output side link address C2 of 260 (in FIG. 17, two output side links 261 and 262 are taken as an example), the following two processes (2 — A) or (2— B) Carry out the management.
  • test link flag D6 is True (means test link) and output node 263 corresponding to output node address D2 of output link 261
  • test node flag C8 is False (meaning a real node)
  • it corresponds to the output link 261, that is, the test link coupled to the output node 263 (corresponding to the test link address C4 of the output node 263).
  • Test link is deleted (test inversion link deletion processing E7 or test non-inversion link deletion processing E8 in Fig. 12 described later is performed), and test link 281 is randomly generated to connect to node 280 selected at random.
  • the test inversion link initialization process G11 or the test non-inversion link initialization process G12 in FIGS. 11 and 12 described above is performed.
  • the address of the test link 281 is assigned to the output node 263. To register to strike link address C4.
  • each output side link address of the intermediate OR node 300 is The following two types of processing (3-A) and (3-B) are performed for each of the output side links corresponding to less C2 (in FIG. 18, two output side links 301 and 302 are taken as an example). Do one of the following.
  • Test link flag D6 is True (means test link) If the test node flag C8 of the output side node 303 corresponding to the output side node address D2 of the output side link 301 is False (meaning a real node), the output side link 301, that is, the output Delete the test link (the test link corresponding to the test link address C4 of the output side node 303) connected to the side node 303 (test inversion link deletion processing E7 or test non-inversion link deletion processing E8 in Fig.
  • test link 321 to be coupled to the randomly selected node 320 (perform the test reverse link initialization process G11 or the test non-reverse link initialization process G12 of FIGS. 11 and 12 described above)
  • the address of the test link 321 is registered in the test link address C4 of the output side node 303.
  • Test intermediate AND node deletion process E4 is the test intermediate OR node deletion process E3, which is almost the same as the test intermediate OR node deletion process E3 described above. The description is omitted because it is simply read as test intermediate AND node.
  • Reverse link deletion process E5 searches for and deletes the reverse link address to be deleted from the output side link address C2 of the input side node corresponding to the input side node address D1 of the reverse link to be deleted. Then, the address of the reverse link to be deleted is searched and deleted from the input side link address C1 of the output side node corresponding to the output side node address D2 of the reverse link to be deleted.
  • test node associated with the reverse link to be deleted (the test node corresponding to the test node address D4 of the reverse link to be deleted) is deleted.
  • the AN D.OR node flag C5 of this test node is True (meaning an AND node)
  • the above-mentioned test intermediate AND node deletion processing E4 is performed, and False (meaning an OR node).
  • the test intermediate OR node deletion process E3 described above is performed.
  • non-inverted link deletion process E6 is the same as the above-described inverted link deletion process E5, the description is omitted.
  • Test reverse link deletion processing E7 searches for and deletes the test reverse link address to be deleted from the output side link address C2 of the input side node corresponding to the input side node address D1 of the test reverse link to be deleted. .
  • test node flag C8 of the output node corresponding to the output node address D2 of the test inversion link to be deleted is True (meaning a test node)
  • the output node (test The address of the test reverse link to be deleted is detected and deleted from the test link address C1 of the node), and if it is False (means a real node), the output node (real node) Delete test link address C4.
  • test non-reverse link deletion process E8 is the same as the test reverse link deletion process E7 described above, and thus the description thereof is omitted.
  • the information processing system 10 includes the reinforcement signal generation means 43, it is possible to generate an enhancement signal to be given to the network 20 according to the evaluation result of the state of the robot 30 that is the control target. .
  • the information processing system 10 includes the learning means 51, the enhancement signal generation means
  • the enhancement signal generated by 43 can be propagated from the configuration element of the network 20 to other configuration elements.
  • the learning means 51 generates a reinforcement signal to be propagated, that is, a reinforcement signal to be given to the propagation destination constituent element, for each constituent element according to the input / output state of the propagation source and Z or the destination constituent element. Therefore, it is determined whether to generate (add) or delete ( ⁇ ) the configuration element for each configuration element using the cumulative value of the enhancement signal assigned to each configuration element. This process can be executed and the structure of the network 20 can be changed autonomously.
  • the information processing system 10 does not evaluate the entire network 20 as an evaluation unit when changing the structure of the network 20. Since the evaluation is performed in units of constituent elements (that is, the unit of each node or link), and generation or deletion is performed in units of constituent elements, the time required for evaluation can be shortened and the time order is low. The network 20 can be built autonomously and the calculation cost can be reduced accordingly.
  • the network 20 structure is determined in accordance with the use environment and tasks of the network 20, and the determination is made.
  • the information processing system 10 that does not optimize the coupling coefficient between the Euron units autonomously changes and optimizes the structure of the network 20 itself. Limitation to can be avoided. Therefore, even if the usage environment and tasks of the network 20 change, Learning that reuses fruits as existing knowledge can be performed.
  • the information processing system 10 includes a state evaluation signal acquisition unit 42. Based on the state evaluation signal acquired by the state evaluation signal acquisition unit 42, the state of the robot 30 to be controlled is determined. Since it is configured to evaluate, it is possible to evaluate the state of the robot 30 to be controlled without intervention of human judgment. For this reason, the autonomous construction speed of the network 20 can be improved, and consistent learning can be easily performed according to the purpose.
  • the learning means 51 performs propagation according to the contribution to the node output of the input link on the propagation destination determined according to the input / output state of the propagation source node based on the reinforcement signal given to the propagation source node. Since the enhancement signal to be given to the previous input side link is generated (see Fig. 8 and Fig. 9), the enhancement signal given to the network 20 can be propagated back from the output node 23. In addition, a reasonable evaluation can be performed for each link individually, and appropriate generation or deletion for each component element can be realized.
  • the learning means 51 performs back propagation of the reinforcement signal from the node to the input side node of the input side link in addition to the back propagation of the reinforcement signal from the node to the input side link as described above. Therefore, the smoother back propagation of the enhancement signal can be realized.
  • the learning means 51 is configured to delete the link when the cumulative value of the enhancement signal given to the link falls below the threshold value, and is thus a control target as intended. It is possible to perform appropriate dredging of links that are considered to be useless to control the robot 30, that is, links that are considered unnecessary, and to autonomously change the structure of the network 20.
  • the learning means 51 is configured to delete this node when the number of links on the input side of the node becomes 1 or less. Appropriate selection of nodes that are considered not useful for control, that is, unnecessary nodes, can be performed, and the structure of the network 20 can be changed autonomously.
  • test link is provided for a node
  • the test link is considered to be useful for controlling the robot 30 to be controlled as intended. Promote the link to a real link that contributes to node output and formally input You can register as a link. Therefore, autonomous link generation can be realized, and the structure of the network 20 can be changed autonomously.
  • the learning means 51 deletes the test link when the cumulative value of the enhancement signal given to the test link falls below the threshold, and creates a new test coupled to an arbitrary node. Since it is configured to generate a link, a test link that is a suitable candidate for a newly generated link (actual link) can always be prepared. Therefore, appropriate and smooth generation of links can be realized, and the structure of the network 20 can be changed autonomously.
  • the learning means 51 is configured to propagate the reinforcement signal from the test node to the first and second input side test links, so that a newly generated link ( (Real link) candidates can be prepared, and the structure of the network 20 can be changed autonomously.
  • the learning means 51 when the cumulative value of the reinforcement signal given to the first or second input side test link described above falls below the threshold, the input side test link below the threshold. Since the test link is deleted and a new input-side test link is generated, a test link that is a suitable candidate for a newly generated link (actual link) can always be prepared. Therefore, appropriate and smooth generation of links can be realized, and the structure of the network 20 can be changed autonomously.
  • the learning means 51 puts the test node into practical use when the cumulative value of the enhancement signals given to the first and second input side test links exceeds the threshold value. Since it is configured, a new node (real node) can be generated (added), and the structure of the network 20 can be changed autonomously.
  • each node is configured by using a logic circuit, so that an information processing system capable of realizing a desired control is constructed with a simple structure. be able to.
  • FIG. 19 shows the results of this experiment.
  • Figure 19 shows a 3-bit XOR circuit as the target circuit, showing the correct answer rate with a moving average of 100 steps, that is, the ratio of the steps that output the correct answer in the last 100 steps (100 outputs). It is shown.
  • FIG. 20 shows the results of this experiment.
  • the part where the 2-bit XOR circuit structure given as known knowledge at the start of the experiment is reused is shown in bold lines. Whether or not the structure is actually reused can be checked by tracking the history of structure generation.
  • the node ⁇ part of the 3-bit XOR circuit structure is different from the 2-bit XOR circuit structure. This is also the force that replaced this part of the link with node A, and structural reuse can be achieved.
  • the experiment using the Keppera robot simulator has about 10,000 nodes, real-time learning of 64 ms per step, and backup. It has a function and can be applied to the maze problem by delayed reward. From the above, the effect of the present invention was remarkably shown.
  • control target is not limited to the robot 30, and may be a game character or the like.
  • the opponent's character The relative position of the opponent, the opponent's character appears, the type of skill to be input to the network, and the action of your own character, that is, the type of skill that your own character appears and the The direction of movement may be determined by the network output.
  • the enhancement signal is distributed (propagated) as shown in Figs. 8 and 9, but the distribution method is not limited to this.
  • a reinforcement signal to be given to the propagation destination configuration element is generated according to the input / output state of the propagation source and Z or propagation destination configuration elements. It is only necessary to realize the propagation of the reinforcement signal from one to other constituent elements.
  • the network 20 used in the information processing system 10 is not limited to the power realized mainly by software, and is realized by using a hardware circuit at least in part. Moyo! /
  • the node is configured by a logic circuit using a logic circuit that is configured by a logic circuit using an AND circuit or an OR circuit. Use other logic circuits.
  • the information processing system, information processing method, and program of the present invention can be used for general IZO learning.
  • FIG. 1 is an overall configuration diagram of an information processing system according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing a data structure used in processing by the information processing system of the embodiment.
  • FIG. 3 is a flowchart showing an overall flow of robot operation control by the information processing system of the embodiment.
  • FIG. 4 is a flowchart showing the flow of network processing by the information processing system of the embodiment.
  • FIG. 5 is a flowchart showing a learning process flow of an intermediate OR node (real node) by the information processing system of the embodiment.
  • FIG. 6 is a flowchart showing a non-inverted link learning process performed by the information processing system according to the embodiment.
  • FIG. 7 is an explanatory diagram of intermediate OR node learning processing by the information processing system of the embodiment.
  • FIG. 8 is a diagram showing an example of distribution of reinforcement signals when learning an intermediate OR node by the information processing system of the embodiment.
  • FIG. 9 is a diagram showing an example of distribution of reinforcement signals when learning an intermediate AND node by the information processing system of the embodiment.
  • FIG. 10 is an explanatory diagram of learning processing of a non-inverted link (real link) by the information processing system of the embodiment.
  • FIG. 11 is an explanatory diagram of a configuration of initialization by the information processing system of the embodiment.
  • FIG. 12 is an explanatory diagram of the configuration of deletion processing during learning by the information processing system of the embodiment.
  • FIG. 13 is an explanatory diagram of output node initialization processing by the information processing system of the embodiment.
  • FIG. 14 is an explanatory diagram of intermediate OR node initialization processing by the information processing system of the embodiment.
  • FIG. 15 is an explanatory diagram of test intermediate OR node initialization processing by the information processing system of the embodiment.
  • FIG. 16 is an explanatory diagram of intermediate OR node deletion processing by the information processing system of the embodiment.
  • FIG. 17 is another explanation of intermediate OR node deletion processing by the information processing system of the embodiment. Figure.
  • FIG. 18 is still another explanatory diagram of intermediate OR node deletion processing by the information processing system of the embodiment.
  • FIG. 19 is a diagram showing the results of an effect confirmation experiment of the present invention.
  • FIG. 20 is a diagram showing the results of another effect confirmation experiment of the present invention.
  • Network information storage means functioning as network structure storage means and enhanced signal storage means
  • Node information storage means that functions as network structure storage means, input / output state storage means, and enhancement signal storage means
  • Link information storage means functioning as network structure storage means, input / output state storage means, and enhancement signal storage means

Abstract

There are provided an information processing system, an information processing method, and a program capable of performing effective autonomous control in a short time. The information processing system (10) generates an intensification signal to be given to a network (20) according to an evaluation result of the state of a control object such as a robot (30) and transmits the intensification signal from constitution elements of the network (20) (nodes (21, 22, 23) formed by logic circuits and a link (24)) to other constituent elements. Here, the intensification signal to be given to the constituent element of the transmission destination is generated according to the I/O state of the constituent element of the transmission source and/or the transmission destination. Each of the constituent elements is generated or deleted by using an accumulation value of the intensification signal given to each of the constituent elements, thereby autonomously changing the structure of the network (20).

Description

明 細 書  Specification
情報処理システムおよび情報処理方法、並びにプログラム  Information processing system, information processing method, and program
技術分野  Technical field
[0001] 本発明は、情報処理を行う複数のノードおよびこれらのノードを連結してノード間の 情報伝達を行うリンクを構成エレメントとして備えるネットワークを用いた情報処理シス テムおよび情報処理方法、並びにプログラムに係り、例えば、ロボットの動作制御、デ イスプレイ画面上のゲームのキャラクタの動作制御、空調管理等を行う場合に利用で きる。  [0001] The present invention relates to an information processing system, an information processing method, and a program using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as constituent elements For example, it can be used when performing robot motion control, game character motion control on the display screen, air conditioning management, and the like.
背景技術  Background art
[0002] 知能ロボットの開発をはじめ、現在の機械制御、情報処理の分野において、自律制 御に用いる学習器の作成は、大きな課題となっている。そして、学習器に求められる 必要条件としては、(1)多様な出力の自律的模索、(2)任意のタスクへの応用、(3) 小さな計算コスト、 (4)既存知識の再利用による学習、(5)時系列への対応、といった ものが考えられるが、これらの条件を全て満足する学習器の作成は、未だ達成されて いないのが現状である。  [0002] In the current fields of machine control and information processing, including the development of intelligent robots, the creation of learners for autonomous control has become a major issue. Necessary conditions for the learner include (1) autonomous search for various outputs, (2) application to arbitrary tasks, (3) small computational cost, and (4) learning by reusing existing knowledge. (5) Response to time series can be considered, but the creation of learners that satisfy all of these conditions has not yet been achieved.
[0003] 一般に、自律制御に用いる学習器の作成方法としては、強化学習の分野で使用さ れている次のような強化信号を用いた代表的な方法がある。この方法では、学習器 へ外界からの入力を与え、そのときに生成される出力の評価として、外界から学習器 に対して強化信号 (正ならば報酬、負ならば罰に相当する信号)を付与することで、 学習器の振る舞いを改善する。このような方法により作成される様々な学習器の中で 、ニューロジェネティックラーニングという学習方法により作成される学習器があり、前 述した(1)、 (2)、 (5)の条件を同時に満足することができることが知られている。この ニューロジェネティックラーニングによる学習器は、神経回路を模した-ユーラルネッ トワークで構築される。ニューラルネットワークの構築には、仮想的な遺伝子が用いら れ、その遺伝子を強化信号に応じて淘汰することで、ネットワークの進化を促し、 \/ O処理の性能を強化する。  [0003] In general, as a method for creating a learning device used for autonomous control, there is a typical method using the following reinforcement signal used in the field of reinforcement learning. In this method, an input from the outside world is given to the learning device, and an enhancement signal (a signal corresponding to a reward if positive, a punishment if negative) is sent from the outside world to the learning device as an evaluation of the output generated at that time. By giving it, the behavior of the learner is improved. Among various learners created by this method, there is a learner created by a learning method called neurogenetic learning, which satisfies the conditions (1), (2), and (5) described above simultaneously. It is known that you can. This neurogenetic learning learner is constructed by a neural network that mimics a neural network. In constructing a neural network, virtual genes are used, and the genes are selected according to the reinforcement signal to promote network evolution and enhance the performance of \ / O processing.
[0004] また、再構成可能な回路を有し、この回路の環境に対する適応度を評価し、その評 価結果に基づいて回路構成を変更して進化させることにより、環境の変化に対応して 自律的にハードウェア構成を変化させる自律進化型システムがある(特許文献 1参照[0004] Also, a reconfigurable circuit is provided, and the adaptability of the circuit to the environment is evaluated and evaluated. There is an autonomous evolution system in which the hardware configuration changes autonomously in response to environmental changes by changing the circuit configuration based on the evaluation results and evolving it (see Patent Document 1)
) o ) o
[0005] さらに、ニューロンユニット間の結合係数を最適化する-ユーラルネットワーク学習 方法を用いた信号処理装置がある (特許文献 2, 3参照)。  [0005] Furthermore, there is a signal processing device that uses a neural network learning method that optimizes the coupling coefficient between neuron units (see Patent Documents 2 and 3).
[0006] 特許文献 1 :特開平 10— 307805号公報 (請求項 1、図 1、要約)  Patent Document 1: Japanese Patent Laid-Open No. 10-307805 (Claim 1, FIG. 1, Abstract)
特許文献 2 :特開平 5— 73705号公報 (請求項 1、図 1、要約)  Patent Document 2: Japanese Patent Laid-Open No. 5-73705 (Claim 1, FIG. 1, Abstract)
特許文献 3 :特開平 4 336656号公報 (請求項 1、図 1、要約)  Patent Document 3: Japanese Patent Laid-Open No. 4 336656 (Claim 1, FIG. 1, Abstract)
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0007] し力しながら、前述した-ユーロジェネティックラーニングによる学習器では、ネットヮ ークの進化を促すのに、ネットワークを全体として評価するので、評価に膨大な時間 がかかり、これに伴って計算コストも大きくなるうえ、環境やタスクが変化した場合に、 以前の学習結果を既存知識として再利用する学習が行われるか否かが不明である。  [0007] However, with the above-described learner using Eurogenetic learning, the network is evaluated as a whole in order to promote the evolution of the network. In addition to increasing costs, it is unclear whether learning that reuses previous learning results as existing knowledge is performed when the environment or tasks change.
[0008] また、前述した特許文献 1に記載された自律進化型システムでは、進化の手法が、 ネットワーク全体を評価し、ネットワーク全体を淘汰、生成する手法である。すなわち、 評価結果に基づく回路構成の変更は、回路構成全体を別の構成のものに取り替える ことであると捉えることができ、たとえ結果的に回路構成の一部の変更に止まったとし ても、その一部を評価した結果に基づく変更ではなぐ回路構成全体を評価した結 果の変更である。従って、評価期間が長くなるという問題がある。この点で、後述する 如く、ネットワーク全体ではなぐネットワークの構成エレメント単位での評価、生成、 淘汰を行うため評価期間が非常に短くなる本発明とは異なる。  [0008] In the autonomous evolution system described in Patent Document 1 described above, the evolution method is a method for evaluating the entire network and generating and generating the entire network. In other words, a change in the circuit configuration based on the evaluation result can be regarded as a replacement of the entire circuit configuration with another configuration, and even if the result is only a partial change in the circuit configuration, This is not a change based on the result of evaluating a part of the result, but a change of the result of evaluating the entire circuit configuration. Therefore, there is a problem that the evaluation period becomes long. In this respect, as will be described later, the evaluation period is extremely short because the evaluation, generation, and selection are performed in units of network elements rather than the entire network.
[0009] さらに、前述した特許文献 2, 3に記載された-ユーラルネットワーク学習方法を用 いた信号処理装置では、ニューロンユニット間の結合係数の最適化を行っている力 このような結合係数の最適化手法の場合、通常、ネットワークを構築する際に、構築 者がネットワークの使用される環境、タスクに対して持つ先見的知識によりネットヮー クの構造を決定しておき、その決定された構造の中での最適化が行われる。すなわ ち、ネットワーク構造は変化させずに結合係数の最適化が行われる。従って、作成さ れる学習器は、特定の環境、タスクに対しては高い能力を発揮する力 任意の環境、 タスクでの使用は困難である。この点で、決定されたネットワーク構造の中での結合 係数の最適化ではなぐネットワーク構造そのものをも自律的に変化させ、最適化し ていく本発明とは異なる。 [0009] Further, in the signal processing apparatus using the -Ural network learning method described in Patent Documents 2 and 3 described above, the power for optimizing the coupling coefficient between neuron units In the case of an optimization method, normally, when constructing a network, the network structure is determined by the builder's prior knowledge regarding the environment and tasks in which the network is used, and the determined structure is determined. Optimization in is done. In other words, the coupling coefficient is optimized without changing the network structure. Therefore, created The learner to be used has high ability for a specific environment and task. It is difficult to use in any environment and task. In this respect, the present invention differs from the present invention in which the network structure itself is autonomously changed and optimized by optimizing the coupling coefficient in the determined network structure.
[0010] 本発明の目的は、短時間で効果的な自律制御を行うことができる情報処理システ ムおよび情報処理方法、並びにプログラムを提供するところにある。  An object of the present invention is to provide an information processing system, an information processing method, and a program capable of performing effective autonomous control in a short time.
課題を解決するための手段  Means for solving the problem
[0011] 本発明は、情報処理を行う複数のノードおよびこれらのノードを連結してノード間の 情報伝達を行うリンクを構成エレメントとして備えるネットワークを用いた情報処理シス テムであって、構成エレメント間の結合関係を含むネットワークの構造を記憶するネッ トワーク構造記憶手段と、ネットワークの出力生成処理で形成される構成エレメントの 入出力状態を記憶する入出力状態記憶手段と、ネットワークの出力結果に基づき形 成された制御対象の状態の評価結果に応じてネットワークに対して報酬または罰とし て付与する強化信号を生成する強化信号生成手段と、この強化信号生成手段により 生成した強化信号を少なくとも 1つの構成エレメントに付与し、強化信号を付与された 構成エレメントから他の構成エレメントへ構成エレメント間の連鎖的な結合関係に従 つて強化信号を伝播させるために、順次、伝播元の構成エレメントに付与された強化 信号に基づき、入出力状態記憶手段に記憶された伝播元および Zまたは伝播先の 構成エレメントの入出力状態に応じて伝播先の構成エレメントに対して報酬または罰 として付与する強化信号を生成するとともに、構成エレメントに付与された強化信号 若しくはその履歴または強化信号の累積値若しくはその履歴を用いて構成エレメント 毎に構成エレメントの生成または削除を行ってネットワークの構造を変化させ、変化 後のネットワークの構造をネットワーク構造記憶手段に記憶させる学習手段と、ネット ワーク構造記憶手段に記憶されたネットワークの構造を参照し、学習手段により構造 を変化させたネットワークを用いてネットワークの出力を生成する出力生成手段と、学 習手段により生成された構成エレメントの強化信号若しくはその履歴または強化信号 の累積値若しくはその履歴を構成エレメント毎に記憶する強化信号記憶手段とを備 免たことを特徴とするものである。 [0012] ここで、「制御対象」とは、例えば、ロボット(実機ロボットでもよぐディスプレイ画面 上に表示されたロボットや、ホログラフィで表示されたロボット等の仮想的なロボットで もよい。)、ディスプレイ画面上に表示されるゲームのキャラクタ、空調管理の対象とな る空間の環境等である。以下の発明にお 、ても同様である。 [0011] The present invention is an information processing system using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as a constituent element. Network structure storage means for storing the structure of the network including the connection relationship of the network, input / output state storage means for storing the input / output state of the constituent elements formed by the network output generation process, and a form based on the network output result. The enhancement signal generation means for generating an enhancement signal to be given as a reward or punishment to the network according to the evaluation result of the state of the control target, and at least one enhancement signal generated by the enhancement signal generation means Assigned to an element and configured from a configuration element with an enhanced signal to another configuration element The propagation source and Z or propagation stored in the input / output state storage means in order based on the reinforcement signal given to the constituent element of the propagation source in order to propagate the reinforcement signal according to the chain connection relationship between the elements. Depending on the input / output state of the previous component element, an enhancement signal to be given as a reward or punishment to the propagation destination component element is generated, and the enhancement signal given to the component element or its history or the accumulated value of the enhancement signal or Using the history, a configuration element is generated or deleted for each configuration element to change the network structure, and the network structure after the change is stored in the network structure storage unit and stored in the network structure storage unit A network whose structure is changed by learning means Output generation means for generating the output of the network by using the enhancement signal storage means for storing the reinforcement signal of the constituent element generated by the learning means or its history or the cumulative value of the enhancement signal or the history for each constituent element; It is characterized by the absence of Here, the “control target” is, for example, a robot (may be a virtual robot such as a robot displayed on a display screen, which may be an actual robot, or a robot displayed by holography). These are the game characters displayed on the display screen, the environment of the space subject to air conditioning management, and so on. The same applies to the following inventions.
[0013] また、「制御対象の状態」とは、例えば、ネットワークの出力結果に基づくロボットの 動作によってもたらされるロボットの状態 (行動結果)、ネットワークの出力結果に基づ くゲームのキャラクタの動作によってもたらされるキャラクタの状態 (例えば、格闘系ゲ ームであれば、自己が受けたダメージ、敵に与えたダメージ、勝敗の結果等)、ネット ワークの出力結果に基づく空調管理によってもたらされる対象空間の環境の状態 (快 適性、安全性等)等である。以下の発明においても同様である。  [0013] The "control target state" refers to, for example, the robot state (behavior result) brought about by the robot action based on the network output result, and the game character action based on the network output result. The state of the target space brought about by the air conditioning management based on the state of the resulting character (for example, if it is a fighting game, the damage received by the self, the damage given to the enemy, the result of winning or losing), and the network output result Environmental conditions (comfort, safety, etc.). The same applies to the following inventions.
[0014] さらに、「入出力状態記憶手段」には、必ずしも各構成エレメント毎に入力および出 力の双方を記憶させる必要はなぐ例えば、各構成エレメントの出力のみを記憶させ 、ネットワークの構造を参照することで各構成エレメント毎の入力および出力を把握で きるようにしてもよい。また、入出力状態記憶手段に記憶される「構成エレメントの入 出力状態」には、現在 (最新のステップ)の入出力状態のみならず、過去 (前回以前 のステップ)の入出力状態が含まれていてもよい。従って、学習手段により「構成エレ メントの入出力状態に応じて」強化信号を生成する際には、現在のみならず過去の 入出力状態 (過去の一時点でもよぐ複数時点の履歴でもよい。)を参照してもよい。 以下の発明にお ヽても同様である。  [0014] Furthermore, it is not always necessary to store both input and output for each component element in the "input / output state storage means". For example, only the output of each component element is stored, and refer to the network structure. By doing so, the input and output of each constituent element may be grasped. In addition, the “input / output status of component elements” stored in the I / O status storage means includes not only the current (latest step) I / O status but also the past (previous step) I / O status. It may be. Therefore, when the reinforcement signal is generated “depending on the input / output state of the constituent element” by the learning means, not only the present but also the past input / output state (history of a plurality of points in time in the past may be used). ) May be referred to. The same applies to the following inventions.
[0015] また、「順次、伝播元の構成エレメントに付与された強化信号に基づき」における「 強化信号」には、現在 (最新のステップ)の強化信号のみならず、過去 (前回以前のス テツプ)の強化信号が含まれていてもよい。従って、学習手段により伝播先の構成ェ レメントに対して付与する強化信号を生成する際には、伝播元の構成エレメントに付 与された現在の強化信号のみならず過去の強化信号 (過去の一時点でもよぐ複数 時点の履歴でもよい。)をも参照し、それらを用いて演算を行った結果に基づいて生 成処理を行ってもよい。  [0015] In addition, the "enhanced signal" in "sequentially based on the enhanced signal given to the constituent element of the propagation source" includes not only the current (latest step) enhanced signal but also the past (the previous step). ) Enhancement signal may be included. Therefore, when generating the reinforcement signal to be given to the propagation destination configuration element by the learning means, not only the current enhancement signal given to the propagation source configuration element but also the past enhancement signal (the past one). It is also possible to refer to the history of multiple points in time, and to generate data based on the result of calculation using them.
[0016] そして、「構成エレメントに付与された強化信号若しくはその履歴または強化信号の 累積値若しくはその履歴を用いて」構成エレメントの生成または削除を行うことには、 例えば、強化信号や強化信号の累積値の値をそのまま用いて生成または削除の判 定処理を行う場合、強化信号の履歴を用いて各種の演算処理 (例えば、各強化信号 の単純和、各強化信号の単純平均、各強化信号に重みを付けた和、各強化信号に 重みを付けた加重平均、各強化信号の分散'標準偏差等を算出する処理であって、 線形 ·非線形を問わない処理)を行って得られた値を用いて生成または削除の判定 処理を行う場合、強化信号の累積値の履歴を用いて各種の演算処理 (例えば、各累 積値の変化率、各累積値の分散'標準偏差等を算出する処理であって、線形'非線 形を問わな 、処理)を行って得られた値を用いて生成または削除の判定処理を行う 場合等が含まれる。以下の発明においても同様である。 [0016] In order to generate or delete the configuration element "using the enhancement signal or its history given to the configuration element or the cumulative value of the enhancement signal or its history" For example, when performing generation or deletion judgment processing using the enhancement signal or the cumulative value of the enhancement signal as they are, various arithmetic processing (for example, simple sum of each enhancement signal, each enhancement signal) Processing to calculate simple average of signals, weighted sum of each enhancement signal, weighted average of each enhancement signal, weight variance of each enhancement signal, standard deviation, etc. ) Is used to perform generation or deletion judgment processing using the values obtained by performing various processing (for example, the rate of change of each cumulative value, the This includes a process of calculating variance 'standard deviation, etc., and performing generation or deletion determination processing using values obtained by performing processing (regardless of linear' non-linear '). The same applies to the following inventions.
[0017] また、「ノード」により行われる情報処理は、通常の場合には、複数の入力を用いて 1つの出力を得る処理である力 例えばネットワークの末端に位置するノードのような 特殊なノードの場合には、ダミーノードとし、例えば、 1つの入力を用いて 1つの出力 を得る処理、あるいは入力なしに 1つの出力を得る処理等としてもよい。以下の発明 においても同様である。  [0017] In addition, information processing performed by a "node" is usually a process that obtains one output using a plurality of inputs. For example, a special node such as a node located at the end of a network. In this case, a dummy node may be used, for example, a process for obtaining one output using one input or a process for obtaining one output without input. The same applies to the following inventions.
[0018] このような本発明の情報処理システムにおいては、制御対象の状態の評価結果に 応じてネットワークに対して付与する強化信号を生成し、さらにこの強化信号をネット ワークの構成エレメントから他の構成エレメントへ伝播させる。この際、伝播させる強 化信号、すなわち伝播先の構成エレメントに対して付与する強化信号は、伝播元お よび Zまたは伝播先の構成エレメントの入出力状態に応じて生成され、このようにし て構成エレメント毎に個別に付与された強化信号若しくはその履歴または強化信号 の累積値若しくはその履歴を用いて構成エレメント毎に構成エレメントの生成(追加) または削除 (淘汰)を行うか否かの判定を行い、その処理を実行し、ネットワークの構 造を自律的に変化させる。  [0018] In such an information processing system of the present invention, an enhancement signal to be given to the network is generated in accordance with the evaluation result of the state of the controlled object, and this enhancement signal is transmitted from the network constituent elements to other elements. Propagate to constituent elements. At this time, the strengthening signal to be propagated, that is, the strengthening signal to be given to the constituent element of the propagation destination, is generated according to the input / output state of the constituent element of the propagation source and Z or the propagation destination, and configured in this way. It is determined whether to generate (add) or delete (淘汰) a configuration element for each configuration element using the reinforcement signal or its history given individually for each element or the cumulative value of the enhancement signal or its history. This process is executed to change the network structure autonomously.
[0019] 従って、前述した従来の-ユーロジェネティックラーニングによる学習器の場合とは 異なり、ネットワークの構造を変化させるにあたり、ネットワーク全体を評価単位として 評価を行うのではなぐ構成エレメント単位での評価を行い、構成エレメント単位で生 成または削除を行うので、評価に要する時間が短時間で済むようになり、低い時間ォ ーダでネットワークを自律的に構築していくことが可能となるうえ、これに伴って計算コ ストの削減も図られる。 [0019] Therefore, unlike the case of the above-described learner based on -eurogenetic learning, when changing the network structure, the evaluation is performed in units of constituent elements rather than in the evaluation unit of the entire network. Since each element is created or deleted, the time required for evaluation can be shortened, and it is possible to construct a network autonomously in a low time order. Accompanying calculation Strikes can be reduced.
[0020] また、前述した特許文献 2, 3に記載された-ユーラルネットワーク学習方法のように 、ネットワークの使用環境やタスクに応じてネットワークの構造を決定しておき、その 決定された構造の中で-ユーロンユニット間の結合係数の最適化を行うのではなぐ 本発明では、ネットワーク構造そのものをも自律的に変化させ、最適化していくので、 構造決定による環境、タスクへの限定を回避することが可能となる。このため、ネットヮ ークの使用環境やタスクが変化した場合でも、以前の学習結果を既存知識として再 利用する学習を行うことができる可能性が高まり、これらにより前記目的が達成される  [0020] In addition, as in the above-described Patent Documents 2 and 3, the network structure is determined in accordance with the use environment and tasks of the network, and the determined structure is determined. In the present invention, the network structure itself is autonomously changed and optimized in order to avoid limitations on the environment and tasks due to the structure determination. It becomes possible. For this reason, even when the network usage environment and tasks change, there is a high possibility that learning can be performed by reusing previous learning results as existing knowledge, thereby achieving the above objective.
[0021] また、前述した情報処理システムにおいて、制御対象の状態を検出する状態検出 手段または制御対象自身力 制御対象の状態を評価するための状態評価用信号を 取得する状態評価用信号取得手段を備え、強化信号生成手段は、状態評価用信号 取得手段により取得した状態評価用信号に基づき制御対象の状態を評価し、この評 価結果に応じて強化信号を生成する構成としてもょ ヽ。 [0021] Further, in the information processing system described above, a state detection means for detecting the state of the controlled object or a state evaluation signal acquiring means for acquiring a state evaluation signal for evaluating the state of the controlled object itself is controlled. The enhancement signal generation means may be configured to evaluate the state of the controlled object based on the state evaluation signal acquired by the state evaluation signal acquisition means and generate an enhancement signal according to the evaluation result.
[0022] ここで、「状態検出手段」は、例えば、位置、速度、加速度、距離、回転角、回転角 速度、回転角加速度、温度、湿度、圧力、臭い、光、音、振動、触覚等を検出する各 種センサ等である。  Here, the “state detection means” includes, for example, position, velocity, acceleration, distance, rotation angle, rotation angular velocity, rotation angular acceleration, temperature, humidity, pressure, odor, light, sound, vibration, touch, etc. These are various sensors that detect
[0023] このように状態評価用信号取得手段により取得した状態評価用信号に基づき制御 対象の状態を評価する構成とした場合には、人為的判断を介在させることなく制御 対象の状態の評価を行うことが可能となるので、ネットワークの自律的な構築速度を 向上させることが可能となるうえ、目的に沿って一貫した学習を容易に行うことが可能 となる。  [0023] When the state of the control target is evaluated based on the state evaluation signal acquired by the state evaluation signal acquisition unit as described above, the state of the control target is evaluated without intervention of human judgment. This makes it possible to increase the speed of autonomous network construction and to easily perform consistent learning according to the purpose.
[0024] さらに、前述した情報処理システムにおいて、ユーザによる制御対象の状態の評価 結果の入力を受け付ける評価結果入力受付手段を備え、強化信号生成手段は、評 価結果入力受付手段により受け付けた評価結果に応じて強化信号を生成する構成 としてちよい。  [0024] Furthermore, the information processing system described above further includes an evaluation result input receiving unit that receives an input of an evaluation result of the state of the control target by the user, and the enhancement signal generating unit is configured to receive the evaluation result received by the evaluation result input receiving unit. Depending on the situation, the enhancement signal may be generated.
[0025] このように評価結果入力受付手段を備えた構成とした場合には、ユーザの評価結 果に応じて強化信号を生成し、この強化信号を構成エレメントから他の構成エレメント へと伝播させることが可能となるので、ユーザの意思に沿った形で制御対象の制御を 行うことができるようにネットワークの自律的な構築を促すことが可能となる。 [0025] When the evaluation result input receiving means is configured as described above, an enhancement signal is generated according to the user's evaluation result, and this enhancement signal is transmitted from the component element to another component element. Therefore, it is possible to promote the autonomous construction of the network so that the control target can be controlled in accordance with the user's intention.
[0026] なお、「ユーザ」は、 1人でも、複数人でもよい。複数のユーザが同一の制御対象を 使用し、あるいは参照する場合には、後者のように複数のユーザによる評価結果(同 一の制御対象についての異なる状態または同一の状態の評価結果)を受け付けるこ と力 子ましく、例えば、制御対象がネットワーク上の検索エンジンである場合には、ネ ットワークに接続された複数のユーザ端末装置力 送信されてくる各ユーザの評価結 果(目的通りの検索を行うことができた力否力 )を受け付け、検索エンジンの検索アル ゴリズム等を変化させて 、くことができる。  [0026] The number of "users" may be one or more. When multiple users use or refer to the same controlled object, as in the latter case, it is possible to accept evaluation results by multiple users (evaluated results of different or identical states for the same controlled object). For example, if the control target is a search engine on the network, multiple user terminal devices connected to the network will be sent. It is possible to change the search algorithm of the search engine and the like.
[0027] そして、以上に述べた情報処理システムにおいて、学習手段は、強化信号生成手 段により生成された強化信号をネットワークの出力層を構成する全ての出力ノードに 対して均等に付与するとともに、伝播元の構成エレメントをノードとし、伝播先の構成 エレメントを伝播元のノードの入力側リンクとし、伝播元のノードに付与された強化信 号に基づき、伝播元のノードの入出力状態に従って定まる伝播先の入力側リンクのノ ード出力への寄与度に応じ、伝播先の入力側リンクに対して報酬または罰として付与 する強化信号を生成する構成とされて 、ることが望ま U、。  [0027] In the information processing system described above, the learning means equally applies the reinforcement signal generated by the enhancement signal generation means to all the output nodes constituting the output layer of the network. Propagation that is determined according to the input / output status of the source node based on the reinforcement signal given to the source node, with the source element as the node and the destination component as the input side link of the source node. It is desirable to generate an enhanced signal that is given as a reward or punishment to the destination input link according to the degree of contribution to the node output of the destination input link.
[0028] このようにノードからその入力側リンクへ強化信号を伝播させる構成とした場合には 、ネットワークに対して付与された強化信号を出力ノードから逆伝播させていくことが 可能となり、また、伝播先の入力側リンクのノード出力への寄与度に応じて、入力側リ ンクに対して付与する強化信号を生成するので、個々のリンクに対し、妥当な評価を 個別に行うことが可能となり、構成エレメント毎の生成または削除を実現することが可 能となる。  [0028] In this way, when the enhanced signal is propagated from the node to its input side link, the enhanced signal given to the network can be propagated back from the output node, and Depending on the degree of contribution to the node output of the input link at the propagation destination, an enhanced signal to be given to the input link is generated, making it possible to perform reasonable evaluations for each link individually. Therefore, it is possible to realize generation or deletion for each component element.
[0029] また、上述したようにノードからその入力側リンクへ強化信号を伝播させる構成とし た場合において、学習手段は、伝播元の構成エレメントをノードとし、伝播先の構成 エレメントを伝播元のノードの入力側リンクの入力側に結合された入力側ノードとし、 伝播元のノードに付与された強化信号に基づき、伝播元のノードの入出力状態に従 つて定まる入力側リンクのノード出力への寄与度に応じ、伝播先の入力側ノードに対 して報酬または罰として付与する強化信号を生成する構成としてもよい。 [0030] このようにノード力 その入力側リンクの入力側ノードへの強化信号の伝播を行う構 成とした場合には、ノードからその入力側リンクへの強化信号の逆伝播と併せ、ノード 力 その入力側リンクの入力側ノードへの強化信号の逆伝播も行うことが可能となり、 より一層円滑な強化信号の逆伝播を実現することができるようになる。 [0029] Further, in the case where the enhancement signal is propagated from the node to the input side link as described above, the learning means uses the propagation source configuration element as a node and the propagation destination configuration element as the propagation source node. The input side node connected to the input side of the input side link of the input side, and the contribution to the node output of the input side link determined according to the input / output state of the source node based on the reinforcement signal given to the source node Depending on the degree, it may be configured to generate a reinforcement signal to be given as a reward or punishment to the input side node of the propagation destination. [0030] When the node power is configured to propagate the enhanced signal to the input side node of the input side link in this way, the node power is combined with the back propagation of the enhanced signal from the node to the input side link. The back propagation of the enhancement signal to the input side node of the input side link can be performed, and the back propagation of the enhancement signal can be realized more smoothly.
[0031] なお、ノードからノードへの強化信号の伝播は、上記のように伝播元のノード力 伝 播先のノードへ直接に行うのではなぐこれらのノードを連結するリンクを介して、すな わちこれらのノードを連結するリンクに一旦強化信号を蓄え、それを伝播先のノード へ渡すことにより行ってもよ 、。  [0031] It should be noted that the propagation of the reinforcement signal from node to node is not performed via the link connecting these nodes rather than directly to the node of the propagation source node as described above. In other words, it is possible to store the strengthening signal once on the link connecting these nodes and pass it to the destination node.
[0032] さらに、前述したようにノードからその入力側リンクへ強化信号を伝播させる構成とし た場合において、強化信号記憶手段は、リンクに対して付与された強化信号の履歴 または強化信号の累積値をリンク毎に記憶する構成とされ、学習手段は、リンクに対 して付与された強化信号の累積値が閾値を下回ったときに、このリンクを削除する構 成とされて 、ることが望まし!/、。  [0032] Further, in the case where the enhancement signal is propagated from the node to the input side link as described above, the enhancement signal storage means is a history of the enhancement signal given to the link or a cumulative value of the enhancement signal. Is stored for each link, and the learning means is preferably configured to delete this link when the cumulative value of the reinforcement signal given to the link falls below a threshold value. Better!/,.
[0033] ここで、学習手段は、閾値を下回った力否かを判定する際に必要となる強化信号の 累積値を、強化信号記憶手段に記憶された強化信号の履歴を加算する処理を行つ て把握してもよぐ強化信号記憶手段に記憶された強化信号の累積値を読み込んで 把握してもよい。以下の発明の場合も同様である。  [0033] Here, the learning means performs a process of adding the accumulated value of the enhancement signal necessary for determining whether or not the force is below the threshold to the history of the enhancement signal stored in the enhancement signal storage means. Therefore, the cumulative value of the enhancement signal stored in the enhancement signal storage means may be read and grasped. The same applies to the following inventions.
[0034] このようにリンクに対して付与された強化信号の累積値が閾値を下回ったときに、こ のリンクを削除する構成とした場合には、目的通りに制御対象を制御するために役立 たないと考えられるリンク、すなわち不要と思われるリンクの淘汰を行うことが可能とな り、ネットワークの構造を自律的に変化させて 、くことが可能となる。  [0034] If the link is deleted when the cumulative value of the reinforcement signal given to the link falls below the threshold value in this way, it is useful for controlling the control target as intended. It is possible to make a selection of links that cannot be established, that is, links that are considered unnecessary, and it is possible to change the network structure autonomously.
[0035] そして、上記のようにリンクに対して付与された強化信号の累積値が閾値を下回つ たときに、このリンクを削除する構成とした場合において、学習手段は、ノードの入力 側リンクの数が 1以下になったときに、このノードを削除する構成とすることが望ましい  [0035] Then, in the case where the link is deleted when the cumulative value of the enhancement signal given to the link falls below the threshold as described above, the learning means is connected to the input side of the node. It is desirable to delete this node when the number of links becomes 1 or less.
[0036] このようにノードの入力側リンクの数が 1以下になったときに、このノードを削除する 構成とした場合には、目的通りに制御対象を制御するために役立たな ヽと考えられる ノード、すなわち不要と思われるノードの淘汰を行うことが可能となり、ネットワークの 構造を自律的に変化させて 、くことが可能となる。 [0036] As described above, when this node is deleted when the number of links on the input side of the node becomes 1 or less, it is considered to be useful for controlling the control target as intended. It is possible to check nodes that are considered unnecessary. It is possible to change the structure autonomously.
[0037] また、ノードからその入力側リンクへ強化信号を伝播させる構成とした場合において 、伝播元のノードの入力側には、伝播先の入力側リンクの他に、ノード出力に寄与し ないテストリンクが設けられ、強化信号記憶手段は、テストリンクに対して付与された 強化信号の履歴または強化信号の累積値も記憶する構成とされ、学習手段は、テス トリンクに対して付与された強化信号の累積値が閾値を上回ったときに、テストリンク を伝播元のノードの入力側リンクとしてネットワーク構造記憶手段に登録する構成とさ れていることが望ましい。  [0037] In addition, in a configuration in which an enhanced signal is propagated from a node to its input side link, a test that does not contribute to node output in addition to the input side link of the propagation destination is provided on the input side of the propagation source node. A link is provided, and the enhancement signal storage means is configured to store the history of the enhancement signal given to the test link or the cumulative value of the enhancement signal, and the learning means is an enhancement signal given to the test link. It is desirable that the test link be registered in the network structure storage means as the input side link of the propagation source node when the cumulative value of the above exceeds the threshold.
[0038] このようにテストリンクを設けた構成とした場合には、 目的通りに制御対象を制御す るために役立つと考えられるテストリンクを、ノード出力に寄与する実リンクに昇格させ 、正式に入力側リンクとして登録することができるので、自律的なリンクの生成を実現 し、ネットワークの構造を自律的に変化させて 、くことが可能となる。  [0038] When the test link is configured as described above, the test link that is considered to be useful for controlling the control target as intended is promoted to an actual link that contributes to the node output, and formally. Since it can be registered as an input-side link, autonomous link generation can be realized and the network structure can be changed autonomously.
[0039] さらに、上記のようにテストリンクを設けた構成とした場合において、学習手段は、テ ストリンクに対して付与された強化信号の累積値が閾値を下回ったときに、テストリン クを削除し、任意のノードに結合される新たなテストリンクを生成し、ネットワーク構造 記憶手段に登録する構成とされて 、ることが望ま U、。  [0039] Further, in the case where the test link is provided as described above, the learning means performs the test link when the cumulative value of the reinforcement signal given to the test link falls below the threshold value. It is desirable to create a new test link to be deleted, coupled to an arbitrary node, and register it in the network structure storage means.
[0040] このようにテストリンクに対して付与された強化信号の累積値が閾値を下回ったとき に、このテストリンクを削除し、新たなテストリンクを生成する構成とした場合には、新し く生成されるリンク (実リンク)の適切な候補となるテストリンクを用意しておくことができ るので、リンクの適切で、かつ円滑な生成を実現し、ネットワークの構造を自律的に変 化させて!/、くことが可能となる。  [0040] When the cumulative value of the enhancement signal given to the test link falls below the threshold value, the test link is deleted and a new test link is generated. Test links that are appropriate candidates for the links that are generated (real links) can be prepared in advance, enabling appropriate and smooth generation of links and autonomously changing the network structure. Let it be! /
[0041] そして、前述した情報処理システムにおいて、リンクには、このリンクに付随してネッ トワークの出力に寄与しないテストノードが設けられ、このテストノードは、リンクの入力 側ノードに第 1の入力側テストリンクで連結され、かつ、リンクの出力側ノードに出力側 テストリンクで連結されるとともに、任意のノードに第 2の入力側テストリンクで連結され 、学習手段は、伝播元の構成エレメントをリンクとし、伝播先の構成エレメントをテスト ノードとし、伝播元のリンクに付与された強化信号に基づき、伝播元のリンクの出力お よび伝播先のテストノードの出力の状態に応じ、伝播先のテストノードに対して報酬ま たは罰として付与する強化信号を生成する構成とされていることが望ましい。 [0041] In the information processing system described above, the link is provided with a test node that does not contribute to the output of the network accompanying the link, and the test node receives the first input to the input side node of the link. Connected by the side test link, and connected to the output side node of the link by the output side test link, and connected to any node by the second input side test link. It is a link, the propagation destination component is a test node, and the propagation destination test is performed according to the output of the propagation link and the propagation of the propagation test node based on the enhanced signal given to the propagation link. Reward for the node Or it is desirable to be the structure which produces | generates the reinforcement | strengthening signal given as punishment.
[0042] このようにリンクに付随させてテストノードを設ける構成とした場合には、新たに生成 されるノード (実ノード)の候補を用意しておくことが可能となり、ネットワークの構造を 自律的に変化させていくことが可能となる。  [0042] When the test node is provided in association with the link as described above, it is possible to prepare a candidate for a newly generated node (real node), and the network structure is autonomous. It becomes possible to change to.
[0043] また、上記のようにリンクに付随させてテストノードを設ける構成とした場合において 、学習手段は、伝播元の構成エレメントをテストノードとし、伝播先の構成エレメントを テストノードの第 1および第 2の入力側テストリンクとし、伝播元のテストノードに付与さ れた強化信号に基づき、伝播元のテストノードの入出力状態に従って定まる伝播先 の第 1および第 2の入力側テストリンクのテストノード出力への寄与度に応じ、伝播先 の第 1および第 2の入力側テストリンクに対して報酬または罰として付与する強化信号 を生成する構成とされて ヽることが望ま ヽ。  [0043] Further, in the case where the test node is provided in association with the link as described above, the learning means uses the propagation source configuration element as the test node and the propagation destination configuration element as the first and second test nodes. Test of the first and second input side test links of the propagation destination determined as the second input side test link and based on the input / output state of the test node of the propagation source based on the reinforcement signal given to the test node of the propagation source It is desirable to generate an enhanced signal that is given as reward or punishment for the first and second input side test links of the propagation destination according to the contribution to the node output.
[0044] このようにテストノードから第 1および第 2の入力側テストリンクへ強化信号を伝播さ せる構成とした場合には、新たに生成されるリンク(実リンク)の候補を用意しておくこ とが可能となり、ネットワークの構造を自律的に変化させていくことが可能となる。  [0044] When the enhancement signal is propagated from the test node to the first and second input-side test links in this way, a newly generated link (actual link) candidate is prepared. This makes it possible to change the network structure autonomously.
[0045] さらに、上記のようにテストノードから第 1および第 2の入力側テストリンクへ強化信 号を伝播させる構成とした場合において、強化信号記憶手段は、伝播先の第 1およ び第 2の入力側テストリンクに対して付与された強化信号の履歴または強化信号の 累積値もリンク毎に記憶する構成とされ、学習手段は、伝播先の第 1または第 2の入 力側テストリンクに対して付与された強化信号の累積値が閾値を下回ったときに、閾 値を下回った入力側テストリンクを削除し、任意のノードに結合される新たな入力側 テストリンクを生成し、ネットワーク構造記憶手段に登録する構成とされていることが望 ましい。  [0045] Further, in the case where the enhanced signal is propagated from the test node to the first and second input-side test links as described above, the enhanced signal storage means includes the first and second propagation destinations. The history of the enhancement signal given to the two input side test links or the cumulative value of the enhancement signal is also stored for each link, and the learning means is the first or second input side test link of the propagation destination. When the cumulative value of the enhancement signal given to the threshold value falls below the threshold value, the input side test link below the threshold value is deleted, and a new input side test link that is coupled to an arbitrary node is generated. It is desirable that the configuration be registered in the structure storage means.
[0046] このように第 1または第 2の入力側テストリンクに対して付与された強化信号の累積 値が閾値を下回ったときに、閾値を下回った入力側テストリンクを削除し、新たな入力 側テストリンクを生成する構成とした場合には、新しく生成されるリンク(実リンク)の適 切な候補となるテストリンクを用意しておくことができるので、リンクの適切で、かつ円 滑な生成を実現し、ネットワークの構造を自律的に変化させていくことが可能となる。  [0046] When the cumulative value of the enhancement signal given to the first or second input side test link in this way falls below the threshold value, the input side test link below the threshold value is deleted and a new input is made. When the test link is configured to be generated, a test link that is a suitable candidate for a newly generated link (actual link) can be prepared, so the link can be generated appropriately and smoothly. It is possible to autonomously change the network structure.
[0047] なお、第 1の入力側テストリンクには、このリンクの生成時に十分に大きな報酬を付 与しておき、削除されないようにすることが好ましぐこのようにした場合には、実質的 に、第 2の入力側テストリンクのみが削除の対象となる。 [0047] The first input test link is given a sufficiently large reward when this link is generated. If this is done and it is preferable not to be deleted, in effect, only the second input test link is subject to deletion.
[0048] そして、上記のようにテストノードから第 1および第 2の入力側テストリンクへ強化信 号を伝播させる構成とした場合において、強化信号記憶手段は、伝播先の第 1およ び第 2の入力側テストリンクに対して付与された強化信号の履歴または強化信号の 累積値もリンク毎に記憶する構成とされ、学習手段は、伝播先の第 1および第 2の入 力側テストリンクに対して付与された強化信号の累積値がいずれも閾値を上回ったと きに、テストノードを実用化するためにテストノードをネットワークの出力に寄与する実 ノードに昇格させてネットワーク構造記憶手段に登録する構成とされていることが望ま しい。 [0048] Then, in the case where the enhanced signal is propagated from the test node to the first and second input-side test links as described above, the enhanced signal storage means has the first and second propagation destinations. The history of the reinforcement signal given to the two input side test links or the cumulative value of the enhancement signal is also stored for each link, and the learning means is the first and second input side test links of the propagation destination. When the cumulative value of the enhancement signal given to all exceeds the threshold, the test node is promoted to a real node that contributes to the network output and registered in the network structure storage means in order to put the test node into practical use It is desirable to have a configuration that does this.
[0049] このように第 1および第 2の入力側テストリンクに対して付与された強化信号の累積 値がいずれも閾値を上回ったときに、テストノードを実用化する構成とした場合には、 新たにノード (実ノード)を生成 (追加)することが可能となり、ネットワークの構造を自 律的に変化させていくことが可能となる。  [0049] As described above, when the cumulative value of the enhancement signals given to the first and second input side test links exceeds the threshold value, the test node is put into practical use. New nodes (real nodes) can be created (added), and the network structure can be changed autonomously.
[0050] また、以上に述べた情報処理システムにおいて、ノードは、少なくとも 1つの論理回 路を用いて情報処理を行う構成とされて ヽることが望ま ヽ。  [0050] In the information processing system described above, it is desirable that the node be configured to perform information processing using at least one logical circuit.
[0051] ここで、「論理回路」としては、例えば、 AND (論理積)回路、 OR (論理和)回路、 X OR (排他的論理和: Exclusive OR)回路、 NOT (否定)回路、 NAND (否定論理積: Not AND)回路、 NOR (否定論理和: Not OR)回路、 XNOR (排他的論理和の否定: Exclusive Not OR)回路等を用いることができる。  Here, as the “logic circuit”, for example, an AND (logical product) circuit, an OR (logical sum) circuit, an X OR (exclusive OR) circuit, a NOT (negative) circuit, a NAND ( A NOR (Not AND) circuit, a NOR (Negative OR: Not OR) circuit, an XNOR (Negative Exclusive OR: Exclusive Not OR) circuit, or the like can be used.
[0052] このように論理回路を用いてノードを構成した場合には、目的の制御を実現するこ とができる情報処理システムを単純な構造で構築することが可能となる。  [0052] When a node is configured using a logic circuit in this way, an information processing system capable of realizing target control can be constructed with a simple structure.
[0053] また、以上に述べた本発明の情報処理システムにより実現される情報処理方法とし て、以下のような本発明の情報処理方法が挙げられる。  [0053] Further, as an information processing method realized by the information processing system of the present invention described above, the following information processing method of the present invention can be cited.
[0054] すなわち、本発明は、情報処理を行う複数のノードおよびこれらのノードを連結して ノード間の情報伝達を行うリンクを構成エレメントとして備えるネットワークを用いた情 報処理方法であって、構成エレメント間の結合関係を含むネットワークの構造をネット ワーク構造記憶手段に記憶させるとともに、ネットワークの出力生成処理で形成され る構成エレメントの入出力状態を入出力状態記憶手段に記憶させておき、強化信号 生成手段が、ネットワークの出力結果に基づき形成された制御対象の状態の評価結 果に応じてネットワークに対して報酬または罰として付与する強化信号を生成する処 理を行い、学習手段が、強化信号生成手段により生成した強化信号を少なくとも 1つ の構成エレメントに付与し、強化信号を付与された構成エレメントから他の構成エレメ ントへ構成エレメント間の連鎖的な結合関係に従って強化信号を伝播させるために、 順次、伝播元の構成エレメントに付与された強化信号に基づき、入出力状態記憶手 段に記憶された伝播元および Zまたは伝播先の構成エレメントの入出力状態に応じ て伝播先の構成エレメントに対して報酬または罰として付与する強化信号を生成し、 生成した構成エレメントの強化信号またはその累積値を構成エレメント毎に強化信号 記憶手段に記憶させるとともに、構成エレメントに付与された強化信号若しくはその 履歴または強化信号の累積値若しくはその履歴を用いて構成エレメント毎に構成ェ レメントの生成または削除を行ってネットワークの構造を変化させ、変化後のネットヮ ークの構造をネットワーク構造記憶手段に記憶させる処理を行い、出力生成手段が、 ネットワーク構造記憶手段に記憶されたネットワークの構造を参照し、学習手段により 構造を変化させたネットワークを用いてネットワークの出力を生成する処理を行うこと を特徴とするものである。 That is, the present invention is an information processing method using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as a configuration element. The network structure including the connection relationship between the elements is stored in the network structure storage means, and formed by the network output generation process. The input / output states of the constituent elements to be stored are stored in the input / output state storage means, and the reinforcement signal generation means rewards the network according to the evaluation result of the state of the control target formed based on the output result of the network. Alternatively, a process of generating an enhancement signal to be given as punishment is performed, and the learning means assigns the enhancement signal generated by the enhancement signal generation means to at least one component element, and from the component element to which the enhancement signal is given to the other component In order to propagate the enhancement signal to the configuration element according to the chain connection relationship between the configuration elements, the propagation source stored in the input / output state storage unit is sequentially based on the enhancement signal assigned to the configuration element of the propagation source. And Z or the strength given as a reward or punishment to the propagation destination component element according to the input / output status of the propagation destination component element A signal is generated, and the strengthening signal of the generated constituent element or its accumulated value is stored in the strengthening signal storage means for each constituent element, and the strengthening signal given to the constituent element or its history or the cumulative value of the strengthening signal or its history Is used to generate or delete a configuration element for each configuration element, change the network structure, and store the changed network structure in the network structure storage means. The network structure stored in the structure storage means is referred to, and the network output is generated using the network whose structure has been changed by the learning means.
[0055] ここで、「生成した構成エレメントの強化信号またはその累積値を構成エレメント毎 に強化信号記憶手段に記憶させる」ことには、強化信号または強化信号の累積値を 上書き保存する場合と、過去の強化信号または強化信号の過去の累積値を履歴とし て残した状態で強化信号または強化信号の累積値を追加保存する場合とが含まれ る。  [0055] Here, "to store the enhancement signal of the generated component element or its accumulated value in the enhancement signal storage means for each component element" includes the case where the accumulated value of the enhancement signal or the enhancement signal is overwritten and saved, This includes the case where the past enhancement signal or the cumulative value of the enhancement signal is stored as a history while the enhancement signal or the cumulative value of the enhancement signal is additionally stored.
[0056] このような本発明の情報処理方法においては、前述した本発明の情報処理システ ムで得られる作用 '効果がそのまま得られ、これにより前記目的が達成される。  [0056] In such an information processing method of the present invention, the effect obtained by the information processing system of the present invention described above can be obtained as it is, thereby achieving the object.
[0057] また、本発明は、情報処理を行う複数のノードおよびこれらのノードを連結してノー ド間の情報伝達を行うリンクを構成エレメントとして備えるネットワークを用いた情報処 理システムとして、コンピュータを機能させるためのプログラムであって、構成エレメン ト間の結合関係を含むネットワークの構造を記憶するネットワーク構造記憶手段と、ネ ットワークの出力生成処理で形成される構成エレメントの入出力状態を記憶する入出 力状態記憶手段と、ネットワークの出力結果に基づき形成された制御対象の状態の 評価結果に応じてネットワークに対して報酬または罰として付与する強化信号を生成 する強化信号生成手段と、この強化信号生成手段により生成した強化信号を少なく とも 1つの構成エレメントに付与し、強化信号を付与された構成エレメントから他の構 成エレメントへ構成エレメント間の連鎖的な結合関係に従って強化信号を伝播させる ために、順次、伝播元の構成エレメントに付与された強化信号に基づき、入出力状 態記憶手段に記憶された伝播元および Zまたは伝播先の構成エレメントの入出力状 態に応じて伝播先の構成エレメントに対して報酬または罰として付与する強化信号を 生成するとともに、構成エレメントに付与された強化信号若しくはその履歴または強 化信号の累積値若しくはその履歴を用いて構成エレメント毎に構成エレメントの生成 または削除を行ってネットワークの構造を変化させ、変化後のネットワークの構造をネ ットワーク構造記憶手段に記憶させる学習手段と、ネットワーク構造記憶手段に記憶 されたネットワークの構造を参照し、学習手段により構造を変化させたネットワークを 用いてネットワークの出力を生成する出力生成手段と、学習手段により生成された構 成エレメントの強化信号若しくはその履歴または強化信号の累積値若しくはその履 歴を構成エレメント毎に記憶する強化信号記憶手段とを備えたことを特徴とする情報 処理システムとして、コンピュータを機能させるためのものである。 [0057] Further, the present invention provides a computer as an information processing system using a network that includes a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as constituent elements. A network structure storage means for storing a network structure including a connection relationship between constituent elements, and The input / output state storage means for storing the input / output state of the constituent elements formed in the network output generation process, and the network is rewarded or rewarded according to the evaluation result of the state of the control target formed based on the network output result. An enhancement signal generation means for generating an enhancement signal to be given as punishment, and an enhancement signal generated by the enhancement signal generation means is assigned to at least one component element, and the component element to which the enhancement signal is given is given to another component element. In order to propagate the reinforcement signal according to the chain connection relationship between the constituent elements, the propagation source and Z or the Z or the Z stored in the input / output state storage means are sequentially based on the reinforcement signal given to the constituent element of the propagation source. As a reward or punishment for the constituent element of the propagation destination according to the input / output state of the constituent element of the propagation destination The structure of the network is changed by generating or deleting the configuration element for each configuration element using the enhancement signal given to the configuration element or its history, or the cumulative value of the enhancement signal or its history. The network structure storage means stores the changed network structure and the network structure stored in the network structure storage means is referred to, and the network whose structure is changed by the learning means is used. Output generation means for generating output, and reinforcement signal storage means for storing the reinforcement signal of the constituent element generated by the learning means or its history, or the cumulative value of the enhancement signal or its history for each constituent element As an information processing system characterized by It is intended for causing ability.
なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパ タトディスク(CD)を利用した読出し専用メモリ(CD— ROM)、 CDレコーダブル (CD —R)、 CDリライタブル(CD— RW)、デジタル 'バーサタイル'ディスク(DVD)を利用 した読出し専用メモリ(DVD— ROM)、 DVDを利用したランダム'アクセス'メモリ(D VD-RAM)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用 メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ (EEPROM)、フラッ シュ 'メモリ、ランダム'アクセス'メモリ(RAM)等の記録媒体に記録して保存や流通 等させることが可能であるとともに、例えば、ローカル ·エリア ·ネットワーク (LAN)、メ トロポリタン 'エリア'ネットワーク(MAN)、ワイド ·エリア ·ネットワーク(WAN)、インタ 一ネット、イントラネット、ェクストラネット等の有線ネットワーク、あるいは無線通信ネッ トワーク、さらにはこれらの糸且合せ等の伝送媒体を用いて伝送することが可能であり、 また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他の プログラムの一部分であってもよぐあるいは別個のプログラムと共に記録媒体に記 録されていてもよい。 Note that the above program or a part of the above program is, for example, a magneto-optical disk (MO), a read-only memory (CD-ROM) using a compact disk (CD), a CD recordable (CD-R), a CD rewritable ( CD-RW), read-only memory (DVD-ROM) using digital 'Versatile' disc (DVD), random 'access' memory using DVD (D VD-RAM), flexible disc (FD), magnetic tape, Recording to storage media such as hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM), flash 'memory, random'access' memory (RAM), etc. For example, local area network (LAN), metropolitan 'area' network (MAN), wide area network (WAN), internet DOO, intranet, extranet, etc. wired network or a wireless communication network, It is also possible to transmit using a transmission medium such as a network or a combination of these yarns, or to carry it on a carrier wave. Furthermore, the above program may be a part of another program or may be recorded on a recording medium together with a separate program.
発明の効果  The invention's effect
[0059] 以上に述べたように本発明によれば、制御対象の状態の評価結果に応じてネットヮ ークに対して付与する強化信号を生成し、さらにこの強化信号をネットワークの構成 エレメントから他の構成エレメントへ伝播させ、構成エレメント毎に個別に付与された 強化信号若しくはその履歴または強化信号の累積値若しくはその履歴を用いて構成 エレメント毎に評価、生成または削除を行うことにより、ネットワークの構造を自律的に 変化させるので、従来のようにネットワーク全体を評価単位として評価を行う場合に比 ベ、評価に要する時間を短縮でき、低い時間オーダでネットワークを自律的に構築し て!、くことができると!、う効果がある。  [0059] As described above, according to the present invention, an enhancement signal to be applied to the network is generated according to the evaluation result of the state of the controlled object, and the enhancement signal is further transmitted from the network constituent element. Network structure by evaluating, generating, or deleting for each configuration element using the enhancement signal or its history, or the cumulative value of the enhancement signal or its history. The time required for evaluation can be shortened compared to the case where the entire network is evaluated as an evaluation unit as in the past, and the network can be constructed autonomously with a low time order! If you can!
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0060] 以下に本発明の一実施形態について図面を参照して説明する。図 1には、本実施 形態の情報処理システム 10の全体構成が示されている。図 2には、情報処理システ ム 10による処理で用いられるデータの構造が示されている。また、図 3には、ロボット 30の動作制御の全体的な流れが示され、図 4には、ネットワーク 20の処理の流れが 示され、図 5には、中間 ORノード(実ノード)の学習処理の流れが示され、図 6には、 非反転リンクの学習処理の流れが示されている。さらに、図 7は、中間 ORノードの学 習処理の説明図であり、図 8は、中間 ORノードの学習時の強化信号の分配例を示 す図であり、図 9は、中間 ANDノードの学習時の強化信号の分配例を示す図であり 、図 10は、非反転リンク(実リンク)の学習処理の説明図である。そして、図 11には、 初期化の構成が示され、図 12には、学習時の削除処理の構成が示されている。また 、図 13は、出力ノード初期化処理 G4の説明図であり、図 14は、中間 ORノード初期 化処理 G5の説明図であり、図 15は、テスト中間 ORノード初期化処理 G7の説明図で あり、図 16〜図 18は、中間 ORノード削除処理 E1の説明図である。  Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows the overall configuration of the information processing system 10 of the present embodiment. FIG. 2 shows the data structure used in the processing by the information processing system 10. Also, Fig. 3 shows the overall flow of operation control of the robot 30, Fig. 4 shows the flow of processing of the network 20, and Fig. 5 shows learning of the intermediate OR node (real node). The flow of processing is shown, and Fig. 6 shows the flow of learning processing for non-inverted links. Furthermore, Fig. 7 is an explanatory diagram of the learning process of the intermediate OR node, Fig. 8 is a diagram showing an example of distribution of the reinforcement signal during learning of the intermediate OR node, and Fig. 9 is a diagram of the intermediate AND node. FIG. 10 is a diagram illustrating an example of distribution of reinforcement signals during learning, and FIG. 10 is an explanatory diagram of learning processing for a non-inverted link (real link). FIG. 11 shows the configuration of initialization, and FIG. 12 shows the configuration of deletion processing during learning. FIG. 13 is an explanatory diagram of the output node initialization process G4, FIG. 14 is an explanatory diagram of the intermediate OR node initialization process G5, and FIG. 15 is an explanatory diagram of the test intermediate OR node initialization process G7. FIGS. 16 to 18 are explanatory diagrams of the intermediate OR node deletion processing E1.
[0061] 図 1において、情報処理システム 10は、ネットワーク 20を用いて制御対象 (本実施 形態では、一例としてロボット 30とする。)の制御を行う情報処理システムであり、 1台 または複数台のコンピュータにより構成されている。ネットワーク 20は、コンピュータ内 に構成された情報処理用のネットワークであり、入力層、中間層、および出力層に配 置されてそれぞれ個別に情報処理を行う複数の入力ノード 21、複数の中間ノード 22 、および複数の出力ノード 23と、これらのノード 21, 22, 23を連結してノード間の情 報伝達を行うリンク 24とを備えて構成されている。 In FIG. 1, an information processing system 10 uses a network 20 to control objects (this implementation In the embodiment, the robot 30 is taken as an example. Is an information processing system that consists of one or more computers. The network 20 is an information processing network configured in a computer. The network 20 is arranged in the input layer, the intermediate layer, and the output layer, and each of the plurality of input nodes 21 and the plurality of intermediate nodes 22 performs information processing individually. And a plurality of output nodes 23, and a link 24 that links these nodes 21, 22 and 23 to transmit information between the nodes.
[0062] 各ノード 21, 22, 23およびリンク 24は、学習器の作成に用いる素子として機能する 自己組織化ネットワーク素子(SONE: Self-Organizing Network Elements)である。自 己組織ィ匕ネットワーク素子(SONE)とは、これらの素子に死滅条件、新たな素子の 生成機能、強化信号生成 ·伝播機能等を持たせることにより、ネットワーク 20を自律 的に構築していくことができる回路素子である。 [0062] Each of the nodes 21, 22, 23 and the link 24 is a self-organizing network element (SONE) that functions as an element used to create a learning device. Self-organized network elements (SONE) is a network element (SONE) that autonomously constructs the network 20 by giving these elements death conditions, new element generation functions, enhanced signal generation / propagation functions, etc. It is a circuit element that can.
[0063] 制御対象は、本実施形態では、一例としてケぺラロボットと称されるロボット 30として 説明を行うものとする。但し、本発明の情報処理システムの制御対象は、ケペラロボッ トに限定されるものではなぐまた、ロボットに限定されるものでもない。  In the present embodiment, the control target is described as a robot 30 called a Keppera robot as an example. However, the control target of the information processing system of the present invention is not limited to the Kepera robot and is not limited to the robot.
[0064] ロボット 30は、図 1に示すように、右車輪 31およびこれを駆動するモータ 32と、左車 輪 33およびこれを駆動するモータ 34と、進行方向の前方の部分に 6本、後方の部分 に 2本設けられた赤外線センサ 35とを備えて構成されている。このロボット 30は、壁 3 6への衝突を回避しながら前方へ進んでいくロボットである。 8本の赤外線センサ 35 は、ロボット 30と壁 36との距離 Dを検出するために設けられて 、る。  As shown in FIG. 1, the robot 30 includes a right wheel 31 and a motor 32 that drives the right wheel 31, a left wheel 33 and a motor 34 that drives the right wheel 31, and six in the forward part in the traveling direction, In this portion, two infrared sensors 35 are provided. This robot 30 is a robot that moves forward while avoiding a collision with the wall 36. The eight infrared sensors 35 are provided to detect the distance D between the robot 30 and the wall 36.
[0065] ノードは、情報処理装置として機能するものであり、本実施形態では、それぞれ論 理回路 (AND回路または OR回路)により構成され、入力ノード 21、 4種類の中間ノ ード 22 (中間 ANDノード、中間 ORノード、テスト中間 ANDノード、テスト中間 ORノ 一ド)、出力ノード 23の合計 6種類のノードがある。ノードは、基本的には、複数の入 力から 1つの出力が得られる論理回路により構成される力 入力ノード 21は、出力の みを行うダミーノードである。なお、本実施形態では、 AND回路および OR回路を用 いているが、 XOR回路等、他の種類の論理回路を用いてもよぐあるいは複数の論 理回路を組み合わせて 1つのノードとしてもよい。  [0065] The node functions as an information processing device. In this embodiment, each node is configured by a logical circuit (AND circuit or OR circuit), and includes an input node 21 and four types of intermediate nodes 22 (intermediate). There are 6 types of nodes: AND node, intermediate OR node, test intermediate AND node, test intermediate OR node), and output node 23. The node is basically a force input node 21 composed of a logic circuit that can obtain one output from a plurality of inputs, and is a dummy node that performs only output. In this embodiment, an AND circuit and an OR circuit are used, but other types of logic circuits such as an XOR circuit may be used, or a plurality of logic circuits may be combined to form one node.
[0066] 入力ノード 21は、 8本の赤外線センサ 35に対応して設けられている。すなわち、 1 本の赤外線センサ 35のセンサ信号が 16ビットであり、 8本では、 16 X 8 = 128ビットと なるので、 1ビットに対し、 1つの入力ノード 21を割り当てるとすると、本実施形態では 、入力ノード 21の個数は 128個となる。 The input node 21 is provided corresponding to the eight infrared sensors 35. Ie 1 The sensor signal of the infrared sensor 35 is 16 bits, and in the case of eight, 16 X 8 = 128 bits. Therefore, if one input node 21 is assigned to one bit, in this embodiment, the input node The number of 21 is 128.
[0067] 出力ノード 23は、 2個のモータ 32, 34に対応して設けられている。すなわち、 1個 のモータ出力信号(回転数)が 16ビットであり、左右 2個では、 16 X 2 = 32ビットとな るので、 1ビットに対し、 1つの出力ノード 23を割り当てるとすると、本実施形態では、 出力ノード 23の個数は 32個となる。出力ノード 23は、本実施形態では、全て ORノー ドとする力 ANDノードを混在させてもよい。  The output node 23 is provided corresponding to the two motors 32 and 34. In other words, one motor output signal (rotation speed) is 16 bits, and the left and right two are 16 X 2 = 32 bits, so if one output node 23 is assigned to one bit, this In the embodiment, the number of output nodes 23 is 32. In this embodiment, the output node 23 may be a mixture of force AND nodes that are all OR nodes.
[0068] なお、入力ノード 21および出力ノード 23の個数は固定されているが、中間ノード 22 の個数は、ネットワーク 20の構造が自律的に変化することから変動する。  [0068] Although the number of input nodes 21 and output nodes 23 is fixed, the number of intermediate nodes 22 varies because the structure of the network 20 changes autonomously.
[0069] リンクは、本実施形態では、反転リンク(出力が入力と反転するリンク)と、非反転リン クと、テスト反転リンクと、テスト非反転リンクとの合計 4種類のリンクがある。  [0069] In this embodiment, there are four types of links, that is, an inverted link (a link whose output is inverted from the input), a non-inverted link, a test inverted link, and a test non-inverted link.
[0070] 図 1において、情報処理システム 10は、センサ信号取得手段 41と、状態評価用信 号取得手段 42と、強化信号生成手段 43と、モータ出力信号送信手段 44と、ネットヮ ーク処理手段 50と、ロボット情報記憶手段 60と、ネットワーク情報記憶手段 61と、ノ ード情報記憶手段 62と、リンク情報記憶手段 63とを備えて構成されている。  In FIG. 1, the information processing system 10 includes a sensor signal acquisition unit 41, a state evaluation signal acquisition unit 42, an enhancement signal generation unit 43, a motor output signal transmission unit 44, and a network processing unit. 50, robot information storage means 60, network information storage means 61, node information storage means 62, and link information storage means 63.
[0071] センサ信号取得手段 41は、 8本の赤外線センサ 35から出力されたセンサ信号を取 得し、ロボット情報記憶手段 60に書き込む処理を行うものである。  [0071] The sensor signal acquisition unit 41 performs a process of acquiring the sensor signals output from the eight infrared sensors 35 and writing them in the robot information storage unit 60.
[0072] 状態評価用信号取得手段 42は、制御対象であるロボット 30の状態 (行動結果)を 評価するための状態評価用信号を取得する処理を行うものである。本実施形態では 、状態評価用信号として、センサ信号取得手段 41により取得されてロボット情報記憶 手段 60 (図 2参照)に記憶されている赤外線センサ 35によるセンサ信号と、モータ出 力信号送信手段 44によりロボット情報記憶手段 60から読み込まれてロボット 30のモ ータ 32, 34へ送信されるモータ出力信号(回転数)とを用いる。従って、赤外線セン サ 35は、制御対象であるロボット 30の状態を検出する状態検出手段として機能する 。また、本実施形態では、モータ出力信号をロボット情報記憶手段 60から読み込ん で取得しているが、ロボット情報記憶手段 60に記憶されたモータ出力信号は、そのま まロボット 30へ送信されるので、モータ出力信号をロボット 30から取得していると捉え ることもできる。そして、このようにモータ 32, 34へ送信される制御信号としてのモー タ出力信号ではなぐ状態検出手段により検出した実際のモータ出力信号 (実際の 回転数)を、状態評価用信号として用いてもよい。なお、ロボット 30が実機ロボットで はなぐディスプレイ画面上に表示される仮想的なロボットである場合には、制御信号 としてのモータ出力信号と実際のモータ出力信号 (実際の回転数)とは同じである。ま た、状態評価用信号取得手段 42は、ロボット情報記憶手段 60に記憶された 1ステツ プ前の状態指標値 A6 (図 2参照)も、状態評価用信号として取得する。 The state evaluation signal acquisition means 42 performs a process of acquiring a state evaluation signal for evaluating the state (behavior result) of the robot 30 that is the control target. In the present embodiment, the sensor signal from the infrared sensor 35 acquired by the sensor signal acquisition unit 41 and stored in the robot information storage unit 60 (see FIG. 2) and the motor output signal transmission unit 44 as state evaluation signals. Thus, the motor output signal (rotation speed) read from the robot information storage means 60 and transmitted to the motors 32 and 34 of the robot 30 is used. Therefore, the infrared sensor 35 functions as a state detection unit that detects the state of the robot 30 that is a control target. In this embodiment, the motor output signal is read and acquired from the robot information storage means 60, but the motor output signal stored in the robot information storage means 60 is transmitted to the robot 30 as it is. It is assumed that the motor output signal is acquired from the robot 30. You can also. Then, the actual motor output signal (actual rotational speed) detected by the state detection means, not the motor output signal as the control signal transmitted to the motors 32 and 34, can be used as the state evaluation signal. Good. When the robot 30 is a virtual robot displayed on a display screen that is not an actual robot, the motor output signal as the control signal and the actual motor output signal (actual rotation speed) are the same. is there. The state evaluation signal acquisition unit 42 also acquires the state index value A6 (see FIG. 2) one step before stored in the robot information storage unit 60 as a state evaluation signal.
[0073] 強化信号生成手段 43は、状態評価用信号取得手段 42により取得した状態評価用 信号に基づき、ネットワーク 20の出力結果に基づき形成された制御対象であるロボッ ト 30の状態 (行動結果)を評価し、その評価結果に応じ、ネットワーク 20に対して報 酬または罰として付与する強化信号を生成する処理を行うものである。この際、強化 信号生成手段 43は、赤外線センサ 35によるセンサ信号に基づき、ロボット 30と壁 36 との相対的な距離 Dを把握し、ロボット 30が壁 36から遠ざ力る動きをしたときには報 酬 (プラスの強化信号)を与え、壁 36に近づく動きをしたときには罰 (マイナスの強化 信号)を与える。また、モータ出力信号に基づき、ロボット 30が直進行動をしているか 否かを把握し、直進しているときには報酬 (プラスの強化信号)を与え、直進していな いときには罰(マイナスの強化信号)を与える。  [0073] The reinforcement signal generation means 43 is based on the state evaluation signal acquired by the state evaluation signal acquisition means 42, and the state of the robot 30 that is the control target formed based on the output result of the network 20 (action result). In response to the evaluation result, processing is performed to generate a reinforcement signal that is given to the network 20 as a reward or punishment. At this time, the reinforcement signal generating means 43 grasps the relative distance D between the robot 30 and the wall 36 based on the sensor signal from the infrared sensor 35, and reports when the robot 30 moves away from the wall 36. A reward (positive reinforcement signal) is given, and a punishment (minus reinforcement signal) is given when moving toward wall 36. Also, based on the motor output signal, it is ascertained whether or not the robot 30 is moving straight, giving reward (positive reinforcement signal) when traveling straight, and punishment (negative reinforcement signal) when not traveling straight. )give.
[0074] より具体的には、強化信号生成手段 43は、例えば、赤外線センサ 35によるセンサ 信号のうちの少なくとも 1つが、閾値 (例えばゼロ)より大きな値となっていた場合には 、ロボット 30が壁 36の近傍にいることになるので、 8個のセンサ信号の値を合計し、そ の合計値に— 1を乗じ、さらに必要に応じて定数を乗じ、この値を現在のロボット 30の 状態を示す状態指標値とし、ロボット情報記憶手段 60の現在の状態指標値 A5に書 き込む。また、赤外線センサ 35によるセンサ信号の合計値力 閾値 (例えばゼロ)より 大きな値となっていた場合に、この合計値に一 1を乗じ、さらに必要に応じて定数を 乗じてもよい。従って、壁 36に接近している程、マイナスの絶対値が大きくなる。そし て、この現在の状態指標値から、 1ステップ前のロボット 30の状態を示す状態指標値 (同様にして算出されてロボット情報記憶手段 60に記憶されていた値であり、状態評 価用信号取得手段 42により取得したものである。)を減じることにより、ステップ間の センサ信号の差分をとり、得られた値をネットワーク 20に付与する強化信号とする。こ れにより、ロボット 30が壁 36から遠ざかれば、強化信号はプラス (報酬)となり、壁 36 に近づけばマイナス (罰)となる。その後、次回のステップの処理のために、現在の状 態指標値を 1ステップ前の状態指標値としてロボット情報記憶手段 60に保存する。ま た、赤外線センサ 35によるセンサ信号のいずれもが閾値 (例えばゼロ)以下の値とな つていた場合には、ロボット 30が壁 36の近傍にはいないことになるので、ロボット 30 の左右のモータ 32, 34の回転数が同じ力否かを判断し、回転数が同じ場合には、直 進していると判断し、「 + 1」の強化信号 (報酬)を与え、回転数が同じでない場合に は、直進していないと判断し、「― 0. 01」の強化信号 (小さな罰)を与える。 [0074] More specifically, the enhancement signal generating means 43, for example, determines that the robot 30 is in a state where at least one of the sensor signals from the infrared sensor 35 has a value larger than a threshold value (for example, zero). Since we are in the vicinity of wall 36, we sum the values of the 8 sensor signals, multiply the sum by 1 and then multiply by a constant if necessary. Is written in the current state index value A5 of the robot information storage means 60. Further, when the total value force threshold (for example, zero) of the sensor signal from the infrared sensor 35 is larger, this total value may be multiplied by 1 and further multiplied by a constant as necessary. Therefore, the closer to the wall 36, the larger the absolute value of minus. Then, from this current state index value, the state index value indicating the state of the robot 30 one step before (the value calculated in the same manner and stored in the robot information storage means 60, the state evaluation signal It is acquired by the acquisition means 42.) The difference between the sensor signals is taken, and the obtained value is used as an enhancement signal to be given to the network 20. As a result, if the robot 30 moves away from the wall 36, the reinforcement signal becomes positive (reward), and if it approaches the wall 36, it becomes negative (punishment). Thereafter, the current state index value is stored in the robot information storage means 60 as the state index value of the previous step for the processing of the next step. If any of the sensor signals from the infrared sensor 35 is less than or equal to a threshold value (for example, zero), the robot 30 is not in the vicinity of the wall 36. It is determined whether the motors 32 and 34 have the same rotation speed. If the rotation speeds are the same, it is determined that the motors are moving straight, and a reinforcement signal (reward) of “+1” is given, and the rotation speeds are the same. If it is not, it is judged that the vehicle is not moving straight, and a reinforcement signal of “-0.01” is given (small punishment).
[0075] モータ出力信号送信手段 44は、ネットワーク 20の出力結果に基づきロボット情報 記憶手段 60に書き込まれたモータ出力信号を、ロボット 30のモータ 32, 34へ送信 する処理を行うものである。  The motor output signal transmitting unit 44 performs processing for transmitting the motor output signal written in the robot information storage unit 60 to the motors 32 and 34 of the robot 30 based on the output result of the network 20.
[0076] ネットワーク処理手段 50は、ネットワーク 20を用いた処理を行うものであり、学習手 段 51と、入力変換手段 52と、出力生成手段 53と、出力変換手段 54とを備えて構成 されている。  [0076] The network processing means 50 performs processing using the network 20, and includes a learning means 51, an input conversion means 52, an output generation means 53, and an output conversion means 54. Yes.
[0077] 学習手段 51は、強化信号生成手段 43により生成した強化信号を全ての出力ノード 23に均等に付与し、出力層から中間層へ、さらに中間層から入力層へと、順次、強 化信号を逆伝播させる処理、すなわち各リンク 24、各中間ノード 22、各入力ノード 21 へ、構成エレメント間(ノードとリンクとの間、およびノード同士の間)の連鎖的な結合 関係に従って強化信号を伝播させる処理を行うものである。この際、学習手段 51は、 伝播元の構成エレメント (ノードまたはリンク)に付与された強化信号に基づき、伝播 元および Zまたは伝播先の構成エレメントの入出力状態に応じて、伝播先の構成ェ レメントに対して報酬または罰として付与する強化信号を生成する。また、学習手段 5 1は、構成エレメント (ノードまたはリンク)に付与された強化信号の累積値を用いて、 構成エレメント毎に構成エレメントの生成または削除を行ってネットワーク 20の構造を 変化させ、変化後のネットワーク 20の構造を、ネットワーク構造記憶手段として機能 するネットワーク情報記憶手段 61、ノード情報記憶手段 62、およびリンク情報記憶手 段 63 (図 2参照)に登録する。なお、学習処理の詳細は、後述する。 [0078] 入力変換手段 52は、ロボット情報記憶手段 60に記憶されたセンサ信号を 2進数に 変換し、各入力ノード 21の出力として設定する処理を行うものである。 [0077] The learning unit 51 equally applies the enhancement signal generated by the enhancement signal generation unit 43 to all the output nodes 23, and sequentially strengthens from the output layer to the intermediate layer, and further from the intermediate layer to the input layer. The signal is propagated back to each link 24, each intermediate node 22, and each input node 21 according to the chain connection relationship between the constituent elements (between nodes and links and between nodes). The process to propagate is performed. At this time, the learning means 51 determines the propagation destination configuration element according to the input / output state of the propagation source and the Z or propagation destination configuration element based on the reinforcement signal given to the propagation configuration element (node or link). Generates a reinforcement signal that is given as a reward or punishment for the rement. In addition, the learning means 51 uses the accumulated value of the reinforcement signal assigned to the configuration element (node or link) to generate or delete the configuration element for each configuration element to change the structure of the network 20 and change it. The structure of the subsequent network 20 is registered in the network information storage means 61, the node information storage means 62, and the link information storage means 63 (see FIG. 2) that function as network structure storage means. Details of the learning process will be described later. The input conversion means 52 performs a process of converting the sensor signal stored in the robot information storage means 60 into a binary number and setting it as the output of each input node 21.
[0079] 出力生成手段 53は、ネットワーク構造記憶手段として機能するネットワーク情報記 憶手段 61、ノード情報記憶手段 62、およびリンク情報記憶手段 63 (図 2参照)に記 憶されたネットワーク 20の構造を参照し、学習手段 51により構造を変化させたネット ワーク 20を用いて、ネットワーク 20の出力を生成する処理を行うものである。この出力 生成手段 53は、各中間ノード 22および各出力ノード 23を構成する個々の論理回路 の機能(出力生成機能)を、プログラムを実行して実現するものである。  [0079] The output generation means 53 has the structure of the network 20 stored in the network information storage means 61, the node information storage means 62, and the link information storage means 63 (see FIG. 2) that function as network structure storage means. The processing for generating the output of the network 20 is performed using the network 20 whose structure is changed by the learning means 51 with reference to the network 20. The output generation means 53 realizes the function (output generation function) of each logic circuit constituting each intermediate node 22 and each output node 23 by executing a program.
[0080] 出力変換手段 54は、各出力ノード 23の出力(2進数)を実数に変換し、モータ出力 信号(回転数)としてロボット情報記憶手段 60に書き込む処理を行うものである。  [0080] The output conversion means 54 performs processing for converting the output (binary number) of each output node 23 into a real number and writing it in the robot information storage means 60 as a motor output signal (rotation number).
[0081] 図 2において、ロボット情報記憶手段 60は、センサ信号取得手段 41により取得した 8本の赤外線センサ 35によるセンサ信号である入力配列 A1 (実数 X 8、すなわち各 赤外線センサ 35のセンサ信号に対応する Al (1)〜A1 (8)力もなる。 )と、左右のモ ータ出力信号 (回転数)である出力配列 A2 (実数 X 2、すなわち各モータ出力信号 に対応する A2 (l) , A2 (2)力もなる。)と、ネットワーク情報記憶手段 61のアドレスで あるネットワークアドレス A3と、強化信号生成手段 43により生成されてネットワーク 20 に対して付与される強化信号 A4 (実数)と、現在のロボット 30の状態を指標する状態 指標値 A5 (実数)と、 1ステップ前のロボット 30の状態を指標する状態指標値 A6 (実 数)とを記憶するものである。ここで、 1ステップ前というときの「1ステップ」とは、図 3の ステップ S5〜S9のループ処理を単位とする 1巡の処理という意味であり、ループを 構成する個々のステップ S5〜S9毎の処理を意味するものではない。  In FIG. 2, the robot information storage means 60 includes an input array A1 (real number X 8, ie, sensor signals of each infrared sensor 35, which are sensor signals from the eight infrared sensors 35 acquired by the sensor signal acquisition means 41. The corresponding Al (1) to A1 (8) force)) and the output array A2 (real number X2, that is, A2 (l) corresponding to each motor output signal) are the left and right motor output signals (rotations). , A2 (2) power)), and the network address A3 which is the address of the network information storage means 61, the reinforcement signal A4 (real number) generated by the reinforcement signal generation means 43 and given to the network 20, and A state index value A5 (real number) that indicates the current state of the robot 30 and a state index value A6 (real number) that indicates the state of the robot 30 one step before are stored. Here, “one step” when referring to one step means one round of processing in units of the loop processing of steps S5 to S9 in FIG. 3, and each step S5 to S9 constituting the loop. It does not mean that processing.
[0082] なお、ネットワーク 20に対して付与される強化信号 A4は、後述するネットワーク情 報記憶手段 61に記憶される強化信号 B4と同じであるため、強化信号生成手段 43が 、生成した強化信号を、ロボット情報記憶手段 60の強化信号 A4ではなぐネットヮー ク情報記憶手段 61の強化信号 B4に直接に書き込むようにすれば、強化信号 A4の ためのメモリ確保は省略してもよい。また、現在のロボット 30の状態を指標する状態 指標値は、一旦、ロボット情報記憶手段 60の現在の状態指標値 A5に書き込まれ、 その後、ロボット情報記憶手段 60に書き込まれた現在の状態指標値 A5と、ロボット 情報記憶手段 60に記憶されている 1ステップ前の状態指標値 A6とを用いて強化信 号の算定処理が行われるようになつている力 ロボット情報記憶手段 60に 1ステップ 前の状態指標値 A6が記憶されて 、れば、ロボット情報記憶手段 60の現在の状態指 標値 A5への書き込みを行わなくても、強化信号の算定処理は行うことができるので、 現在の状態指標値 A5のためのメモリ確保は省略してもよい。 [0082] Note that the enhancement signal A4 given to the network 20 is the same as the enhancement signal B4 stored in the network information storage means 61 described later, and therefore the enhancement signal generation means 43 generates Is directly written in the enhancement signal B4 of the network information storage means 61, which is not the same as the reinforcement signal A4 of the robot information storage means 60, the memory for the enhancement signal A4 may be omitted. The state index value that indicates the current state of the robot 30 is once written in the current state index value A5 of the robot information storage unit 60, and then the current state index value written in the robot information storage unit 60 A5 and robot The force that is used to calculate the reinforcement signal using the state index value A6 of the previous step stored in the information storage means 60. The state index value A6 of the previous step in the robot information storage means 60 Stored in the robot information storage means 60, it is possible to perform the process of calculating the enhancement signal without writing to the current state index value A5. The memory reservation may be omitted.
[0083] ネットワーク情報記憶手段 61は、ノード情報記憶手段 62の中の各入力ノード 21の 情報を記憶する部分のアドレスである入力ノードアドレス B1 (可変長配列であり、各 入力ノード 21に対応する Bl (1) , B1 (2) · ··Β1 (m)…からなる。 )と、ノード情報記憶 手段 62の中の各中間ノード 22の情報を記憶する部分のアドレスである中間ノードア ドレス B2 (可変長配列であり、各中間ノード 22に対応する Β2 (1) , Β2 (2) · ··Β2 (η) …からなる。)と、ノード情報記憶手段 62の中の各出力ノード 23の情報を記憶する部 分のアドレスである出力ノードアドレス Β3 (可変長配列であり、各出力ノード 23に対 応する Β3 (1) , Β3 (2) · ··Β3 ( …からなる。)と、強化信号生成手段 43により生成さ れてネットワーク 20に対して付与される強化信号 Β4 (実数)とを記憶するものである。  [0083] The network information storage means 61 is an input node address B1 (which is a variable length array and corresponds to each input node 21) which is an address of a part for storing information of each input node 21 in the node information storage means 62. Bl (1), B1 (2) ··· Β1 (m) ...) and intermediate node address B2 (which is the address of the part storing the information of each intermediate node 22 in the node information storage means 62 ( A variable-length array consisting of Β2 (1), Β2 (2) ··· Β2 (η)… corresponding to each intermediate node 22), and information on each output node 23 in the node information storage means 62 The output node address Β3 (which is a variable-length array, corresponding to each output node 23, Β3 (1), Β3 (2) ··· Β3 (consists of ...) The enhanced signal に よ り 4 (real number) generated by the signal generation means 43 and given to the network 20 is written. It is something to remember.
[0084] ノード情報記憶手段 62は、 6種類のノードのそれぞれについて複数ずつ存在する 各ノードの情報を個別に記憶するものであり、各ノードについて、リンク情報記憶手段 63の中の当該ノードの入力側リンクの情報を記憶する部分のアドレスである入力側リ ンクアドレス C1 (可変長配列であり、各入力側リンクに対応する CI (1) , CI (2) -Cl (k)…からなる。)と、リンク情報記憶手段 63の中の当該ノードの出力側リンクの情報 を記憶する部分のアドレスである出力側リンクアドレス C2 (可変長配列であり、各出力 側リンクに対応する C2 (l) , C2 (2) ' "C2 (h)…からなる。)と、ネットワーク情報記憶 手段 61のアドレスであるネットワークアドレス C3と、リンク情報記憶手段 63の中の当 該ノードの入力側に設けられたテストリンクの情報を記憶する部分のアドレスであるテ ストリンクアドレス C4と、当該ノードが ANDノードか ORノードかを識別するための AN D-ORノードフラグ C5 (lビットであり、 ANDノードであれば「True (または 1)」、 ORノ ードであれば「False (または 0)」となる。)と、当該ノードが入力ノード 21であるか否か を識別するための入力ノードフラグ C6 (1ビットであり、入力ノードであれば「True (ま たは 1)」、入力ノードでなければ「False (または 0)」となる。)と、当該ノードが出力ノー ド 23である力否かを識別するための出力ノードフラグ C7 (lビットであり、出力ノードで あれば「True (または 1)」、出力ノードでなければ「False (または 0)」となる。)と、当該 ノードがテストノードである力否かを識別するためのテストノードフラグ C8 (lビットであ り、テストノードであれば「True (または 1)」、テストノードでなければ「False (または 0)」 となる。)と、当該ノードの出力 C9 (lビットであり、「True (または 1)」か「False (または 0 )」となる。)と、当該ノードに付与された強化信号の合計値 C10 (実数であるが、合計 値とは各ステップの累積値のことではなぐ各伝播元の構成エレメントから伝播された 強化信号の合計値という意味である。)とを記憶するものである。このノード情報記憶 手段 62では、ノードの追加'削除に従って、これらのノードに対応するメモリの追加' 削除を動的に行う。 [0084] The node information storage means 62 individually stores information on each of the six types of nodes, and the input of the node in the link information storage means 63 for each node. Input side link address C1 (variable length array, which is the address of the part that stores side link information, and consists of CI (1), CI (2) -Cl (k) ... corresponding to each input side link. ) And the output side link address C2 (the variable length array, C2 (l) corresponding to each output side link, which is the address of the part that stores the output side link information of the node in the link information storage means 63 , C2 (2) '"C2 (h) ..." and the network address C3 which is the address of the network information storage means 61 and the input side of the corresponding node in the link information storage means 63 Unit for storing test link information Test link address C4, which is the address of the node, and AN D-OR node flag C5 to identify whether the node is an AND node or an OR node (l bit, "True (or 1)" if AND node) If it is an OR node, it will be “False (or 0)”.) And the input node flag C6 (1 bit, which identifies whether the node is the input node 21 or not) “True (or 1)” if present, “False (or 0)” if not an input node). Output node flag C7 for identifying whether the power is 23 or not (7 bit, “True (or 1)” if it is an output node, “False (or 0)” if it is not an output node. ) And a test node flag C8 (l bit for identifying whether the node is a test node or not, “True (or 1)” if it is a test node, “False ( Or 0) "), and the output C9 of the node (l bit," True (or 1) "or" False (or 0) ") and the enhancement signal given to the node The total value of C10 (which is a real number, but the total value is not the cumulative value of each step, but means the total value of the enhancement signal propagated from each constituent element of the propagation source). is there. This node information storage means 62 dynamically adds / deletes memory corresponding to these nodes in accordance with the addition / deletion of nodes.
[0085] なお、ノード情報記憶手段 62において、当該ノードがテストノードの場合には、入力 側リンクアドレス C1は、第 1および第 2の入力側テストリンクアドレス CI (CI (1)および C1 (2)のみ)となり、出力側リンクアドレス C2は、出力側テストリンクアドレス C2 (C2 ( 1)のみ)となり、テストリンクアドレス C4は無くなる。なお、テストリンクとは、出力に寄 与しないリンクを意味し、付随するテストノードを所有していないリンクである。一方、 実リンクというときは、出力に寄与する実用化されたリンクを意味し、付随するテストノ ードを所有して ヽるリンクである。  In the node information storage means 62, when the node is a test node, the input side link address C1 is the first and second input side test link addresses CI (CI (1) and C1 (2 ) Only), the output side link address C2 becomes the output side test link address C2 (C2 (1) only), and the test link address C4 disappears. Note that the test link means a link that does not contribute to the output and does not have an associated test node. On the other hand, a real link means a practical link that contributes to output, and is a link that owns an associated test node.
[0086] リンク情報記憶手段 63は、 4種類のリンクのそれぞれについて複数ずつ存在する各 リンクの情報を個別に記憶するものであり、各リンクについて、ノード情報記憶手段 62 の中の当該リンクの入力側ノードの情報を記憶する部分のアドレスである入力側ノー ドアドレス D1と、ノード情報記憶手段 62の中の当該リンクの出力側ノードの情報を記 憶する部分のアドレスである出力側ノードアドレス D2と、ネットワーク情報記憶手段 6 1のアドレスであるネットワークアドレス D3と、ノード情報記憶手段 62の中の当該リン クに付随するテストノードの情報を記憶する部分のアドレスであるテストノードアドレス D4と、当該リンクが反転リンクであるか非反転リンクであるかを識別するための反転' 非反転フラグ D5 (lビットであり、反転リンクであれば「True (または 1)」、非反転リンク であれば「False (または 0)」となる。)と、当該リンクがテストリンクである力否かを識別 するためのテストリンクフラグ D6 (lビットであり、テストリンクであれば「True (または 1) 」、テストリンクでなければ「False (または 0)」となる。)と、当該リンクの出力 D7 (1ビット であり、「True (または 1)」か「False (または 0)」となる。)と、当該リンクに対して付与さ れた強化信号の累積値 D8 (実数であり、複数のステップの累積値である。)と、当該リ ンクに対して付与された強化信号 D9 (実数であり、 1ステップ分の値である。)とを記 憶するものである。このリンク情報記憶手段 63では、リンクの追加'削除に従って、こ れらのリンクに対応するメモリの追カ卩 ·削除を動的に行う。 [0086] The link information storage means 63 individually stores information on a plurality of links for each of the four types of links. For each link, the input of the link in the node information storage means 62 is stored. The input side node address D1 which is the address of the part storing the information of the side node and the output side node address D2 which is the address of the part storing the information of the output side node of the link in the node information storage means 62 And the network address D3 which is the address of the network information storage means 61, the test node address D4 which is the address of the part of the node information storage means 62 which stores the information of the test node associated with the link, Inverted non-inverted flag D5 (l bit to identify whether the link is an inverted link or a non-inverted link. "True (or 1)" and non-inverted link "False (or 0)"), the test link flag D6 (l Bits and true (or 1) if test link "If not a test link," False (or 0) "is displayed. ), The output D7 of the link (1 bit, “True (or 1)” or “False (or 0)”) and the accumulated value D8 of the enhancement signal given to the link (Real number, cumulative value of multiple steps) and enhancement signal D9 (real number, value for one step) given to the link. is there. In this link information storage means 63, according to the addition and deletion of links, the memory corresponding to these links is dynamically added or deleted.
[0087] また、ネットワーク情報記憶手段 61の B1〜B3を記憶する部分と、ノード情報記憶 手段 62の C1〜C8を記憶する部分と、リンク情報記憶手段 63の D1〜D6を記憶する 部分とにより、構成エレメント間の結合関係を含むネットワーク 20の構造を記憶する ネットワーク構造記憶手段が構成されて 、る。  [0087] The network information storage means 61 stores B1 to B3, the node information storage means 62 stores C1 to C8, and the link information storage means 63 stores D1 to D6. A network structure storage means for storing the structure of the network 20 including the coupling relationship between the constituent elements is configured.
[0088] さらに、ノード情報記憶手段 62の C9を記憶する部分と、リンク情報記憶手段 63の D7を記憶する部分とにより、ネットワーク 20の出力生成処理で形成される構成エレメ ントの入出力状態を記憶する入出力状態記憶手段が構成されている。  [0088] Furthermore, the input / output state of the constituent elements formed by the output generation processing of the network 20 is determined by the portion storing C9 of the node information storage means 62 and the portion storing D7 of the link information storage means 63. An input / output state storage means for storing is configured.
[0089] そして、ネットワーク情報記憶手段 61の B4を記憶する部分と、ノード情報記憶手段 62の C10を記憶する部分と、リンク情報記憶手段 63の D8, D9を記憶する部分とに より、学習手段 51により生成された、構成エレメントに対する強化信号またはその累 積値を構成エレメント毎に記憶する強化信号記憶手段が構成されている。  [0089] Then, the learning unit includes the part that stores B4 of the network information storage unit 61, the part that stores C10 of the node information storage unit 62, and the part that stores D8 and D9 of the link information storage unit 63. Strengthening signal storage means for storing the strengthening signal for the constituent element or its accumulated value generated by 51 for each constituent element is configured.
[0090] 以上において、センサ信号取得手段 41、状態評価用信号取得手段 42、強化信号 生成手段 43、モータ出力信号送信手段 44、およびネットワーク処理手段 50は、情 報処理システム 10を構成するコンピュータ本体 (パーソナル 'コンピュータのみならず 、その上位機種のものも含む。)の内部に設けられた中央演算処理装置 (CPU)、お よびこの CPUの動作手順を規定する 1つまたは複数のプログラム(例えば、 C+ +言 語で記述されたプログラム等)により実現される。  In the above, the sensor signal acquisition means 41, the state evaluation signal acquisition means 42, the enhancement signal generation means 43, the motor output signal transmission means 44, and the network processing means 50 are the computer main body constituting the information processing system 10. A central processing unit (CPU) provided inside the PC (including not only personal computers but also higher-level models), and one or more programs that define the operating procedure of this CPU (for example, It is realized by a program written in C ++ language).
[0091] また、ロボット情報記憶手段 60、ネットワーク情報記憶手段 61、ノード情報記憶手 段 62、およびリンク情報記憶手段 63は、例えば、主メモリやキャッシュメモリ、あるい はローカルメモリ等で実現される力 S、アクセス速度や記憶容量等に問題が生じない範 囲であれば、例えば、ハードディスク、 MO、 DVD -RAM, FD、磁気テープ等の外 部記憶装置を用いて実現してもよ 、。 [0092] このような本実施形態においては、以下のようにして情報処理システム 10によりロボ ット 30の動作の自律制御を行う。 Further, the robot information storage unit 60, the network information storage unit 61, the node information storage unit 62, and the link information storage unit 63 are realized by, for example, a main memory, a cache memory, or a local memory. For example, it may be realized by using an external storage device such as a hard disk, MO, DVD-RAM, FD, magnetic tape, etc., as long as there is no problem with force S, access speed, storage capacity, etc. In this embodiment, autonomous control of the operation of the robot 30 is performed by the information processing system 10 as follows.
[0093] 先ず、図 3〜図 6を参照しながら、情報処理システム 10によるロボット 30の動作制御 の全体的な流れを説明する。  First, the overall flow of operation control of the robot 30 by the information processing system 10 will be described with reference to FIGS.
[0094] 図 3において、情報処理システム 10を実現するためのプログラムを立ち上げ、ロボ ット 30の動作制御を開始する (ステップ Sl)。  [0094] In Fig. 3, a program for realizing the information processing system 10 is launched, and the operation control of the robot 30 is started (step Sl).
[0095] 続いて、ネットワーク処理手段 50により、必要な初期化処理を行う(ステップ S2)。こ こで行う初期化処理には、ロボット情報記憶手段 60に記憶される情報の初期化処理 (後述する図 11のロボット初期化処理 G1)と、ネットワーク情報記憶手段 61に記憶さ れる情報の初期化処理 (後述する図 11のネットワーク初期化処理 G2)と、必要個数( 本実施形態では、 128個)の入力ノード 21を生成する初期化処理 (後述する図 11の 入力ノード初期化処理 G3)と、必要個数 (本実施形態では、 32個)の出力ノード 23 を生成する初期化処理 (後述する図 11の出力ノード初期化処理 G4)と、各出力ノー ド 23の入力側リンクとして各出力ノード 23からいずれかの入力ノード 21にランダムに 連結する実リンクを生成する初期化処理 (後述する図 11の反転リンク初期化処理 G9 または非反転リンク初期化処理 G10)と、各出力ノード 23の入力側に設けられて各出 力ノード 23から 、ずれかの入力ノード 21にランダムに連結するテストリンクを生成す る初期化処理 (後述する図 11のテスト反転リンク初期化処理 Gl 1またはテスト非反転 リンク初期化処理 G12)と、生成した実リンク (後述する図 11の反転リンク初期化処理 G9または非反転リンク初期化処理 G 10で生成された反転リンクまたは非反転リンク) に付随するテストノードを生成する初期化処理 (後述する図 11のテスト中間 ORノード 初期化処理 G7またはテスト中間 ANDノード初期化処理 G8)と、生成したテストノー ドの第 1および第 2の入力側テストリンクを生成する初期化処理 (後述する図 11のテ スト反転リンク初期化処理 G11またはテスト非反転リンク初期化処理 G12)とがある。  Subsequently, the network processing unit 50 performs necessary initialization processing (step S2). The initialization process performed here includes an initialization process for information stored in the robot information storage means 60 (robot initialization process G1 in FIG. 11 described later) and an initial process for information stored in the network information storage means 61. Initialization processing (network initialization processing G2 in FIG. 11 to be described later) and initialization processing for generating the required number (128 in this embodiment) of input nodes 21 (input node initialization processing G3 in FIG. 11 to be described later) And an initialization process (output node initialization process G4 in FIG. 11 to be described later) for generating the required number (32 in this embodiment) of output nodes 23, and each output node 23 as an input side link. An initialization process that generates a real link that is randomly connected from node 23 to any one of input nodes 21 (inverted link initialization process G9 or non-inverted link initialization process G10 in FIG. 11 described later), and each output node 23 Provided on the input side Initialization processing to generate a test link that is randomly connected from the power node 23 to any one of the input nodes 21 (test inversion link initialization processing Gl 1 in FIG. 11 described later or test non-inversion link initialization processing G12) and Initialization process to generate a test node associated with the generated real link (inverted link initialization process G9 or non-inverted link initialization process G10 in FIG. 11 described later) Test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8) in Fig. 11 and initialization process to generate the first and second input side test links of the generated test node (Fig. 11 test reverse link initialization processing G11 or test non-reverse link initialization processing G12).
[0096] それから、センサ信号取得手段 41により、 8本の赤外線センサ 35で検出されたセン サ信号を取得し、取得した 8個のセンサ信号をロボット情報記憶手段 60の入力配列 Al (1)〜A1 (8) (図 2参照)に書き込む (ステップ S3)。  Then, the sensor signal acquisition means 41 acquires sensor signals detected by the eight infrared sensors 35, and the acquired eight sensor signals are input to the input array Al (1) to Al (1) ˜ Write to A1 (8) (see Figure 2) (step S3).
[0097] そして、状態評価用信号取得手段 42により、状態評価用信号として、ロボット情報 記憶手段 60の入力配列 Al (1)〜A1 (8)に記憶されている 8本の赤外線センサ 35 によるセンサ信号と、ロボット情報記憶手段 60の出力配列 A2 (l) , A2 (2)に記憶さ れているモータ出力信号(回転数)と、ロボット情報記憶手段 60に記憶されている 1ス テツプ前の状態指標値 A6とを取得する (ステップ S4)。 Then, the robot information is obtained as a state evaluation signal by the state evaluation signal acquisition unit 42. Sensor signals from the eight infrared sensors 35 stored in the input array Al (1) to A1 (8) of the storage means 60 and the output arrays A2 (l) and A2 (2) of the robot information storage means 60 The motor output signal (number of rotations) stored and the state index value A6 one step before stored in the robot information storage means 60 are acquired (step S4).
[0098] 続いて、強化信号生成手段 43により、状態評価用信号取得手段 42により取得した 状態評価用信号に基づき、制御対象であるロボット 30の状態 (行動結果)を評価し、 その評価結果に応じ、ネットワーク 20に対して報酬または罰として付与する強化信号 を生成する (ステップ S4)。なお、前述した初回の状態評価用信号取得処理では、出 力配列 A2 (l) , A2 (2)には、学習により構造を変化させたネットワーク 20の出力結 果に基づくモータ出力信号(回転数)は入っておらず、また、 1ステップ前の状態指標 値 A6にも前回ステップで状態評価を行った結果としての状態指標値が入っているわ けではないので、生成される初回の強化信号は、ゼロとなる。そして、強化信号生成 手段 43は、このようにして生成した強化信号を、ロボット情報記憶手段 60の強化信 号 A4へ書き込む。また、強化信号生成手段 43は、次回ステップでの状態評価処理 で用いるために、現在のステップでロボット 30の状態 (行動結果)を評価して得られた 現在の状態指標値を、ロボット情報記憶手段 60の 1ステップ前の状態指標値 A6へ 書き込んで保存する。なお、前述したように、初回の強化信号はゼロとなるので、後 述する学習手段 51による初回の学習処理は、実質的に行われないに等しぐネット ワーク 20の構造は変化しな 、。  Subsequently, the reinforcement signal generation means 43 evaluates the state (behavior result) of the robot 30 to be controlled based on the state evaluation signal acquired by the state evaluation signal acquisition means 42, and the evaluation result In response, a reinforcement signal to be given as a reward or punishment to network 20 is generated (step S4). In the initial state evaluation signal acquisition process described above, the output arrays A2 (l) and A2 (2) include a motor output signal (number of rotations) based on the output result of the network 20 whose structure is changed by learning. ) Is not included, and the state index value A6 of the previous step is not included in the state index value as a result of the state evaluation performed in the previous step. Becomes zero. Then, the enhancement signal generation means 43 writes the enhancement signal thus generated in the enhancement signal A4 of the robot information storage means 60. Further, the reinforcement signal generation means 43 stores the current state index value obtained by evaluating the state (behavior result) of the robot 30 at the current step for use in the state evaluation process at the next step. Write to state index value A6 one step before means 60 and save. As described above, since the initial reinforcement signal is zero, the structure of the network 20 is not changed as if the initial learning process by the learning means 51 described later is not substantially performed. .
[0099] それから、ネットワーク処理手段 50により、ネットワーク 20の処理、すなわち学習処 理および出力生成処理を行う(ステップ S5)。  [0099] Then, the network processing means 50 performs processing of the network 20, that is, learning processing and output generation processing (step S5).
[0100] 図 4において、学習処理では、先ず、学習手段 51により、ロボット情報記憶手段 60 の強化信号 A4を読み込み、ネットワーク情報記憶手段 61の強化信号 B4に書き込む ことにより、ネットワーク 20として強化信号を受け取る (ステップ S501)。  In FIG. 4, in the learning process, first, the learning means 51 reads the reinforcement signal A4 from the robot information storage means 60 and writes it into the enhancement signal B4 from the network information storage means 61, whereby the reinforcement signal is transmitted as the network 20. Receive (step S501).
[0101] 次に、学習手段 51により、ネットワーク情報記憶手段 61の出力ノードアドレス B3を 参照し、ノード情報記憶手段 62の中のこれらの出力ノードアドレス B3に対応する各 出力ノード 23の情報を記憶する部分における強化信号の合計値 C10に、それぞれ ネットワーク情報記憶手段 61の強化信号 B4と同じ値を格納する。これにより、全ての 出力ノード 23に対し、均等に強化信号が伝わる (ステップ S502)。 [0101] Next, the learning means 51 refers to the output node address B3 of the network information storage means 61, and stores the information of each output node 23 corresponding to these output node addresses B3 in the node information storage means 62. The same value as that of the enhancement signal B4 of the network information storage means 61 is stored in the total value C10 of the enhancement signal in the portion to be processed. As a result, all The enhancement signal is uniformly transmitted to the output node 23 (step S502).
[0102] 続いて、学習手段 51により、ネットワーク情報記憶手段 61の出力ノードアドレス B3 に対応する各出力ノード 23について学習処理を行う(ステップ S503)。出力ノード 23 の学習処理の詳細は後述する。  Subsequently, the learning means 51 performs learning processing for each output node 23 corresponding to the output node address B3 of the network information storage means 61 (step S503). Details of the learning process of the output node 23 will be described later.
[0103] さらに、学習手段 51により、ネットワーク情報記憶手段 61の中間ノードアドレス B2 に対応する各中間ノード 22について学習処理を行う(ステップ S504)。中間ノード 22 の学習処理の詳細は、図 5を用いて後述する。図 5には、中間 ORノード(実ノード)の 学習処理の流れが示されて 、る。  [0103] Further, the learning means 51 performs learning processing for each intermediate node 22 corresponding to the intermediate node address B2 of the network information storage means 61 (step S504). Details of the learning process of the intermediate node 22 will be described later with reference to FIG. Fig. 5 shows the learning process flow for an intermediate OR node (real node).
[0104] それから、学習手段 51により、ネットワーク情報記憶手段 61の出力ノードアドレス B 3に対応する各出力ノード 23についてのノード情報記憶手段 62の入力側リンクアド レス C1を参照し、これらの入力側リンクアドレス C1に対応する各出力ノード 23の各 入力側リンクの学習処理を行う(ステップ S505)。出力ノード 23の入力側リンクの学 習処理の詳細は後述する。  [0104] Then, the learning means 51 refers to the input side link address C1 of the node information storage means 62 for each output node 23 corresponding to the output node address B3 of the network information storage means 61. A learning process is performed on each input side link of each output node 23 corresponding to the link address C1 (step S505). Details of the learning process for the input side link of the output node 23 will be described later.
[0105] さらに、学習手段 51により、ネットワーク情報記憶手段 61の中間ノードアドレス B2 に対応する各中間ノード 22についてのノード情報記憶手段 62の入力側リンクァドレ ス C1を参照し、これらの入力側リンクアドレス C1に対応する各中間ノード 23の各入 力側リンクの学習処理を行う(ステップ S506)。中間ノード 22の入力側リンクの学習 処理の詳細は、図 6を用いて後述する。図 6には、非反転リンクの学習処理の流れが 示されている。  Furthermore, the learning means 51 refers to the input side link address C1 of the node information storage means 62 for each intermediate node 22 corresponding to the intermediate node address B2 of the network information storage means 61, and these input side link addresses. A learning process is performed for each input side link of each intermediate node 23 corresponding to C1 (step S506). Details of the learning process of the input side link of the intermediate node 22 will be described later with reference to FIG. Figure 6 shows the flow of non-inverted link learning processing.
[0106] その後、以上のようにして学習処理 (ステップ S501〜S506参照)を行って構造を 変化させた後のネットワーク 20を用いて、ネットワーク 20の新たな出力を生成する処 理を行う。なお、学習処理によるネットワーク 20の構造の変化は、構造を変化させる 前のネットワーク 20の出力結果に基づいて形成されたロボット 30の状態の評価結果 に応じて生成された強化信号によってもたらされるので、学習処理 (ステップ S501〜 S506参照)で各種判定に用いられる構成エレメントの入出力状態は、その強化信号 の生成の基になるロボット 30の状態を形成したネットワーク出力の生成処理で得られ た入出力状態でなければならない。この点で、学習処理 (ステップ S501〜S506参 照)で各種判定に用いられる構成エレメントの入出力状態は、メモリ(図 2の入出力状 態記憶手段)に残っている入出力状態、すなわち構造を変化させる前のネットワーク[0106] After that, learning processing (see steps S501 to S506) is performed as described above, and processing for generating a new output of the network 20 is performed using the network 20 after the structure is changed. Note that the change in the structure of the network 20 due to the learning process is caused by the reinforcement signal generated according to the evaluation result of the state of the robot 30 formed based on the output result of the network 20 before changing the structure. The input / output states of the constituent elements used for various judgments in the learning process (see steps S501 to S506) are the input / output states obtained by the network output generation process that forms the state of the robot 30 that is the basis for generating the reinforcement signal. It must be in a state. In this respect, the input / output states of the constituent elements used for various determinations in the learning process (see steps S501 to S506) are stored in the memory (input / output status in FIG. 2). Input / output state remaining in the state storage means), that is, the network before the structure is changed
20の出力生成処理で得られた入出力状態であるから、上記の要請を満足している。 The input / output state obtained by the 20 output generation processes satisfies the above requirements.
[0107] 出力生成処理では、先ず、入力変換手段 52により、ネットワーク情報記憶手段 61 の入力ノードアドレス B1を参照してノード情報記憶手段 62の中の各入力ノード 21の 情報を記憶する部分を把握し、ロボット情報記憶手段 60の入力配列 Al (1)〜A1 (8 )に記憶された 8個のセンサ信号をそれぞれ 2進数に変換し、変換して得られた値を ノード情報記憶手段 62の各入力ノード 21の出力 C9として設定する (ステップ S507) In the output generation processing, first, the input conversion means 52 refers to the input node address B1 of the network information storage means 61 and grasps the part storing the information of each input node 21 in the node information storage means 62 The eight sensor signals stored in the input arrays Al (1) to A1 (8) of the robot information storage means 60 are converted into binary numbers, and the values obtained by the conversion are stored in the node information storage means 62. Set as output C9 of each input node 21 (step S507)
[0108] 続いて、出力生成手段 53により、ネットワーク情報記憶手段 61の中間ノードアドレ ス B2を参照してノード情報記憶手段 62の中の各中間ノード 22の情報を記憶する部 分を把握し、各中間ノード 22を構成する論理回路の機能に従って、各中間ノード 22 の出力 C9を計算する (ステップ S508)。この際、新しく生成される中間ノード 22は、 ネットワーク情報記憶手段 61の中間ノードアドレス B2の配列の後ろに追加されてい き、この新設の中間ノード 22は、入出力の連鎖上、ネットワーク 20の入力層に近い側 に配置されて 、くので、入力層から出力層に向かう出力生成処理を実現するために 、中間ノード 22の出力生成処理は、ネットワーク情報記憶手段 61の中間ノードアドレ ス B2の配列の逆順で行う。 [0108] Subsequently, the output generation means 53 refers to the intermediate node address B2 of the network information storage means 61 to grasp the part for storing the information of each intermediate node 22 in the node information storage means 62. According to the function of the logic circuit constituting the intermediate node 22, the output C9 of each intermediate node 22 is calculated (step S508). At this time, the newly generated intermediate node 22 is added after the array of the intermediate node address B2 of the network information storage means 61, and this new intermediate node 22 is input to the network 20 in the input / output chain. Therefore, in order to realize output generation processing from the input layer to the output layer, the output generation processing of the intermediate node 22 is performed in the array of the intermediate node address B2 of the network information storage means 61. Perform in reverse order.
[0109] さらに、出力生成手段 53により、ネットワーク情報記憶手段 61の出力ノードアドレス B3を参照してノード情報記憶手段 62の中の各出力ノード 23の情報を記憶する部分 を把握し、各出力ノード 23を構成する論理回路の機能に従って、各出力ノード 23の 出力 C9を計算する (ステップ S509)。  [0109] Further, the output generating means 53 refers to the output node address B3 of the network information storage means 61 and grasps the part storing the information of each output node 23 in the node information storage means 62, and each output node According to the function of the logic circuit constituting 23, the output C9 of each output node 23 is calculated (step S509).
[0110] 以上のステップ S508, S509で行うノードの計算処理は、通常の論理回路の処理と 同様であり、ノード情報記憶手段 62の当該ノードの全ての入力側リンクアドレス C1に 対応する入力側リンクについてのリンク情報記憶手段 63のリンクの出力 D7を読み込 み、これらの入力側リンクの出力 D7を、計算対象となっている当該ノードの入力とす る。そして、ノード情報記憶手段 62の当該ノードの AND'ORノードフラグ C5を参照 して当該ノードが ANDノードか ORノードかを把握し、 ANDノードであれば AND回 路と同じ処理を行い、 ORノードであれば OR回路と同じ処理を行うことにより、当該ノ ードの出力 C9を算出する。 [0110] The calculation processing of the node performed in the above steps S508 and S509 is the same as the processing of the normal logic circuit, and the input side link corresponding to all the input side link addresses C1 of the node in the node information storage means 62 The link output D7 of the link information storage means 63 is read, and the output D7 of these input side links is used as the input of the relevant node to be calculated. Then, by referring to the AND'OR node flag C5 of the relevant node in the node information storage means 62, it is ascertained whether the relevant node is an AND node or an OR node, and if it is an AND node, the same processing as the AND circuit is performed. If this is the case, perform the same process as the OR circuit to Calculate the C9 output C9.
[0111] 例えば、計算対象となっている当該ノード力 中間 ORノード、テスト中間 ORノード、 出力ノード 23 (本実施形態では、 ORノードのみとする。)である場合には、当該ノード の出力 C9を False (または 0)で上書きした後、入力側リンクアドレス C1に対応する全 ての入力側リンクの出力 D7のうち、 1つでも True (または 1)であれば、当該ノードの 出力 C9を True (または 1)で上書きする。一方、計算対象となっている当該ノードが、 中間 ANDノード、テスト中間 ANDノードである場合には、当該ノードの出力 C9を Tr ue (または 1)で上書きした後、入力側リンクアドレス C 1に対応する全ての入力側リン クの出力 D7のうち、 1つでも False (または 0)であれば、当該ノードの出力 C9を False ( または 0)で上書きする。  [0111] For example, in the case of the node power intermediate OR node, the test intermediate OR node, and the output node 23 (in this embodiment, only the OR node) to be calculated, the output C9 of the node Is overwritten with False (or 0), and if at least one of the output D7 of all input side links corresponding to the input side link address C1 is True (or 1), the output C9 of that node is set to True. Overwrite with (or 1). On the other hand, if the node being calculated is an intermediate AND node or a test intermediate AND node, the output C9 of the node is overwritten with True (or 1), and then the input side link address C1 is set. If at least one of the outputs D7 of all corresponding input links is False (or 0), the output C9 of the node is overwritten with False (or 0).
[0112] また、ステップ S508, S509のノードの計算処理と併せて行うリンクの計算処理も、 通常の論理回路の処理と同様であり、計算対象となっている当該リンクが、反転リンク 、テスト反転リンクである場合には、リンク情報記憶手段 63の当該リンクの入力側ノー ドアドレス D1に対応する入力側ノードについてのノード情報記憶手段 62のノードの 出力 C9の値を反転させた値を、当該リンクの出力 D7に上書きし、計算対象となって いる当該リンクが、非反転リンク、テスト非反転リンクである場合には、リンク情報記憶 手段 63の当該リンクの入力側ノードアドレス D1に対応する入力側ノードについての ノード情報記憶手段 62のノードの出力 C9の値を、そのまま当該リンクの出力 D7に上 書きする。  [0112] The link calculation processing performed in conjunction with the node calculation processing in steps S508 and S509 is the same as the normal logic circuit processing, and the link to be calculated is an inverted link or test inversion. In the case of a link, the value obtained by inverting the value of the output C9 of the node of the node information storage means 62 for the input side node corresponding to the input side node address D1 of the link of the link information storage means 63 is When the link output D7 is overwritten and the link to be calculated is a non-inverted link or a test non-inverted link, the input corresponding to the input side node address D1 of the link in the link information storage means 63 The value of the node output C9 of the node information storage means 62 for the side node is directly overwritten to the output D7 of the link.
[0113] その後、出力変換手段 54により、ネットワーク情報記憶手段 61の出力ノードアドレ ス B3を参照してノード情報記憶手段 62の中の各出力ノード 23の情報を記憶する部 分を把握し、各出力ノード 23の出力 C9 (2進数)を実数に変換し、モータ出力信号( 回転数)としてロボット情報記憶手段 60の出力配列 A2に書き込む (ステップ S510)。  [0113] After that, the output conversion means 54 refers to the output node address B3 of the network information storage means 61 to grasp the part for storing the information of each output node 23 in the node information storage means 62, and outputs each output. The output C9 (binary number) of the node 23 is converted into a real number, and is written in the output array A2 of the robot information storage means 60 as a motor output signal (rotation number) (step S510).
[0114] 図 3において、ネットワーク処理手段 50による処理後に、モータ出力信号送信手段 44により、ネットワーク 20の出力結果 (各出力ノード 23の出力 C9)に基づきロボット 情報記憶手段 60の出力配列 A2に書き込まれたモータ出力信号(回転数)を、ロボッ ト 30のモータ 32, 34へ送信し、これによりモータ 32, 34を駆動させてロボット 30を動 作させる (ステップ S6)。 [0115] 続いて、センサ信号取得手段 41により、 8本の赤外線センサ 35で検出されたセン サ信号を取得し、取得した 8個のセンサ信号をロボット情報記憶手段 60の入力配列 Al (1)〜A1 (8)に書き込む(ステップ S7)。 [0114] In FIG. 3, after the processing by the network processing means 50, the motor output signal transmitting means 44 writes the data in the output array A2 of the robot information storage means 60 based on the output result of the network 20 (output C9 of each output node 23). The motor output signal (rotation speed) is transmitted to the motors 32 and 34 of the robot 30, thereby driving the motors 32 and 34 to operate the robot 30 (step S6). [0115] Subsequently, the sensor signal acquisition means 41 acquires sensor signals detected by the eight infrared sensors 35, and the acquired eight sensor signals are input to the input array Al (1) of the robot information storage means 60. Write to ~ A1 (8) (step S7).
[0116] そして、状態評価用信号取得手段 42により、状態評価用信号として、ロボット情報 記憶手段 60の入力配列 Al (1)〜A1 (8)に記憶されている 8本の赤外線センサ 35 によるセンサ信号と、ロボット情報記憶手段 60の出力配列 A2 (l) , A2 (2)に記憶さ れているモータ出力信号(回転数)と、ロボット情報記憶手段 60に記憶されている 1ス テツプ前の状態指標値 A6とを取得する (ステップ S8)。なお、この際には、初回の状 態評価用信号取得処理の場合 (ステップ S4の場合)とは異なり、出力配列 A2 (1) , A2 (2)には、ステップ S5の学習処理で構造を変化させたネットワーク 20の出力結果 に基づくモータ出力信号(回転数)が入っており、また、 1ステップ前の状態指標値 A 6にも前回ステップで状態評価を行った結果としての状態指標値が入っているので、 この状態評価用信号に基づく評価結果に応じて強化信号生成手段 43により生成さ れる強化信号は、適正な状態評価結果に応じた意味のある強化信号となる。  [0116] Then, the state evaluation signal acquisition means 42 uses the eight infrared sensors 35 stored in the input arrays Al (1) to A1 (8) of the robot information storage means 60 as state evaluation signals. Signal, the motor output signal (number of revolutions) stored in the output array A2 (l), A2 (2) of the robot information storage means 60, and the one step before the step stored in the robot information storage means 60. The state index value A6 is acquired (step S8). In this case, unlike the case of the initial state evaluation signal acquisition process (in the case of step S4), the output arrays A2 (1) and A2 (2) are structured in the learning process of step S5. The motor output signal (rotation speed) based on the output result of the changed network 20 is included, and the state index value as a result of the state evaluation at the previous step is also included in the state index value A 6 one step before. Therefore, the enhancement signal generated by the enhancement signal generation means 43 according to the evaluation result based on the state evaluation signal is a meaningful enhancement signal according to the appropriate state evaluation result.
[0117] 続いて、強化信号生成手段 43により、状態評価用信号取得手段 42により取得した 状態評価用信号に基づき、ステップ S5の学習処理で構造を変化させたネットワーク 2 0の出力結果に基づき形成された制御対象であるロボット 30の状態 (行動結果)を評 価し、その評価結果に応じ、ネットワーク 20に対して報酬または罰として付与する強 化信号を生成する (ステップ S8)。例えば、ロボット 30が直進している場合には、「 + 1 」の強化信号 (報酬)を生成し、センサ信号の合計値が閾値 (例えば 0)より大き 、場 合には、その合計値の増減分 (前回ステップの合計値との差分)に 1および定数を 乗じた値の強化信号 (報酬または罰)を生成し、それ以外の場合には、例えば「ー0. 01」の強化信号 (小さな罰)を生成する。そして、強化信号生成手段 43は、このように して生成した強化信号を、ロボット情報記憶手段 60の強化信号 A4へ書き込む。また 、強化信号生成手段 43は、次回ステップでの状態評価処理のために、現在のステツ プでロボット 30の状態 (行動結果)を評価して得られた現在の状態指標値を、ロボット 情報記憶手段 60の 1ステップ前の状態指標値 A6へ書き込んで保存する。  [0117] Subsequently, the reinforcement signal generation means 43 is formed on the basis of the state evaluation signal acquired by the state evaluation signal acquisition means 42 based on the output result of the network 20 in which the structure is changed in the learning process of step S5. The state (behavior result) of the robot 30 that is the controlled object is evaluated, and a strengthening signal to be given as reward or punishment to the network 20 is generated according to the evaluation result (step S8). For example, if the robot 30 is traveling straight, a reinforcement signal (reward) of “+1” is generated, and if the total value of sensor signals is greater than a threshold value (for example, 0), the total value Generates an enhancement signal (reward or punishment) that is a value obtained by multiplying the increase / decrease (difference from the total value of the previous step) by 1 and a constant. Otherwise, for example, an enhancement signal of “-0.01” ( Produce a small punishment). Then, the enhancement signal generation means 43 writes the enhancement signal generated in this way into the enhancement signal A4 of the robot information storage means 60. Further, the reinforcement signal generation means 43 stores the current state index value obtained by evaluating the state (behavior result) of the robot 30 at the current step for the state evaluation processing at the next step, and stores the robot state information. Write to state index value A6 one step before means 60 and save.
[0118] その後、ロボット 30の動作制御を終了させる指示が出ている力否かを判断し (ステツ プ S9)、終了指示が出ていない場合には、ステップ S5のネットワーク 20の処理に戻り 、以降、終了指示が出るまで、ステップ S5〜S9の処理を繰り返し、一方、終了指示 が出ている場合には、ロボット 30の動作制御を終了する (ステップ S10)。 [0118] Thereafter, it is determined whether or not an instruction to end the operation control of the robot 30 has been issued (step Step S9), if the end instruction is not issued, the process returns to the network 20 process of step S5, and thereafter, the process of steps S5 to S9 is repeated until the end instruction is issued, while the end instruction is issued. In this case, the operation control of the robot 30 is ended (step S10).
[0119] 以下には、学習手段 51による中間ノード 22 (中間 ORノード、中間 ANDノード、テ スト中間 ORノード、テスト中間 ANDノード)および出力ノード 23の学習処理の流れを 説明する。 In the following, the learning process flow of the intermediate node 22 (intermediate OR node, intermediate AND node, test intermediate OR node, test intermediate AND node) and output node 23 by the learning means 51 will be described.
[0120] <中間 ORノードの学習処理 >  [0120] <Intermediate OR node learning process>
図 7には、学習対象となる中間 ORノード (実ノード) 100の一例が示されている。中 間 ORノード 100には、一例として 3本の入力側リンク 101, 102, 103および出力側リ ンク 104が結合されるとともに、中間 ORノード 100の入力側には、テストリンク 105が 設けられている。各入力佃 Jリンク 101, 102, 103は、入力佃 Jノード 106, 107, 108 にそれぞれ結合され、出力側リンク 104は、出力側ノード 109に結合され、テストリン ク 105は、任意のノード 110にランダムに結合されている。  FIG. 7 shows an example of an intermediate OR node (real node) 100 to be learned. For example, three input links 101, 102, 103 and an output link 104 are coupled to the intermediate OR node 100, and a test link 105 is provided on the input side of the intermediate OR node 100. Yes. Each input 佃 J-link 101, 102, 103 is coupled to input 佃 J-node 106, 107, 108, respectively, output-side link 104 is coupled to output-side node 109, and test link 105 is connected to any node 110. Are randomly combined.
[0121] ここで、各入力側リンク 101, 102, 103による中間 ORノード 100への入力を、 X(l ) , X(2) , X(3)とする。より一般的には、 N本の入力側リンクがあるとすると、 X(l)〜 X(N)とする。つまり、 k番目の入力側リンクによる中間 ORノード 100への入力を、 X( k) (k= l〜N)とする。また、中間 ORノード 100の出力を Yとする。また、 X(1)〜X( N)のうちの Trueの数を NumTとし、中間 ORノード 100に対して付与された強化信 号を Rとする。さらに、各入力側リンク 101, 102, 103に対して付与する強化信号を、 Rl (l) , Rl (2) , Rl (3)とし、これらの入力側ノード 106, 107, 108に対して付与す る強化信号を、 R2 (l) , R2 (2) , R2 (3)とする。より一般的には、着目する k番目の 入力側リンクに対して付与する強化信号を、 Rl (k) (k= 1〜N)とし、その入力側ノー ドに対して付与する強化信号を、 R2 (k) (k= 1〜N)とする。  Here, the input to the intermediate OR node 100 by the input side links 101, 102, 103 is assumed to be X (l), X (2), X (3). More generally, if there are N input links, let X (l) -X (N). That is, an input to the intermediate OR node 100 by the kth input side link is X (k) (k = 1 to N). The output of the intermediate OR node 100 is Y. Also, let NumT be the true number of X (1) to X (N), and let R be the enhanced signal given to the intermediate OR node 100. Furthermore, the strengthening signal to be given to each input side link 101, 102, 103 is Rl (l), Rl (2), Rl (3) and given to these input side nodes 106, 107, 108. The enhancement signals to be used are R2 (l), R2 (2), and R2 (3). More generally, the enhancement signal given to the k-th input side link of interest is Rl (k) (k = 1 to N), and the enhancement signal given to the input side node is Let R2 (k) (k = 1 to N).
[0122] 図 5において、先ず、学習手段 51は、中間 ORノード 100に対して付与された強化 信号 Rに基づき、中間 ORノード 100の入出力状態に応じて、各入力側リンク 101, 1 02, 103の中間 ORノード 100の出力 Yへの寄与度に従って各入力側リンク 101, 10 2, 103に強化信号が分配 (伝播)されるように、各入力側リンク 101, 102, 103に対 して付与する強化信号 Rl (1) , R1 (2) , R1 (3)を算定する (ステップ S50401)。また 、これと併せて、各人力佃 Jリンク 101, 102, 103の人力佃 Jノード 106, 107, 108に 対して付与する強化信号 R2 (l) , R2 (2) , R2 (3)を算定する (ステップ S50402)。 In FIG. 5, first, the learning means 51, based on the reinforcement signal R given to the intermediate OR node 100, sets the input side links 101, 102 according to the input / output state of the intermediate OR node 100. , 103 intermediate OR node 100 for each input link 101, 102, 103 so that the enhanced signal is distributed (propagated) to each input link 101, 102, 103 according to the contribution to output Y of node 100 The reinforcement signals Rl (1), R1 (2), R1 (3) to be given are calculated (step S50401). Also In conjunction with this, the reinforcement signals R2 (l), R2 (2), R2 (3) to be given to the human power J nodes 106, 107, 108 of each human power J links 101, 102, 103 are calculated. (Step S50402).
[0123] この際、中間 ORノード 100への入力 Χ(1) , Χ(2) , Χ(3)は、ノード情報記憶手段 6 2の中の中間 ORノード 100の入力側リンクアドレス C1を参照し、リンク情報記憶手段 63の各入力側リンク 101, 102, 103の出力 D7を読み込んで得られる。また、中間 O Rノード 100の出力 Yは、ノード情報記憶手段 62の中の中間 ORノード 100の出力 C 9を読み込んで得られる。さらに、中間 ORノード 100に対して付与された強化信号 R は、ノード情報記憶手段 62の中の中間 ORノード 100の強化信号の合計値 C10を読 み込んで得られる。 [0123] At this time, the input Χ (1), Χ (2), 中間 (3) to the intermediate OR node 100 refers to the input side link address C1 of the intermediate OR node 100 in the node information storage means 62. Then, the output D7 of each input side link 101, 102, 103 of the link information storage means 63 is read and obtained. Further, the output Y of the intermediate OR node 100 is obtained by reading the output C 9 of the intermediate OR node 100 in the node information storage means 62. Further, the reinforcement signal R given to the intermediate OR node 100 is obtained by reading the total value C10 of the enhancement signals of the intermediate OR node 100 in the node information storage means 62.
[0124] そして、学習手段 51は、次のようなルールで、中間 ORノードに結合されている N本 の入力側リンクのうち着目する 1本の入力側リンクに対して付与する強化信号 Rl (k) (k= 1〜N)、および着目する 1本の入力側リンクの入力側ノードに対して付与する強 化信号 R2 (k) (k= l〜N)を算定する。すなわち、 k番目(k= l〜N)の入力側リンク 力 次のケース 1〜5のいずれに該当するかを判断し、 1本 1本の入力側リンクについ て強化信号 Rl (k)を算定するとともに、 1本 1本の入力側リンクの入力側ノードについ て強化信号 R2 (k)を算定して!/、く。  [0124] Then, the learning means 51 uses the following rule to provide a reinforcement signal Rl (to be given to one input-side link of interest among the N input-side links coupled to the intermediate OR node. k) (k = 1 to N) and the strengthening signal R2 (k) (k = l to N) given to the input side node of one input side link of interest. In other words, k-th (k = l to N) input side link force Determine which of the following cases 1 to 5 applies, and calculate the reinforcement signal Rl (k) for each one input side link At the same time, calculate the reinforcement signal R2 (k) for the input side node of each input side link!
[0125] ケース 1: (Υ=Τ) Λ (X(k) =F)の場合には、 Rl (k) =0, R2 (k) =0とする。この 場合は、 k番目の入力側リンクによる入力 X(k)力 中間 ORノードの出力 Yに寄与し ていないので、強化信号を 0とする。  [0125] Case 1: When (Υ = Τ) Λ (X (k) = F), Rl (k) = 0 and R2 (k) = 0. In this case, since the input X (k) force by the kth input side link does not contribute to the output Y of the intermediate OR node, the enhancement signal is set to 0.
[0126] ケース 2 : Y=Fの場合には、 Rl (k) =R/N, R2 (k) =RZNとする。この場合は、 Y=Fなので、全ての入力 X(k) (k= l〜NW¾:(k) =Fであり、出力 Yに均等に寄与 しているので、強化信号を均等に分配する。  Case 2: When Y = F, Rl (k) = R / N, R2 (k) = RZN. In this case, since Y = F, all the inputs X (k) (k = l to NW¾: (k) = F and contribute to the output Y evenly, so the enhancement signal is evenly distributed.
[0127] ケース 3: (Υ=Τ) Λ (NumT= 1)の場合には、 Rl (k) =R, R2 (k) =Rとする。こ の場合は、着目する入力側リンクによる入力が X(k) =Tであり、し力も Trueの入力が この入力側リンクによる入力だけであり、この入力側リンクの出力 Yへの寄与度が大き いので、絶対値の大きな強化信号を付与する。  Case 3: When (Υ = Τ) Λ (NumT = 1), let Rl (k) = R, R2 (k) = R. In this case, the input by the input link of interest is X (k) = T, and the input with true force is only the input by this input link, and the contribution of this input link to the output Y is Because it is large, it gives an enhancement signal with a large absolute value.
[0128] ケース 4 : (Υ=Τ) Λ (NumT≠ 1) Λ (R≥0)の場合には、 Rl (k) = -RX (NumT  [0128] Case 4: (Υ = Τ) Λ (NumT ≠ 1) If Λ (R≥0), Rl (k) = -RX (NumT
- D/N, R2(k) =0とする。この場合は、着目する入力側リンクによる入力が X(k) =Tであるが、 Trueの入力がこの入力側リンクによる入力だけではないので、この入 力側リンクによる入力がたとえ Trueでな力つたとしても、出力 Yは、他の入力側リンク による入力により、 Y=Tとなることから、この入力側リンクの出力 Υへの寄与度は低い 。従って、強化信号 Rl (k)として比較的小さな罰を付与する。 -D / N, R2 (k) = 0. In this case, the input from the input link of interest is X (k) = T, but since the true input is not only the input by this input side link, even if the input by this input side link is true, the output Y is caused by the input by the other input side link. Since Y = T, the contribution of this input side link to output Υ is low. Therefore, a relatively small penalty is given as the reinforcement signal Rl (k).
[0129] ケース 5 : (Υ=Τ) Λ (NumT≠ 1) Λ (R≤0)の場合には、 Rl (k) =RX NumT/ N, R2 (k) =0とする。この場合も、ケース 4の場合と同様に、着目する入力側リンクに よる入力が X(k) =Tであるが、 Trueの入力がこの入力側リンクによる入力だけでは ないので、この入力側リンクによる入力がたとえ Trueでな力つたとしても、出力 Yは、 他の入力側リンクによる入力により、 Y=Tとなることから、この入力側リンクの出力 Υ への寄与度は低い。また、伝播元の中間 ORノードに対する強化信号 Rとして罰が付 与されているので、強化信号 Rl (k)として、ケース 4の場合よりも大きな罰を付与する Case 5: When (Υ = Τ) Λ (NumT ≠ 1) Λ (R≤0), Rl (k) = RX NumT / N, R2 (k) = 0. In this case as well, as in Case 4, the input by the input link of interest is X (k) = T, but since the input of True is not only the input by this input side link, this input side link Even if the input by is untrue, the output Y is Y = T due to the input by the other input side link, so the contribution of this input side link to the output Υ is low. Also, since the punishment is given as the reinforcement signal R for the intermediate OR node of the propagation source, a punishment larger than the case 4 is given as the reinforcement signal Rl (k).
[0130] 図 8には、伝播元の中間 ORノードが、図 7の中間 ORノード 100である場合につい て、以上のケース 1〜5のルールに従って算定した強化信号の分配例が示されてい る。 [0130] FIG. 8 shows an example of distribution of the enhancement signal calculated according to the rules of cases 1 to 5 above when the intermediate OR node of the propagation source is the intermediate OR node 100 of FIG. .
[0131] さらに、学習手段 51は、テストリンク 105に対して付与する強化信号 RTを算定する 。この際、学習手段 51は、テストリンク 105が、仮に中間 ORノード 100の入力側リンク として存在していた場合を想定して強化信号を算定する (ステップ S50403)。先ず、 テストリンク 105が入力側リンクとして加わることにより出力 Yが変化しない場合には、 入力 X(k)にテストリンク 105による入力 TX、すなわちテストリンク 105の出力(リンク 情報記憶手段 63のテストリンク 105の出力 D7を読み込んで得られる。)を追加し、前 述したケース 1〜5の場合分けに従ってその強化信号 RTを算定する。次に、テストリ ンク 105が入力側リンクとして加わることにより出力 Υが変化する場合には、入力 X(k )にテストリンク 105による入力 TX、すなわちテストリンク 105の出力 D7を追加し、 Υ へ中間 ORノード 100の出力 C9 (実際の出力)を反転させた値を代入し、 Rへ中間 O Rノード 100の強化信号の合計値 C10 (実際の強化信号の合計値)の符号を変えた — C10を代入して、前述したケース 1〜5のルールを適用することにより、その強化信 号 RTを算定する。 [0132] そして、以上のようにして算定した強化信号、すなわち各入力側リンク 101, 102, 1 03に対して付与する強化信号 Rl (1) , R1 (2) , R1 (3)と、テストリンク 105に対して 付与する強化信号 RTとを、リンク情報記憶手段 63の当該リンクの強化信号の累積 値 D8に加算して累積値を更新するとともに、当該リンクの強化信号 D9に上書きし、 また、各入力佃 Jリンク 101, 102, 103の入力佃 Jノード 106, 107, 108【こ対して付与 する強化信号 R2 (l) , R2 (2) , R2 (3)を、ノード情報記憶手段 62の当該ノードの強 化信号の合計値 C10に加算(当該ノードには、他の構成エレメントからも強化信号が 伝播されてくるので、それらを加算するという意味である。)する (ステップ S50404)。 [0131] Further, the learning means 51 calculates the reinforcement signal RT to be given to the test link 105. At this time, the learning means 51 calculates the reinforcement signal assuming that the test link 105 exists as an input side link of the intermediate OR node 100 (step S50403). First, when the output Y does not change due to the addition of the test link 105 as an input side link, the input TX (x) of the test link 105, that is, the output of the test link 105 (the test link of the link information storage means 63) It is obtained by reading the output D7 of 105.) is added, and the enhancement signal RT is calculated according to the cases 1 to 5 described above. Next, if the output Υ changes due to the addition of the test link 105 as an input side link, the input TX by the test link 105, that is, the output D7 of the test link 105 is added to the input X (k), Substitute the inverted value of the output C9 (actual output) of the OR node 100, and change the sign of the intermediate OR node 100 enhancement signal C10 (actual enhancement signal sum) to R — C10 By substituting and applying the rules in Cases 1-5 above, the enhancement signal RT is calculated. [0132] Then, the enhancement signal calculated as described above, that is, the enhancement signal Rl (1), R1 (2), R1 (3) to be given to each of the input side links 101, 102, 1103, and the test The strengthening signal RT to be given to the link 105 is added to the cumulative value D8 of the strengthening signal of the link in the link information storage means 63 to update the cumulative value, overwriting the strengthening signal D9 of the link, and , Each input 佃 J link 101, 102, 103 input 佃 J node 106, 107, 108 [Reinforced signal R2 (l), R2 (2), R2 (3) is sent to the node information storage means 62 Is added to the total value C10 of the strengthening signal of the relevant node (meaning that the strengthening signal is propagated to the relevant node also from other constituent elements, meaning that they are added) (step S50404).
[0133] 続いて、学習手段 51は、各入力側リンク 101, 102, 103について、それぞれリンク 情報記憶手段 63の当該リンクの強化信号の累積値 D8が閾値 (本実施形態では、一 例として 0とする。)を下回っている力否かを判断し、下回っている場合には、その入 力側リンクを削除する (ステップ S50405)。この場合には、後述する図 12の反転リン クの削除処理 E5または非反転リンクの削除処理 E6を行う。  Subsequently, the learning unit 51 sets the cumulative value D8 of the reinforcement signal of the link in the link information storage unit 63 for each of the input side links 101, 102, and 103 as a threshold value (in this embodiment, as an example, 0). It is determined whether or not the force is below, and if it is below, the input side link is deleted (step S50405). In this case, the reverse link deletion process E5 or the non-inverted link deletion process E6 shown in FIG.
[0134] また、学習手段 51は、テストリンク 105について、リンク情報記憶手段 63の当該リン クの強化信号の累積値 D8が閾値 (本実施形態では、一例として 0とする。)を下回つ ている力否かを判断し、下回っている場合には、テストリンク 105を削除する (ステップ S50406) oこの場合には、後述する図 12のテスト反転リンクの削除処理 E7またはテ スト非反転リンクの削除処理 E8を行う。そして、任意のノードに結合する新たなテスト リンクをランダムに生成し、ノード情報記憶手段 62の中間 ORノード 100のテストリンク アドレス C4に登録する。 Further, in the test link 105, the learning means 51 has a cumulative value D8 of the reinforcement signal of the link in the link information storage means 63 that falls below a threshold value (in this embodiment, 0 as an example). Test link 105 is deleted (step S50406) o In this case, test reverse link deletion process E7 or test non-reverse link in Fig. 12 described later is deleted. Delete process E8. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate OR node 100 of the node information storage means 62.
[0135] さらに、学習手段 51は、テストリンク 105について、リンク情報記憶手段 63の当該リ ンクの強化信号の累積値 D8が閾値を上回っている力否かを判断し、上回っている場 合には、テストリンク 105を実リンクに昇格させて実用化するため、ノード情報記憶手 段 62の中間 ORノード 100のテストリンクアドレス C4と、中間 ORノード 100のアドレス B2と、ネットワークアドレス C3とを用いて、実リンクを新たに生成し、中間 ORノード 10 0の入力側リンクアドレス C1に追加登録する。この際、テストリンク 105についてのリン ク情報記憶手段 63の反転'非反転フラグ D5が True (反転リンクを意味する。 )のとき には、反転リンクを新たに生成し、 False (非反転リンクを意味する。)のときには、非 反転リンクを新たに生成する。また、これと併せて、テストリンク 105を削除する。この 場合には、後述する図 12のテスト反転リンクの削除処理 E7またはテスト非反転リンク の削除処理 E8を行う。そして、任意のノードに結合する新たなテストリンクをランダム に生成し、ノード情報記憶手段 62の中間 ORノード 100のテストリンクアドレス C4に登 録する(ステップ S 50407)。 [0135] Further, the learning means 51 determines whether or not the cumulative value D8 of the reinforcement signal of the link in the link information storage means 63 exceeds the threshold for the test link 105. Uses the test link address C4 of the intermediate OR node 100 of the node information storage unit 62, the address B2 of the intermediate OR node 100, and the network address C3 in order to promote the test link 105 to a real link for practical use. Thus, a real link is newly generated and additionally registered to the input side link address C1 of the intermediate OR node 100. At this time, if the inversion / non-inversion flag D5 of the link information storage means 63 for the test link 105 is True (meaning an inversion link), an inversion link is newly generated and False (a non-inversion link is set). Means) Create a new reverse link. At the same time, the test link 105 is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate OR node 100 of the node information storage means 62 (step S 50407).
[0136] そして、学習手段 51は、中間 ORノード 100の入力側リンクアドレス C1に登録され ている入力側リンクの数力 1以下になった場合には、中間 ORノード 100を削除する (ステップ S50408)。この場合には、後述する図 12の中間 ORノードの削除処理 E1 を行う。 Then, the learning means 51 deletes the intermediate OR node 100 when the power of the input side link registered in the input side link address C1 of the intermediate OR node 100 becomes 1 or less (step S50408). ). In this case, the intermediate OR node deletion process E1 shown in FIG.
[0137] それから、学習手段 51は、ノード情報記憶手段 62の中間 ORノード 100の強化信 号の合計値 C 10をクリアして 0にする(ステップ S 50409)。  Then, the learning means 51 clears the total value C 10 of the reinforcement signals of the intermediate OR node 100 in the node information storage means 62 to 0 (step S 50409).
[0138] <中間 ANDノードの学習処理 >  [0138] <Intermediate AND node learning processing>
中間 ANDノードの学習処理は、上述した中間 ORノードの学習処理と略同様であ る。先ず、学習手段 51は、中間 ANDノードに対して付与された強化信号 Rに基づき 、中間 ANDノードの入出力状態に応じて、各入力側リンクの中間 ANDノードの出力 Yへの寄与度に従って各入力側リンクに強化信号が分配 (伝播)されるように、各入 力側リンクに対して付与する強化信号 Rl (k)を算定する。また、これと併せて、各入 力側リンクの入力側ノードに対して付与する強化信号 R2 (k)を算定する。  The intermediate AND node learning process is substantially the same as the intermediate OR node learning process described above. First, based on the reinforcement signal R given to the intermediate AND node, the learning means 51 determines each of the input links according to the contribution to the output Y of the intermediate AND node according to the input / output state of the intermediate AND node. The reinforcement signal Rl (k) to be given to each input link is calculated so that the reinforcement signal is distributed (propagated) to the input link. At the same time, the reinforcement signal R2 (k) given to the input side node of each input side link is calculated.
[0139] この際、前述した中間 ORノードの強化信号の算定の際の入力 X(k)および出力 Y へ、中間 ANDノードの入力側リンクアドレス C1に対応する各入力側リンクの出力 D7 および中間 ANDノードの出力 C9の値を代入するときに、それらの値を反転させて代 入する。これは、ド 'モルガンの法則により、 ANDノードの入出力を全て反転させると 、 ORノードとなること〖こよるものである。  [0139] At this time, to the input X (k) and output Y in the calculation of the reinforcement signal of the intermediate OR node described above, the output D7 and intermediate of each input side link corresponding to the input side link address C1 of the intermediate AND node AND node output When substituting the value of C9, invert those values and substitute them. This is because, according to De Morgan's law, if all inputs and outputs of an AND node are reversed, it becomes an OR node.
[0140] そして、学習手段 51は、上記のようにド 'モルガンの法則に従って入出力を全て反 転させることにより、前述した中間 ORノードの学習処理の場合と同じルールで、中間 ANDノードに結合されている N本の入力側リンクのうち着目する 1本の入力側リンク に対して付与する強化信号 Rl (k) (k= 1〜N)、および着目する 1本の入力側リンク の入力側ノードに対して付与する強化信号 R2 (k) (k= l〜N)を算定する。すなわち 、 k番目(k= l〜N)の入力側リンク力 前述したケース 1〜5のいずれに該当するか を判断し、 1本 1本の入力側リンクについて強化信号 Rl (k)を算定するとともに、 1本 1本の入力側リンクの入力側ノードについて強化信号 R2 (k)を算定していく。 [0140] Then, the learning means 51 is coupled to the intermediate AND node according to the same rule as the above-described intermediate OR node learning process by inverting all inputs and outputs according to the de Morgan's law as described above. Reinforcement signal Rl (k) (k = 1 to N) to be given to one input-side link of interest among the N input-side links being used, and the input side of one input-side link of interest The reinforcement signal R2 (k) (k = l to N) given to the node is calculated. Ie K-th (k = l to N) input side link force Judgment as to which of the above cases 1 to 5 applies, and the reinforcement signal Rl (k) is calculated for each one input side link. The reinforcement signal R2 (k) is calculated for the input side node of one input side link.
[0141] 図 9には、伝播元の中間 ANDノード力 図 7の中間 ORノード 100のように 3つの入 力側リンクを有する場合について、前述したケース 1〜5のルールに従って算定した 強化信号の分配例が示されている。図 9は、図 8の入出力 X(l) , X(2) , X(3) , Yを 反転させ、その他の強化信号 R, Rl (1) , R1 (2) , R1 (3) , R2 (l) , R2 (2) , R2 (3) をそのままとした状態となって 、る。  [0141] Fig. 9 shows the intermediate AND node power of the propagation source. In the case of having three input side links like the intermediate OR node 100 in Fig. 7, the reinforcement signal calculated according to the rules of cases 1 to 5 described above is used. Examples of distribution are shown. Fig. 9 shows the inputs / outputs X (l), X (2), X (3), Y in Fig. 8 inverted and other enhanced signals R, Rl (1), R1 (2), R1 (3), R2 (l), R2 (2) and R2 (3) are left as they are.
[0142] さらに、学習手段 51は、テストリンクに対して付与する強化信号 RTを算定する。こ の際、学習手段 51は、テストリンク力 仮に中間 ANDノードの入力側リンクとして存 在していた場合を想定して強化信号を算定する。先ず、テストリンクが入力側リンクと して加わることにより出力 Yが変化しない場合には、入力 X(k)にテストリンクによる入 力 TX、すなわちテストリンクの出力(リンク情報記憶手段 63のテストリンクの出力 D7 を読み込んで得られる。)を反転させて追加し、出力 Υに中間 ANDノードの出力 C9 を反転させた値を代入し、前述したケース 1〜5の場合分けに従ってその強化信号 R Tを算定する。次に、テストリンクが入力側リンクとして加わることにより出力 Yが変化 する場合には、入力 X(k)にテストリンクによる入力 TX、すなわちテストリンクの出力 D 7を反転させて追加し、 Υへ中間 ANDノードの出力 C9 (実際の出力)の値を代入し、 Rへ中間 ANDノードの強化信号の合計値 C10 (実際の強化信号の合計値)の符号 を変えた— C10を代入して、前述したケース 1〜5のルールを適用することにより、そ の強化信号 RTを算定する。  [0142] Further, the learning means 51 calculates the reinforcement signal RT to be given to the test link. At this time, the learning means 51 calculates the reinforcement signal assuming that the test link force exists as an input link of the intermediate AND node. First, if the output Y does not change due to the addition of the test link as the input side link, the input TX (ie, the test link output of the link information storage means 63) is input to the input X (k). Is obtained by inverting the output D7 of the intermediate AND node and substituting the value obtained by inverting the output C9 of the intermediate AND node for the output 、. Calculate. Next, if the output Y changes due to the addition of the test link as the input side link, the input TX by the test link, that is, the output D7 of the test link is inverted and added to the input X (k). The value of the intermediate AND node output C9 (actual output) is substituted, and the sign of the intermediate AND node enhancement signal sum C10 (actual enhancement signal sum) is changed to R—substituting C10, The reinforcement signal RT is calculated by applying the rules of cases 1 to 5 described above.
[0143] そして、以上のようにして算定した強化信号、すなわち各入力側リンクに対して付与 する強化信号 Rl (k) (k= l〜N)と、テストリンクに対して付与する強化信号 RTとを、 リンク情報記憶手段 63の当該リンクの強化信号の累積値 D8に加算して累積値を更 新するとともに、当該リンクの強化信号 D9に上書きし、また、各入力側リンクの入力側 ノードに対して付与する強化信号 R2 (k) (k= l〜N)を、ノード情報記憶手段 62の当 該ノードの強化信号の合計値 C10に加算(当該ノードには、他の構成エレメントから も強化信号が伝播されてくるので、それらを加算するという意味である。)する。 [0144] 続いて、学習手段 51は、各入力側リンクについて、それぞれリンク情報記憶手段 6 3の当該リンクの強化信号の累積値 D8が閾値 (本実施形態では、一例として 0とする 。)を下回っている力否かを判断し、下回っている場合には、その入力側リンクを削除 する。この場合には、後述する図 12の反転リンクの削除処理 E5または非反転リンク の削除処理 E6を行う。 [0143] The enhancement signal calculated as described above, that is, the enhancement signal Rl (k) (k = l to N) given to each input side link and the enhancement signal RT given to the test link. Is added to the cumulative value D8 of the link strengthening signal in the link information storage means 63 to update the cumulative value, and overwrites the strengthening signal D9 of the link, and the input side node of each input side link The enhancement signal R2 (k) (k = l to N) given to the node is added to the total value C10 of the enhancement signal of the node in the node information storage means 62 (the node also includes other component elements). Since the reinforcement signal is propagated, it means to add them). Subsequently, for each input side link, the learning unit 51 sets the cumulative value D8 of the enhancement signal of the link in the link information storage unit 63 as a threshold value (in this embodiment, it is set to 0 as an example). Judgment is made whether or not the force is below. If it is below, the input side link is deleted. In this case, the reverse link deletion process E5 or the non-inverted link deletion process E6 shown in FIG.
[0145] また、学習手段 51は、テストリンクについて、リンク情報記憶手段 63の当該リンクの 強化信号の累積値 D8が閾値 (本実施形態では、一例として 0とする。)を下回ってい る力否かを判断し、下回っている場合には、テストリンクを削除する。この場合には、 後述する図 12のテスト反転リンクの削除処理 E7またはテスト非反転リンクの削除処 理 E8を行う。そして、任意のノードに結合する新たなテストリンクをランダムに生成し、 ノード情報記憶手段 62の中間 ANDノードのテストリンクアドレス C4に登録する。  [0145] In addition, for the test link, the learning unit 51 determines whether or not the cumulative value D8 of the enhancement signal of the link in the link information storage unit 63 is lower than a threshold value (in this embodiment, 0 as an example). If it is below, delete the test link. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate AND node of the node information storage means 62.
[0146] さらに、学習手段 51は、テストリンクについて、リンク情報記憶手段 63の当該リンク の強化信号の累積値 D8が閾値を上回っているか否かを判断し、上回っている場合 には、テストリンクを実リンクに昇格させて実用化するため、ノード情報記憶手段 62の 中間 ANDノードのテストリンクアドレス C4と、中間 ANDノードのアドレス B2と、ネット ワークアドレス C3とを用いて、実リンクを新たに生成し、中間 ANDノードの入力側リン クアドレス C1に追加登録する。この際、テストリンクについてのリンク情報記憶手段 63 の反転 '非反転フラグ D5が True (反転リンクを意味する。)のときには、反転リンクを 新たに生成し、 False (非反転リンクを意味する。)のときには、非反転リンクを新たに 生成する。また、これと併せて、テストリンクを削除する。この場合には、後述する図 1 2のテスト反転リンクの削除処理 E7またはテスト非反転リンクの削除処理 E8を行う。そ して、任意のノードに結合する新たなテストリンクをランダムに生成し、ノード情報記憶 手段 62の中間 ANDノードのテストリンクアドレス C4に登録する。  [0146] Further, the learning means 51 determines whether or not the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 exceeds the threshold for the test link. To the actual link, the actual link is newly created by using the test link address C4 of the intermediate AND node of the node information storage means 62, the address B2 of the intermediate AND node, and the network address C3. Generated and additionally registered to the input AND link address C1 of the intermediate AND node. At this time, if the inversion 'non-inversion flag D5 of the link information storage means 63 for the test link is True (meaning an inversion link), a new inversion link is generated and False (meaning a non-inversion link). In the case of, a new non-inverted link is created. At the same time, the test link is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the intermediate AND node of the node information storage means 62.
[0147] そして、学習手段 51は、中間 ANDノードの入力側リンクアドレス C1に登録されて いる入力側リンクの数力 1以下になった場合には、中間 ANDノードを削除する。こ の場合には、後述する図 12の中間 ANDノードの削除処理 E2を行う。  Then, the learning means 51 deletes the intermediate AND node when the power of the input side link registered in the input side link address C1 of the intermediate AND node is 1 or less. In this case, the intermediate AND node deletion process E2 in FIG.
[0148] それから、学習手段 51は、ノード情報記憶手段 62の中間 ANDノードの強化信号 の合計値 C10をクリアして 0にする。 [0149] <テスト中間 ORノードの学習処理 > Then, the learning means 51 clears the total value C10 of the reinforcement signal of the intermediate AND node in the node information storage means 62 to zero. [0149] <Test intermediate OR node learning process>
テスト中間 ORノードの学習処理は、前述した中間 ORノードの学習処理(図 7参照) を簡略ィ匕したものである。先ず、学習手段 51は、テスト中間 ORノードに対して付与さ れた強化信号 Rに基づき、テスト中間 ORノードの入出力状態に応じて、第 1および第 2の入力側テストリンク(後述する図 10の場合と同様)のテスト中間 ORノードの出力 Y への寄与度に従って第 1および第 2の入力側テストリンクに強化信号が分配 (伝播)さ れるように、第 1および第 2の入力側テストリンクに対して付与する強化信号 Rl (1) , R1 (2)を算定する。但し、中間 ORノードの学習処理 (図 7参照)の場合とは異なり、 テスト中間 ORノードの学習処理では、第 1および第 2の入力側テストリンクに対して付 与する強化信号 Rl (l) , Rl (2)のみを算定し、第 1および第 2の入力側テストリンク の各入力側ノードに対して付与する強化信号 R2 (1) , R2 (2)は算定しな!、。  The test intermediate OR node learning process is a simplified version of the previously described intermediate OR node learning process (see Fig. 7). First, the learning means 51, based on the reinforcement signal R given to the test intermediate OR node, according to the input / output state of the test intermediate OR node, the first and second input side test links (FIG. (As in 10) The first and second input sides so that the enhancement signal is distributed (propagated) to the first and second input test links according to the contribution to the output Y of the test intermediate OR node. The reinforcement signals Rl (1) and R1 (2) given to the test link are calculated. However, unlike the learning process of the intermediate OR node (see Fig. 7), in the learning process of the test intermediate OR node, the reinforcement signal Rl (l) given to the first and second input side test links , Rl (2) is calculated, and the enhancement signals R2 (1) and R2 (2) to be given to each input node of the first and second input test links are not calculated!
[0150] この際、学習手段 51は、前述した中間 ORノードの学習処理の場合と全く同じルー ルで、第 1および第 2の入力側テストリンク力 前述したケース 1〜5のいずれに該当 する力をそれぞれ判断し、強化信号 Rl (1) , R1 (2)を算定する。なお、テスト中間 O Rノードには、ノード情報記憶手段 62のテストリンクアドレス C4に登録すべきテストリ ンクは無いので、このテストリンクアドレス C4に対応するテストリンクに対して付与する 強化信号 RTの算定は行わな 、。  [0150] At this time, the learning means 51 is exactly the same rule as the above-described intermediate OR node learning process, and corresponds to any of the first and second input-side test link forces described above. Each force is judged and the reinforcement signals Rl (1) and R1 (2) are calculated. Since there is no test link to be registered at the test link address C4 of the node information storage means 62 in the test intermediate OR node, the calculation of the reinforcement signal RT to be given to the test link corresponding to the test link address C4 is as follows. Do not do.
[0151] そして、以上のようにして算定した第 1および第 2の入力側テストリンクに対して付与 する強化信号 Rl (l) , Rl (2)を、リンク情報記憶手段 63の当該リンクの強化信号の 累積値 D8に加算して累積値を更新するとともに、当該リンクの強化信号 D9に上書き する。なお、第 1および第 2の入力側テストリンクの各入力側ノードに対して付与する 強化信号 R2 (l) , R2 (2)は算定されないので、これらをノード情報記憶手段 62の当 該ノードの強化信号の合計値 C10に加算する処理は行わない。  [0151] Then, the reinforcement signals Rl (l) and Rl (2) to be given to the first and second input side test links calculated as described above are used to strengthen the link of the link information storage means 63. The cumulative value is updated by adding to the cumulative value D8 of the signal, and overwritten on the enhancement signal D9 of the link. Note that the reinforcement signals R2 (l) and R2 (2) to be given to the input side nodes of the first and second input side test links are not calculated. Processing to add to the total value C10 of the enhancement signal is not performed.
[0152] 続いて、学習手段 51は、第 1、第 2の入力側テストリンクについて、それぞれリンク 情報記憶手段 63の当該リンクの強化信号の累積値 D8が閾値 (本実施形態では、一 例として 0とする。)を下回っている力否かを判断し、下回っている場合には、その入 力側テストリンクを削除する。この場合には、後述する図 12のテスト反転リンクの削除 処理 E7またはテスト非反転リンクの削除処理 E8を行う。なお、第 1の入力側テストリン クは、削除されないように十分に大きな正の値の強化信号を蓄えた状態にしておくの で、結局、ここで削除されるのは、第 2の入力側テストリンクとなる。また、このようにし て第 2の入力側テストリンクが削除された場合の他に、第 2の入力側テストリンクの入 力側ノード (実ノード)の削除に伴って第 2の入力側テストリンクが削除された場合を 含め、リンクの数が 1になったとき(つまり、第 1の入力側テストリンクだけになつたとき) には、任意のノードに結合する新たな第 2の入力側テストリンクをランダムに生成し、ノ ード情報記憶手段 62のテスト中間 ORノードの入力側テストリンクアドレス CI (C1 (2) となる。 )に登録する。 [0152] Subsequently, the learning means 51 sets the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 for each of the first and second input-side test links as a threshold value (in this embodiment, as an example) It is determined whether or not the force is lower than 0. If it is lower, the input test link is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Note that the first input side test line In this case, it is the second input side test link that is deleted in the end, since a sufficiently large positive signal is stored so that it is not deleted. In addition to the case where the second input-side test link is deleted in this way, the second input-side test link is deleted along with the deletion of the input-side node (real node) of the second input-side test link. When the number of links reaches 1 (ie, when only the first input test link is reached), including the case where the is deleted, a new second input test that joins to any node A link is randomly generated and registered in the test link OR node CI (C1 (2)) of the test intermediate OR node of the node information storage means 62.
[0153] さらに、学習手段 51は、ノード情報記憶手段 62のテスト中間 ORノードの第 1の入 力側テストリンクアドレス C1 (配列 1番目の C1 (1)となる。 )に対応する第 1の入力側 テストリンクの強化信号の累積値 D8を、十分大きな正の値 (例えば 103QQ等)に設定し 、累積値 D8に、十分大きな正の値が常に保持されるようにし、第 1の入力側テストリン クが削除されないようにする。 Further, the learning means 51 is the first input corresponding to the first input-side test link address C1 (which is the first array C1 (1)) of the test intermediate OR node of the node information storage means 62. Set the accumulated value D8 of the enhanced signal on the input side test link to a sufficiently large positive value (for example, 10 3QQ ) so that the accumulated value D8 always keeps a sufficiently large positive value. Make sure that the side test link is not deleted.
[0154] <テスト中間 ANDノードの学習処理 >  [0154] <Test intermediate AND node learning process>
テスト中間 ANDノードの学習処理は、前述した中間 ANDノードの学習処理を簡略 化したものである。先ず、学習手段 51は、テスト中間 ANDノードに対して付与された 強化信号 Rに基づき、テスト中間 ANDノードの入出力状態に応じて、第 1および第 2 の入力側テストリンク (後述する図 10参照)のテスト中間 ANDノードの出力 Yへの寄 与度に従って第 1および第 2の入力側テストリンクに強化信号が分配 (伝播)されるよ うに、第 1および第 2の入力側テストリンクに対して付与する強化信号 Rl (l) , Rl (2) を算定する。但し、中間 ANDノードの学習処理の場合とは異なり、テスト中間 ANDノ ードの学習処理では、第 1および第 2の入力側テストリンクに対して付与する強化信 号 Rl (l) , R1 (2)のみを算定し、第 1および第 2の入力側テストリンクの各入力側ノ ードに対して付与する強化信号 R2 (1) , R2 (2)は算定しな!、。  The test intermediate AND node learning process is a simplification of the intermediate AND node learning process described above. First, the learning means 51 determines the first and second input side test links (FIG. 10 described later) according to the input / output state of the test intermediate AND node based on the reinforcement signal R given to the test intermediate AND node. Test intermediate AND node to the first and second input test links so that the enhanced signal is distributed (propagated) to the first and second input test links according to the contribution to the output Y of the test intermediate AND node The reinforcement signals Rl (l) and Rl (2) to be given are calculated. However, unlike the intermediate AND node learning process, in the test intermediate AND node learning process, the reinforcement signals Rl (l) and R1 ( Only 2) is calculated, and the enhanced signals R2 (1) and R2 (2) to be given to each input node of the first and second input test links are not calculated!
[0155] この際、学習手段 51は、前述した中間 ANDノードの学習処理の場合と全く同じル ールで、第 1および第 2の入力側テストリンク力 前述したケース 1〜5のいずれに該 当するカゝをそれぞれ判断し、強化信号 Rl (l) , R1 (2)を算定する。なお、テスト中間 ANDノードには、ノード情報記憶手段 62のテストリンクアドレス C4に登録すべきテス トリンクは無いので、このテストリンクアドレス C4に対応するテストリンクに対して付与 する強化信号 RTの算定は行わな 、。 [0155] At this time, the learning means 51 is exactly the same rule as in the above-described intermediate AND node learning process, and the first and second input-side test link forces correspond to any of the cases 1 to 5 described above. Judgment is made for each of the corresponding keys, and the reinforcement signals Rl (l) and R1 (2) are calculated. In the test intermediate AND node, the test link address C4 of the node information storage means 62 should be registered. Since there is no link, the enhancement signal RT to be assigned to the test link corresponding to this test link address C4 is not calculated.
[0156] そして、以上のようにして算定した第 1および第 2の入力側テストリンクに対して付与 する強化信号 Rl (l) , Rl (2)を、リンク情報記憶手段 63の当該リンクの強化信号の 累積値 D8に加算して累積値を更新するとともに、当該リンクの強化信号 D9に上書き する。なお、第 1および第 2の入力側テストリンクの各入力側ノードに対して付与する 強化信号 R2 (l) , R2 (2)は算定されないので、これらをノード情報記憶手段 62の当 該ノードの強化信号の合計値 C10に加算する処理は行わない。  Then, the reinforcement signals Rl (l) and Rl (2) given to the first and second input-side test links calculated as described above are used to strengthen the link of the link information storage means 63. The cumulative value is updated by adding to the cumulative value D8 of the signal, and overwritten on the enhancement signal D9 of the link. Note that the reinforcement signals R2 (l) and R2 (2) to be given to the input side nodes of the first and second input side test links are not calculated. Processing to add to the total value C10 of the enhancement signal is not performed.
[0157] 続いて、学習手段 51は、第 1、第 2の入力側テストリンクについて、それぞれリンク 情報記憶手段 63の当該リンクの強化信号の累積値 D8が閾値 (本実施形態では、一 例として 0とする。)を下回っている力否かを判断し、下回っている場合には、その入 力側テストリンクを削除する。この場合には、後述する図 12のテスト反転リンクの削除 処理 E7またはテスト非反転リンクの削除処理 E8を行う。なお、第 1の入力側テストリン クは、削除されないように十分に大きな正の値の強化信号を蓄えた状態にしておくの で、結局、ここで削除されるのは、第 2の入力側テストリンクとなる。また、このようにし て第 2の入力側テストリンクが削除された場合の他に、第 2の入力側テストリンクの入 力側ノード (実ノード)の削除に伴って第 2の入力側テストリンクが削除された場合を 含め、リンクの数が 1になったとき(つまり、第 1の入力側テストリンクだけになつたとき) には、任意のノードに結合する新たな第 2の入力側テストリンクをランダムに生成し、ノ ード情報記憶手段 62のテスト中間 ANDノードの入力側テストリンクアドレス CI (C1 ( 2)となる。 )に登録する。  Subsequently, the learning means 51 sets the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 for each of the first and second input side test links as a threshold value (in this embodiment, as an example) It is determined whether or not the force is lower than 0. If it is lower, the input test link is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Note that the first input side test link is stored with a sufficiently large positive signal so that it is not deleted. It becomes a test link. In addition to the case where the second input-side test link is deleted in this way, the second input-side test link is deleted along with the deletion of the input-side node (real node) of the second input-side test link. When the number of links reaches 1 (ie, when only the first input test link is reached), including the case where the is deleted, a new second input test that joins to any node A link is randomly generated and registered in the test-side AND node input-side test link address CI (C1 (2)) of the node information storage means 62.
[0158] さらに、学習手段 51は、ノード情報記憶手段 62のテスト中間 ANDノードの第 1の入 力側テストリンクアドレス C1 (配列 1番目の C1 (1)となる。 )に対応する第 1の入力側 テストリンクの強化信号の累積値 D8を、十分大きな正の値 (例えば 103QQ等)に設定し 、累積値 D8に、十分大きな正の値が常に保持されるようにし、第 1の入力側テストリン クが削除されないようにする。 Furthermore, the learning means 51 is the first input corresponding to the first input-side test link address C1 of the test intermediate AND node of the node information storage means 62 (which is the first array C1 (1)). Set the accumulated value D8 of the enhanced signal on the input side test link to a sufficiently large positive value (for example, 10 3QQ ) so that the accumulated value D8 always keeps a sufficiently large positive value. Make sure that the side test link is not deleted.
[0159] <出力ノードの学習処理 >  [0159] <Learning process of output node>
出力ノードの学習処理は、前述した中間 ORノードの学習処理と略同様である。先 ず、学習手段 51は、出力ノードに対して付与された強化信号 Rに基づき、出力ノード の入出力状態に応じて、各入力側リンクの出力ノードの出力 Yへの寄与度に従って 各入力側リンクに強化信号が分配 (伝播)されるように、各入力側リンクに対して付与 する強化信号 Rl (k) (k= l〜N)を算定する。また、これと併せて、各入力側リンクの 入力側ノードに対して付与する強化信号 R2 (k) (k= 1〜N)を算定する。 The learning process for the output node is substantially the same as the learning process for the intermediate OR node described above. Ahead First, the learning means 51 determines each input side link according to the contribution to the output Y of the output node of each input side link according to the input / output state of the output node based on the reinforcement signal R given to the output node. The reinforcement signal Rl (k) (k = l to N) to be given to each input side link is calculated so that the reinforcement signal is distributed (propagated). At the same time, the reinforcement signal R2 (k) (k = 1 to N) given to the input side node of each input side link is calculated.
[0160] この際、学習手段 51は、前述した中間 ORノードの学習処理の場合と全く同じルー ルで、出力ノードに結合されている N本の入力側リンクのうち着目する 1本の入力側リ ンクに対して付与する強化信号 Rl (k) (k= 1〜N)、および着目する 1本の入力側リ ンクの入力側ノードに対して付与する強化信号 R2 (k) (k= l〜N)を算定する。すな わち、 k番目(k= l〜N)の入力側リンク力 前述したケース 1〜5のいずれに該当す るかを判断し、 1本 1本の入力側リンクについて強化信号 Rl (k)を算定するとともに、 1本 1本の入力側リンクの入力側ノードについて強化信号 R2 (k)を算定していく。  [0160] At this time, the learning means 51 has exactly the same rule as the learning process of the intermediate OR node described above, and one of the N input side links coupled to the output node is focused on. Reinforcement signal Rl (k) (k = 1 to N) given to the link and reinforcement signal R2 (k) (k = l) given to the input side node of one input side link of interest ~ N) is calculated. In other words, the k-th (k = l to N) input side link force It is determined which of the above cases 1 to 5 applies, and the reinforcement signal Rl (k ) And the reinforcement signal R2 (k) for each input node of each input link.
[0161] さらに、学習手段 51は、出力ノードの入力側に結合されたテストリンク(出力ノード のテストリンクアドレス C4に対応するテストリンク)に対して付与する強化信号 RTを算 定する。この際、学習手段 51は、テストリンクが、仮に出力ノードの入力側リンクとして 存在していた場合を想定して強化信号を算定する。先ず、テストリンクが入力側リンク として加わることにより出力 Yが変化しない場合には、入力 X(k)にテストリンクによる 入力 TX、すなわちテストリンクの出力(リンク情報記憶手段 63のテストリンクの出力 D 7を読み込んで得られる。)を追加し、前述したケース 1〜5の場合分けに従ってその 強化信号 RTを算定する。次に、テストリンクが入力側リンクとして加わることにより出 力 Υが変化する場合には、入力 X(k)にテストリンクによる入力 TX、すなわちテストリ ンクの出力 D7を追加し、 Υへ出力ノードの出力 C9 (実際の出力)を反転させた値を 代入し、 Rへ出力ノードの強化信号の合計値 C10 (実際の強化信号の合計値)の符 号を変えた C 10を代入して、前述したケース 1〜5のルールを適用することにより、 その強化信号 RTを算定する。  [0161] Further, the learning means 51 calculates the reinforcement signal RT to be given to the test link coupled to the input side of the output node (the test link corresponding to the test link address C4 of the output node). At this time, the learning means 51 calculates the reinforcement signal assuming that the test link exists as the input side link of the output node. First, when the output Y does not change due to the addition of the test link as the input side link, the input TX (X) of the test link, that is, the output of the test link (the output D of the test link of the link information storage means 63) 7) is added, and the enhancement signal RT is calculated according to the cases 1-5 described above. Next, when the output Υ changes due to the addition of the test link as the input side link, the input TX by the test link, that is, the output D7 of the test link is added to the input X (k), and the output node of 出力 is added to Υ. Substituting the inverted value of output C9 (actual output), and substituting C 10 with the sign of the total value of the enhancement signal C10 (total value of the actual enhancement signal) changed to R By applying the rules of Cases 1-5, the enhancement signal RT is calculated.
[0162] そして、以上のようにして算定した強化信号、すなわち各入力側リンクに対して付与 する強化信号 Rl (k) (k= l〜N)と、テストリンクに対して付与する強化信号 RTとを、 リンク情報記憶手段 63の当該リンクの強化信号の累積値 D8に加算して累積値を更 新するとともに、当該リンクの強化信号 D9に上書きし、また、各入力側リンクの入力側 ノードに対して付与する強化信号 R2 (k) (k= l〜N)を、ノード情報記憶手段 62の当 該ノードの強化信号の合計値 C10に加算(当該ノードには、他の構成エレメントから も強化信号が伝播されてくるので、それらを加算するという意味である。)する。 [0162] Then, the enhancement signal calculated as described above, that is, the enhancement signal Rl (k) (k = l to N) given to each input side link and the enhancement signal RT given to the test link. To the cumulative value D8 of the link enhancement signal of the link information storage means 63 to update the cumulative value. In addition to overwriting the strengthening signal D9 of the link, the strengthening signal R2 (k) (k = l to N) to be given to the input side node of each input side link is stored in the node information storage means 62. It is added to the total value C10 of the enhancement signal of the node (the enhancement signal is propagated to the node from other constituent elements, meaning that they are added).
[0163] 続いて、学習手段 51は、各入力側リンクについて、それぞれリンク情報記憶手段 6 3の当該リンクの強化信号の累積値 D8が閾値 (本実施形態では、一例として 0とする 。)を下回っている力否かを判断し、下回っている場合には、その入力側リンクを削除 する。この場合には、後述する図 12の反転リンクの削除処理 E5または非反転リンク の削除処理 E6を行う。 [0163] Subsequently, the learning means 51 sets a threshold value (in this embodiment, 0 as an example) for the cumulative value D8 of the reinforcement signal of the link information storage means 63 for each input side link. Judgment is made whether or not the force is below. If it is below, the input side link is deleted. In this case, the reverse link deletion process E5 or the non-inverted link deletion process E6 shown in FIG.
[0164] また、学習手段 51は、テストリンクについて、リンク情報記憶手段 63の当該リンクの 強化信号の累積値 D8が閾値 (本実施形態では、一例として 0とする。)を下回ってい る力否かを判断し、下回っている場合には、テストリンクを削除する。この場合には、 後述する図 12のテスト反転リンクの削除処理 E7またはテスト非反転リンクの削除処 理 E8を行う。そして、任意のノードに結合する新たなテストリンクをランダムに生成し、 ノード情報記憶手段 62の出力ノードのテストリンクアドレス C4に登録する。  [0164] In addition, for the test link, the learning unit 51 determines whether or not the cumulative value D8 of the strengthening signal of the link in the link information storage unit 63 is below a threshold value (in this embodiment, it is 0 as an example). If it is below, delete the test link. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the output node of the node information storage means 62.
[0165] さらに、学習手段 51は、テストリンクについて、リンク情報記憶手段 63の当該リンク の強化信号の累積値 D8が閾値を上回っているか否かを判断し、上回っている場合 には、テストリンクを実リンクに昇格させて実用化するため、ノード情報記憶手段 62の 出力ノードのテストリンクアドレス C4と、この出力ノードのアドレス B3と、ネットワークァ ドレス C3とを用いて、実リンクを新たに生成し、出力ノードの入力側リンクアドレス C1 に追加登録する。この際、テストリンクについてのリンク情報記憶手段 63の反転'非 反転フラグ D5が True (反転リンクを意味する。)のときには、反転リンクを新たに生成 し、 False (非反転リンクを意味する。)のときには、非反転リンクを新たに生成する。ま た、これと併せて、テストリンクを削除する。この場合には、後述する図 12のテスト反 転リンクの削除処理 E7またはテスト非反転リンクの削除処理 E8を行う。そして、任意 のノードに結合する新たなテストリンクをランダムに生成し、ノード情報記憶手段 62の 出力ノードのテストリンクアドレス C4に登録する。  [0165] Further, for the test link, the learning means 51 determines whether or not the cumulative value D8 of the enhancement signal of the link in the link information storage means 63 exceeds the threshold value. To create a real link using the test link address C4 of the output node of the node information storage means 62, the address B3 of this output node, and the network address C3. And additionally register with the input side link address C1 of the output node. At this time, when the inversion / non-inversion flag D5 of the link information storage means 63 for the test link is True (meaning an inversion link), an inversion link is newly generated and False (meaning a non-inversion link). In this case, a new non-inverted link is generated. At the same time, the test link is deleted. In this case, the test inversion link deletion process E7 or the test non-inversion link deletion process E8 in FIG. 12 described later is performed. Then, a new test link coupled to an arbitrary node is randomly generated and registered in the test link address C4 of the output node of the node information storage means 62.
[0166] そして、学習手段 51は、出力ノードの入力側リンクアドレス C1に登録されている入 力側リンクの数力 0になった場合には、ネットワークアドレス C3でネットワーク情報記 憶手段 61を参照し、入力ノードアドレス Bl、中間ノードアドレス B2、出力ノードアドレ ス B3からランダムに選択したノードアドレスと、当該出力ノードのアドレスと、ネットヮー クアドレス C3とを用いて、反転リンクまたは非反転リンクのいずれかをランダムに選択 して新たに実リンクを生成し、生成した実リンクのアドレスを当該出力ノードの入力側 リンクアドレス C1に加える。この場合には、後述する図 11の反転リンクの初期化処理 G9または非反転リンクの初期化処理 G10を行う。 [0166] Then, the learning means 51 receives the input registered at the input side link address C1 of the output node. When the power of the power side link becomes 0, the network information storage means 61 is referred to by the network address C3, and the node address randomly selected from the input node address Bl, the intermediate node address B2, and the output node address B3 Then, using the address of the output node and the network address C3, either an inverted link or a non-inverted link is randomly selected to generate a new actual link, and the generated actual link address is used as the output node. Add to the link address C1. In this case, an inversion link initialization process G9 or a non-inversion link initialization process G10 in FIG. 11 described later is performed.
[0167] それから、学習手段 51は、ノード情報記憶手段 62の出力ノードの強化信号の合計 値 C10をクリアして 0にする。  [0167] Then, the learning means 51 clears the total value C10 of the reinforcement signal of the output node of the node information storage means 62 to zero.
[0168] <反転リンクの学習処理 >  [0168] <Inverted link learning process>
反転リンクの学習処理は、後述する非反転リンクの学習処理と等しいので、説明を 省略する。  Since the reverse link learning process is the same as the non-inverted link learning process described later, description thereof is omitted.
[0169] <非反転リンクの学習処理 >  [0169] <Non-inverted link learning process>
図 10には、学習対象となる非反転リンク(実リンク) 120の一例が示されている。非 反転リンク 120の入力側には、入力側ノード 121が結合され、出力側には、出力側ノ ード 122が結合されている。また、非反転リンク 120に付随してテストノード 123 (図示 の例では、テスト中間 ANDノードである力 テスト中間 ORノードでもよい。)が設けら れている。このテストノード 123の入力側には、第 1および第 2の入力側テストリンク 12 4, 125が結合され、出力側には、出力側テストリンク 126が結合されている。但し、出 力側テストリンク 126は、本実施形態では、実質的な情報伝達を行わないので、二点 鎖線で示されている。そして、第 1の入力側テストリンク 124は、非反転リンク 120の入 力側ノード 121に結合され、第 2の入力側テストリンク 125は、任意のノード 127にラ ンダムに結合され、出力側テストリンク 126は、非反転リンク 120の出力側ノード 122 に結合されている。  FIG. 10 shows an example of a non-inverted link (real link) 120 to be learned. An input side node 121 is coupled to the input side of the non-inverted link 120, and an output side node 122 is coupled to the output side. In addition, a test node 123 (in the illustrated example, a force test intermediate OR node that is a test intermediate AND node) may be provided along with the non-inverted link 120. First and second input side test links 124, 125 are coupled to the input side of the test node 123, and an output side test link 126 is coupled to the output side. However, since the output side test link 126 does not perform substantial information transmission in this embodiment, it is indicated by a two-dot chain line. The first input test link 124 is coupled to the input node 121 of the non-inverted link 120, and the second input test link 125 is randomly coupled to any node 127 for output test. Link 126 is coupled to output node 122 of non-inverted link 120.
[0170] ここで、非反転リンク 120の出力を Yとし、テストノード 123の出力を TYとし、非反転 リンク 120に対して付与される強化信号を R 1とし、非反転リンク 120の入力側ノード 1 21に対して付与される強化信号を R2とし、テストノード 123に対して付与される強化 信号を RTとする。 [0171] 図 6において、先ず、学習手段 51は、伝播元の非反転リンク 120に対して付与され た強化信号 R1に基づき、伝播元の非反転リンク 120の出力 Yおよび伝播先のテスト ノード 123の出力 TYの状態に応じて、伝播先のテストノード 123に対して付与する強 化信号 RTを算定する (ステップ S50601)。 [0170] Here, the output of the non-inverted link 120 is set to Y, the output of the test node 123 is set to TY, the enhancement signal given to the non-inverted link 120 is set to R 1, and the input side node of the non-inverted link 120 is set. 1 The enhancement signal given to 21 is R2, and the enhancement signal given to test node 123 is RT. In FIG. 6, first, the learning means 51, based on the reinforcement signal R1 given to the non-inverted link 120 of the propagation source, the output Y of the non-inverted link 120 of the propagation source and the test node 123 of the propagation destination. In accordance with the state of the output TY, the reinforcement signal RT to be given to the propagation destination test node 123 is calculated (step S50601).
[0172] この際、伝播元の非反転リンク 120に対して付与された強化信号 R1は、リンク情報 記憶手段 63の非反転リンク 120の強化信号 D9を読み込んで得られる。また、伝播 元の非反転リンク 120の出力 Yは、リンク情報記憶手段 63の非反転リンク 120の出力 D7を読み込んで得られる。さらに、伝播先のテストノード 123の出力 TYは、リンク情 報記憶手段 63の非反転リンク 120のテストノードアドレス D4を参照し、そのテストノー ドアドレス D4に対応するテストノード 123についてのノード情報記憶手段 62のノード の出力 C9を読み込んで得られる。  At this time, the enhancement signal R1 given to the non-inverted link 120 of the propagation source is obtained by reading the enhanced signal D9 of the non-inverted link 120 of the link information storage unit 63. Further, the output Y of the non-inverted link 120 of the propagation source can be obtained by reading the output D7 of the non-inverted link 120 of the link information storage means 63. Further, the output TY of the test node 123 of the transmission destination refers to the test node address D4 of the non-inverted link 120 of the link information storage means 63, and stores the node information about the test node 123 corresponding to the test node address D4. It is obtained by reading the output C9 of the node of means 62.
[0173] そして、学習手段 51は、次のようなルールで、伝播先のテストノード 123に対して付 与する強化信号 RTを算定する。  [0173] Then, the learning means 51 calculates the reinforcement signal RT to be given to the propagation destination test node 123 according to the following rules.
[0174] ケース 1: (R1 >0) Λ (TY=Y)の場合には、 RT=0とする。この場合は、 TY=Y であるので、非反転リンク 120が存在していれば、用が足りるため、テストノード 123は 、必要ないからである。  Case 1: When (R1> 0) Λ (TY = Y), RT = 0. In this case, since TY = Y, if the non-inverted link 120 exists, the test node 123 is not necessary because it is sufficient.
[0175] ケース 2 : (R1 >0) Λ (TY≠Y)の場合には、テストノード 123を削除し、新たにテス トノードを生成し (生成するテストノードの第 2の入力側テストリンクを任意のノードにラ ンダムに結合する。)、リンク情報記憶手段 63の非反転リンク 120のテストノードアドレ ス D4に登録する。この際、非反転リンク 120の出力側ノードアドレス D2に対応する出 力側ノード 122の AND'ORノードフラグ C5力 True (ANDノードを意味する。)のと きには、テスト中間 ORノードを生成し、 False (ORノードを意味する。)のときには、テ スト中間 ANDノードを生成する。この場合は、 R1 >0であり、非反転リンク 120が良 い働きをしているのに対し、 TY≠Yであり、テストノード 123が非反転リンク 120と異 なる出力を行っているため、テストノード 123が悪い働きをすると考えられるからであ る。  [0175] Case 2: When (R1> 0) Λ (TY ≠ Y), test node 123 is deleted and a new test node is generated (the second input-side test link of the test node to be generated is Randomly connect to an arbitrary node.), Register to the test node address D4 of the non-inverted link 120 of the link information storage means 63. At this time, when the AND'OR node flag C5 force True (meaning an AND node) of the output node 122 corresponding to the output node address D2 of the non-inverted link 120 is generated, a test intermediate OR node is generated. If it is False (meaning an OR node), a test intermediate AND node is generated. In this case, R1> 0 and the non-inverted link 120 works well, whereas TY ≠ Y and the test node 123 outputs differently than the non-inverted link 120. This is because the test node 123 is considered to work badly.
[0176] ケース 3 : (R1≤0) Λ (TY=Y)の場合には、 RT=R1とする。この場合は、 R1≤0 であり、非反転リンク 120が悪い働きをしているのに対し、 TY=Yであり、テストノード 123も非反転リンク 120と同じ出力を行っているので、テストノード 123に対しても非 反転リンク 120の場合と同様に強化信号として罰を与える。 [0176] Case 3: When (R1≤0) Λ (TY = Y), RT = R1. In this case, R1≤0 and non-inverted link 120 is working badly, whereas TY = Y and test node Since 123 outputs the same as the non-inverted link 120, the test node 123 is given a punishment as an enhancement signal as in the case of the non-inverted link 120.
[0177] ケース 4 : (R1≤0) Λ (TY≠Y)の場合には、 RT=— R1とする。この場合は、 Rl≤[0177] Case 4: When (R1≤0) Λ (TY ≠ Y), RT = —R1. In this case, Rl≤
0であり、非反転リンク 120が悪い働きをしているのに対し、 TY≠Yであり、テストノー ド 123は、非反転リンク 120と異なる出力を行っているので、テストノード 123に対して は、非反転リンク 120の場合とは異なり、強化信号として報酬を与える。 0, and the non-inverted link 120 is working badly, whereas TY ≠ Y, and the test node 123 outputs differently from the non-inverted link 120. Unlike the non-inverted link 120, it rewards as an enhanced signal.
[0178] そして、以上のようにして算定したテストノード 123に対して付与する強化信号 RTを[0178] The enhancement signal RT to be given to the test node 123 calculated as described above is
、ノード情報記憶手段 62の当該ノードの強化信号の合計値 C10に加算する(図 6の ステップ S50602)。 Then, it is added to the total value C10 of the reinforcement signal of the node in the node information storage means 62 (step S50602 in FIG. 6).
[0179] 続いて、学習手段 51は、ノード情報記憶手段 62のテストノード 123の AND'ORノ ードフラグ C5力 True (ANDノードを意味する。)のときには、テストノード 123につ いて前述したテスト中間 ANDノードの学習処理を行い、 False (ORノードを意味する 。)のときには、前述したテスト中間 ORノードの学習処理を行う(ステップ S50603)。  [0179] Subsequently, when the learning means 51 has the AND'OR node flag C5 force True (meaning an AND node) of the test node 123 of the node information storage means 62, the above-described test intermediate for the test node 123 is performed. An AND node learning process is performed, and if it is False (which means an OR node), the above-described test intermediate OR node learning process is performed (step S50603).
[0180] その後、学習手段 51は、テストノード 123の第 1および第 2の入力側テストリンク 12 4, 125の双方について、リンク情報記憶手段 63のこれらのリンクの強化信号の累積 値 D8が閾値を上回って 、る力否かを判断し、 V、ずれも閾値を上回って 、る場合には 、テストノード 123を実ノードに昇格させて実用化するため、テストノード 123のァドレ ス D4と、学習対象となっている非反転リンク 120のアドレスと、ネットワークアドレス D3 とを用いて、実ノードを新たに生成し、ネットワークアドレス D3を参照してネットワーク 情報記憶手段 61の中間ノードアドレス B2に追加登録する(ステップ S50604)。この 際、ノード情報記憶手段 62のテストノード 123の AND 'ORノードフラグ C5が、 True (ANDノードを意味する。)のときには、中間 ANDノードを生成し、 False (ORノード を意味する。)のときには、中間 ORノードを生成する。また、これと併せて、テストノー ド 123を削除し、学習対象となっている非反転リンク 120も削除する。  [0180] Thereafter, the learning means 51 sets the cumulative value D8 of the reinforcement signals of these links in the link information storage means 63 for both the first and second input side test links 124, 125 of the test node 123 as the threshold value. In order to determine whether or not the force exceeds V, and the deviation also exceeds the threshold, the test node 123 is promoted to a real node and put into practical use. A new real node is generated using the address of the non-inverted link 120 to be learned and the network address D3, and additionally registered to the intermediate node address B2 of the network information storage means 61 with reference to the network address D3. (Step S50604). At this time, when the AND 'OR node flag C5 of the test node 123 of the node information storage means 62 is True (meaning an AND node), an intermediate AND node is generated and False (meaning an OR node) is generated. Sometimes an intermediate OR node is created. At the same time, the test node 123 is deleted, and the non-inverted link 120 to be learned is also deleted.
[0181] <テスト反転リンクの学習処理 >  [0181] <Test reverse link learning process>
テスト反転リンクは、学習を行わない。  The test reversal link does not learn.
[0182] <テスト非反転リンクの学習処理 >  [0182] <Test non-inverted link learning process>
テスト非反転リンクは、学習を行わない。 [0183] 図 11には、初期化の構成が示されている。図 11において、ロボット初期化処理 G1 、ネットワーク初期化処理 G2、入力ノード初期化処理 G3、および出力ノード初期化 処理 G4は、プログラムを立ち上げ、ロボット 30の動作制御を開始した直後にのみ行 う力 その他のノードやリンクの初期化処理 G5〜G12は、ロボット 30の動作制御を開 始した直後のみならず、その後の学習でノードやリンクが生成される都度に行う。また 、初期化の方法は、ノードの種類やリンクの種類によって異なり、状況に応じて複数 の初期化を使い分ける場合も存在する。さらに、初期化処理内で別の初期化処理を 行う必要が生じる場合もあり、それぞれの初期化は関連しあっている。そして、これら の初期化の関係が図 11に示されている。図 11において、矢印の付け根の初期化を 行うには、矢印の先端の初期化が必要である。図中の実線は、必ず使用し、点線は 、使用する可能性があることを意味する。なお、図中の一点鎖線は、昇格によりテスト ノードやテストリンクから実ノードや実リンクになる場合を示している。 Test non-inverted links do not learn. FIG. 11 shows an initialization configuration. In Fig. 11, robot initialization processing G1, network initialization processing G2, input node initialization processing G3, and output node initialization processing G4 are performed only immediately after starting the program and starting the operation control of robot 30. Force Initialization processing of other nodes and links G5 to G12 are performed not only immediately after the operation control of the robot 30 is started, but also every time a node or link is generated by subsequent learning. In addition, the initialization method differs depending on the type of node and the type of link, and there are cases where a plurality of initializations are used properly depending on the situation. In addition, it may be necessary to perform another initialization process within the initialization process, and each initialization is related. Figure 11 shows the relationship between these initializations. In Fig. 11, it is necessary to initialize the tip of the arrow to initialize the root of the arrow. The solid line in the figure means that it must be used, and the dotted line means that it may be used. In the figure, the alternate long and short dash line indicates a case where a test node or test link is changed to a real node or real link by promotion.
[0184] <ロボット初期化処理 Gl >  [0184] <Robot initialization processing Gl>
ロボット初期化処理 G1では、ロボット情報記憶手段 60の入力配列 A1および出力 配列 A2は、初期化の必要はない。ネットワークアドレス A3については、本実施形態 では、一例として、入力ノード数 128、出力ノード数 32で初期化し、得られたネットヮ ークアドレスを登録する。 A4, A5, A6は、 0とする。  In the robot initialization process G1, the input array A1 and the output array A2 of the robot information storage means 60 do not need to be initialized. As an example, in the present embodiment, the network address A3 is initialized with the number of input nodes 128 and the number of output nodes 32, and the obtained network address is registered. A4, A5, A6 shall be 0.
[0185] <ネットワーク初期化処理 G2>  [0185] <Network initialization processing G2>
ネットワーク初期化処理 G2では、ネットワーク情報記憶手段 61に記憶する情報の 初期化処理を行う。ネットワーク 20は、入力ノード 21の数と出力ノード 23の数を指定 して初期化する。入力ノードアドレス B1には、初期化されるべきネットワーク 20のアド レスを使用し、指定された入力ノード数の分だけ入力ノード 21の初期化処理 G3を行 い、得られた入力ノード 21のアドレスを順次登録する。中間ノードアドレス B2への登 録は、中間ノード 22が生成される都度に行うので、中間ノードアドレス B2の初期化は 必要ない。出力ノードアドレス B3には、初期化されるべきネットワーク 20のアドレスを 使用し、指定された出力ノード数の分だけ出力ノード 23の初期化処理 G4を行い、得 られた出力ノード 23のアドレスを順次登録する。ネットワーク 20に対する強化信号 B4 は、 0とする。 [0186] <入力ノード初期化処理 G3 > In the network initialization process G2, the information stored in the network information storage means 61 is initialized. The network 20 is initialized by specifying the number of input nodes 21 and the number of output nodes 23. The input node address B1 uses the address of the network 20 to be initialized, performs the initialization process G3 of the input node 21 for the specified number of input nodes, and obtains the address of the input node 21 obtained. Are registered sequentially. Since registration to the intermediate node address B2 is performed every time the intermediate node 22 is generated, it is not necessary to initialize the intermediate node address B2. For the output node address B3, the address of the network 20 to be initialized is used, the initialization process G4 of the output node 23 is performed for the specified number of output nodes, and the obtained output node 23 address is sequentially sign up. The enhancement signal B4 for network 20 is zero. [0186] <Input node initialization processing G3>
入力ノード 21は、この入力ノード 21が所属するネットワーク 20のアドレス(ノード情 報記憶手段 62に記憶させるネットワークアドレス C3)を指定して初期化する。入カノ ード 21は、ダミーノードなので、入力側リンクアドレス C1の初期化の必要はない。出 力側リンクアドレス C2への登録は、入力ノード 21の出力側に結合される出力側リンク が生成される都度に行うので、出力側リンクアドレス C2の初期化の必要はない。ネッ トワークアドレス C3は、指定されたネットワーク 20のアドレスを用いて上書きする。入 力ノード 21は、ダミーノードなので、テストリンクアドレス C4および AND 'ORノードフ ラグ C5の初期化の必要はない。当該ノードが入力ノード 21であるから、入力ノードフ ラグ C6は、 Trueとし、出力ノードフラグ C7およびテストノードフラグ C8は、初期化し ないか、 Falseとする。ノードの出力 C9は、入力変換手段 52により設定されるので( 図 4のステップ S507参照)、初期化の必要はない。強化信号の合計値 C10は、 0と する。  The input node 21 specifies and initializes the address of the network 20 to which the input node 21 belongs (network address C3 stored in the node information storage means 62). Since input node 21 is a dummy node, there is no need to initialize input side link address C1. Since registration to the output side link address C2 is performed every time an output side link coupled to the output side of the input node 21 is generated, there is no need to initialize the output side link address C2. The network address C3 is overwritten with the specified network 20 address. Since input node 21 is a dummy node, there is no need to initialize test link address C4 and AND 'OR node flag C5. Since this node is the input node 21, the input node flag C6 is set to True, and the output node flag C7 and the test node flag C8 are not initialized or set to False. Since the output C9 of the node is set by the input conversion means 52 (see step S507 in FIG. 4), there is no need for initialization. The total value C10 of the enhancement signal is 0.
[0187] <出力ノード初期化処理 G4>  [0187] <Output node initialization processing G4>
出力ノード 23は、この出力ノード 23が所属するネットワーク 20のアドレス(ノード情 報記憶手段 62に記憶させるネットワークアドレス C3)を指定して初期化する。入力側 リンクアドレス C1については、指定されたネットワークアドレス C3で参照されるネットヮ ーク情報記憶手段 61の入力ノードアドレス Bl、出力ノードアドレス B3からランダムに 選択したノードアドレス(なお、中間ノードアドレス B2には、この時点ではデータは入 つていないので、選択対象とはならない。)と、この初期化される出力ノード 23のアド レスと、指定されたネットワークアドレス C3とを用いて、図 13に示すように、ランダムに 選択されたノード 140に結合される実リンク 141を、反転リンクまたは非反転リンクの V、ずれかをランダムに選択して新たに生成し(図 11の反転リンク初期化処理 G9また は非反転リンク初期化処理 G10を行う。)、生成された実リンク 141のアドレスを入力 側リンクアドレス C1にカ卩える。この際、実リンク 141に付随するテストノード 142も新た に生成し(図 11のテスト中間 ORノード初期化処理 G7またはテスト中間 ANDノード 初期化処理 G8を行う。)、さらにノード 140に結合される第 1の入力側テストリンク 143 と、初期化の対象となっている出力ノード 23に結合される出力側テストリンク 144と、 任意のノード 145にランダムに結合される第 2の入力側テストリンク 146とを新たに生 成する(図 11のテスト反転リンク初期化処理 G 11またはテスト非反転リンク初期化処 理 G 12を行う。 ) o The output node 23 specifies and initializes the address of the network 20 to which the output node 23 belongs (network address C3 stored in the node information storage means 62). For the input side link address C1, a node address randomly selected from the input node address Bl and the output node address B3 of the network information storage means 61 referenced by the designated network address C3 (in addition, the intermediate node address B2) Since no data is entered at this point, it cannot be selected.), And the address of the output node 23 to be initialized and the specified network address C3 are used. In this way, the real link 141 coupled to the randomly selected node 140 is newly generated by randomly selecting the V of the inverted link or the non-inverted link and the shift (the inverted link initialization process G9 in FIG. 11). Alternatively, non-inverted link initialization processing G10 is performed), and the generated address of the real link 141 is stored in the input side link address C1. At this time, a test node 142 attached to the actual link 141 is also newly generated (the test intermediate OR node initialization process G7 or the test intermediate AND node initialization process G8 in FIG. 11 is performed) and further coupled to the node 140. A first input test link 143 and an output test link 144 coupled to the output node 23 to be initialized; A second input test link 146 that is randomly coupled to an arbitrary node 145 is newly generated (the test reverse link initialization process G 11 or the test non-reverse link initialization process G 12 in FIG. 11 is performed). O)
[0188] 出力側リンクアドレス C2の初期化の必要はない。ネットワークアドレス C3は、指定さ れたネットワーク 20のアドレスを用いて上書きする。  [0188] There is no need to initialize the output side link address C2. The network address C3 is overwritten with the specified network 20 address.
[0189] テストリンクアドレス C4については、指定されたネットワークアドレス C3で参照される ネットワーク情報記憶手段 61の入力ノードアドレス Bl、出力ノードアドレス B3からラ ンダムに選択したノードアドレス(なお、中間ノードアドレス B2には、この時点ではデ ータは入っていないので、選択対象とはならない。)と、この初期化される出力ノード 2 3のアドレスと、指定されたネットワークアドレス C3とを用いて、図 13に示すように、ラ ンダムに選択されたノード 147に結合されるテストリンク 148を、テスト反転リンクまた はテスト非反転リンクの 、ずれかをランダムに選択して新たに生成し(図 11のテスト反 転リンク初期化処理 G 11またはテスト非反転リンク初期化処理 G 12を行う。)、生成さ  [0189] For the test link address C4, a node address randomly selected from the input node address Bl and output node address B3 of the network information storage means 61 referenced by the designated network address C3 (note that the intermediate node address B2 Since no data is entered at this point, it is not a selection target.), And the address of the output node 23 to be initialized and the specified network address C3 are used. As shown in Fig. 11, a new test link 148 coupled to a randomly selected node 147 is generated by randomly selecting either the test reversal link or the test non-reversal link (the test in Fig. 11). Reverse link initialization process G 11 or test non-reverse link initialization process G 12).
[0190] AND'ORノードフラグ C5は、本実施形態では、出力ノード 23は ORノードとするた め、 False (ORノードを意味する。)とする。また、当該ノードが出力ノード 23であるか ら、入力ノードフラグ C6は、 Falseとし、出力ノードフラグ C7は、 Trueとし、テストノー ドフラグ C8は、 Falseとする。さらに、ノードの出力 C9は、 Falseとし、強化信号の合 計値 C 10は、 0とする。 [0190] The AND'OR node flag C5 is set to False (meaning an OR node) because the output node 23 is an OR node in this embodiment. Since the node is the output node 23, the input node flag C6 is set to False, the output node flag C7 is set to True, and the test node flag C8 is set to False. Furthermore, the node output C9 is set to False, and the total value C10 of the enhancement signal is set to 0.
[0191] <中間 ORノード初期化処理 G5 >  [0191] <Intermediate OR node initialization processing G5>
中間 ORノード初期化処理 G5は、削除される実リンク (テストリンク以外のリンクのい ずれ力 )を指定し、参照することで行われる。この処理は、ネットワーク 20内から実リン ク 1本を削除し、その実リンクに付随するテストノード (その実リンクについてのリンク情 報記憶手段 63のテストノードアドレス D4に対応するテストノード)を実ノードへと昇格 させる際に使用される処理だ力 である。  Intermediate OR node initialization processing G5 is performed by specifying and referencing the actual link to be deleted (the force of any link other than the test link). In this process, one real link is deleted from the network 20, and the test node associated with the real link (the test node corresponding to the test node address D4 of the link information storage means 63 for the real link) is transferred to the real node. It is the processing power that is used when promoting.
[0192] 入力側リンクアドレス C1については、図 14に示すように、削除対象として指定され た実リンク 160に付随するテスト中間 ORノード 161 (リンク情報記憶手段 63の実リン ク 160のテストノードアドレス D4に対応するテストノード)の第 1および第 2の入力側テ ストリンク 162, 163のアドレス CI (CI (1) , CI (2) )と、生成される初期化対象の中 間 ORノード 180のアドレス(これ力も確保しょうとしているメモリ領域のアドレス)とを用 いて、第 1の入力側テストリンク 162がテスト反転リンクであれば反転リンク(実リンク) を、第 1の入力側テストリンク 162がテスト非反転リンクであれば非反転リンク(実リンク )を新たに初期化して生成し(図 11の反転リンク初期化処理 G9または非反転リンク初 期化処理 G10を行う。)、その生成された実リンクを中間 ORノード 180の入力側リンク 181として登録するために、入力側リンク 181のアドレスを入力側リンクアドレス C1に 登録する。同様に、第 2の入力側テストリンク 163がテスト反転リンクであれば反転リン ク(実リンク)を、第 2の入力側テストリンク 163がテスト非反転リンクであれば非反転リ ンク(実リンク)を新たに初期化して生成し(図 11の反転リンク初期化処理 G9または 非反転リンク初期化処理 G10を行う。)、その生成された実リンクを中間 ORノード 18 0の入力側リンク 182として登録するために、入力側リンク 182のアドレスを入力側リン クアドレス C1に登録する。つまり、第 1の入力側テストリンク 162と、入力側リンク 181 との反転'非反転を一致させ、かつ、第 2の入力側テストリンク 163と、入力側リンク 18 2との反転'非反転を一致させる。この際、入力側リンク 181の入力側ノードは、第 1の 入力側テストリンク 162の入力側に結合されていたノード 164 (すなわち、削除される 実リンク 160の入力側ノード)とし、入力側リンク 182の入力側ノードは、第 2の入力側 テストリンク 163の入力側に結合されていたノード 165とする。なお、図示は省略され ているが、新たに生成した入力側リンク 181, 182には、これらにそれぞれ付随する テストノードが設けられる(図 11のテスト中間 ORノード初期化処理 G7またはテスト中 間 ANDノード初期化処理 G8を行う。 ) o [0192] For the input side link address C1, as shown in FIG. 14, the test intermediate OR node 161 (the test node address of the real link 160 of the link information storage means 63) associated with the real link 160 designated as the deletion target Test node corresponding to D4) first and second input side test Use the addresses CI (CI (1), CI (2)) of the strings 162 and 163 and the address of the intermediate OR node 180 to be initialized that is generated (the address of the memory area that is also trying to secure this). If the first input test link 162 is a test reversal link, a reversal link (real link) is newly added. If the first input test link 162 is a test non-reverse link, a non-reverse link (real link) is renewed. (Inverted link initialization process G9 or non-inverted link initialization process G10 in Fig. 11 is performed.), And the generated actual link is registered as input side link 181 of intermediate OR node 180. Next, register the input link 181 address as the input link address C1. Similarly, if the second input test link 163 is a test inverting link, the inverting link (real link) is used. If the second input test link 163 is a test non-inverting link, the non-inverting link (real link) is used. ) Is newly generated (inverted link initialization processing G9 or non-inverted link initialization processing G10 in FIG. 11 is performed), and the generated actual link is used as the input side link 182 of the intermediate OR node 18 0 To register, the address of the input side link 182 is registered to the input side link address C1. In other words, the inversion and non-inversion of the first input side test link 162 and the input side link 181 are matched, and the inversion and non-inversion of the second input side test link 163 and the input side link 182 are Match. At this time, the input side node of the input side link 181 is the node 164 coupled to the input side of the first input side test link 162 (that is, the input side node of the actual link 160 to be deleted), and the input side link The input side node of 182 is the node 165 coupled to the input side of the second input side test link 163. Although not shown in the figure, the newly generated input links 181, 182 are provided with test nodes respectively associated with them (test intermediate OR node initialization process G7 or test intermediate AND in FIG. 11). Execute node initialization processing G8.) O
その後、中間 ORノード 180の第 1番目の入力側リンク 181 (入力側リンクアドレス C 1のうち、配列の先頭に格納される入力側リンクアドレス C (l)に対応する入力側リン ク)の強化信号の累積値 D8を、削除対象として指定された実リンク 160の強化信号 の累積値 D8で上書きすることで初期化する。これは、後述するテスト中間 ORノード 初期化処理 G7およびテスト中間 ANDノード初期化処理 G8の説明に示すように、削 除される実リンク 160と、テスト中間 ORノード 161の第 1の入力側テストリンク 162との 反転 ·非反転は一致しているので、結局、第 1番目の入力側リンク 181は、実リンク 16 0と反転 *非反転が一致していることから、削除する実リンク 160の強化信号を第 1番 目の入力側リンク 181が受け継ぐ形にするものである。 Then, strengthen the first input side link 181 of the intermediate OR node 180 (the input side link corresponding to the input side link address C (l) stored at the beginning of the array out of the input side link address C1). Initialization is performed by overwriting the accumulated signal value D8 with the accumulated value D8 of the enhancement signal of the actual link 160 specified as the deletion target. This is because the test link OR node initialization process G7 and the test intermediate AND node initialization process G8, which will be described later, the actual link 160 to be deleted and the first input side test of the test intermediate OR node 161. Since the inversion and non-inversion of link 162 match, after all, the first input link 181 is the actual link 16 Since 0 and inversion * non-inversion match, the first input link 181 takes over the strengthening signal of the actual link 160 to be deleted.
[0194] 出力側リンクアドレス C2については、図 14に示すように、生成される初期化対象の 中間 ORノード 180のアドレスと、削除対象として指定された実リンク 160の出力側ノ 一ドアドレス D2と、削除対象として指定された実リンク 160のネットワークアドレス D3 とを用いて、非反転リンク(実リンク)を新たに初期化して生成し(図 11の非反転リンク 初期化処理 G10を行う。)、その生成された実リンクを中間 ORノード 180の出力側リ ンク 183として登録するために、出力側リンク 183のアドレスを出力側リンクアドレス C 2に登録する。この際、出力側リンク 183の出力側ノードは、テスト中間 ORノード 161 の出力側テストリンク 166の出力側に結合されていたノード 167 (すなわち、削除され る実リンク 160の出力側ノード)とする。なお、図示は省略されている力 新たに生成 した出力側リンク 183には、これに付随するテストノードが設けられる(図 11のテスト中 間 ORノード初期化処理 G7またはテスト中間 ANDノード初期化処理 G8を行う。 )。  [0194] As shown in Fig. 14, the output-side link address C2 includes the generated intermediate OR node 180 address to be initialized and the output-side node address D2 of the real link 160 specified as the deletion target. And the network address D3 of the real link 160 designated as the deletion target, a non-inverted link (real link) is newly initialized and generated (the non-inverted link initialization process G10 in FIG. 11 is performed). In order to register the generated real link as the output side link 183 of the intermediate OR node 180, the address of the output side link 183 is registered in the output side link address C2. At this time, the output side node of the output side link 183 is the node 167 coupled to the output side of the output side test link 166 of the test intermediate OR node 161 (that is, the output side node of the actual link 160 to be deleted). . It should be noted that the force is not shown in the figure. The newly generated output side link 183 has a test node associated with it (the test node OR node initialization process G7 or the test intermediate AND node initialization process in FIG. 11). Do G8).
[0195] また、生成された非反転リンク(実リンク)である出力側リンク 183の強化信号の累積 値 D8を、削除される実リンク 160の強化信号の累積値 D8で上書きすることで初期化 する。  [0195] In addition, initialization is performed by overwriting the cumulative value D8 of the enhanced signal of the output link 183, which is the generated non-inverted link (real link), with the cumulative value D8 of the enhanced signal of the actual link 160 to be deleted. To do.
[0196] ネットワークアドレス C3は、削除対象として指定された実リンク 160のネットワークァ ドレス D3で上書きする。  [0196] The network address C3 is overwritten with the network address D3 of the real link 160 specified as the deletion target.
[0197] テストリンクアドレス C4については、指定されたネットワークアドレス C3で参照される ネットワーク情報記憶手段 61の入力ノードアドレス Bl、中間ノードアドレス B2、出力 ノードアドレス B3からランダムに選択した 1つのノードアドレスと、生成される初期化対 象の中間 ORノード 180のアドレスと、ネットワークアドレス D3とを用いて、図 14に示 すように、ランダムに選択されたノード 184に結合されるテストリンク 185を、テスト反 転リンクまたはテスト非反転リンクのいずれかをランダムに選択して新たに生成し(図 1 1のテスト反転リンク初期化処理 G 11またはテスト非反転リンク初期化処理 G 12を行う 。;)、生成されたテストリンク 185のアドレスをテストリンクアドレス C4に登録する。  [0197] For the test link address C4, one node address randomly selected from the input node address Bl, the intermediate node address B2, and the output node address B3 of the network information storage means 61 referenced by the designated network address C3. Test link 185 coupled to randomly selected node 184, as shown in FIG. 14, using the generated intermediate OR node 180 address to be initialized and network address D3. Either a reverse link or a test non-reverse link is randomly selected and newly generated (perform test reverse link initialization process G 11 or test non-reverse link initialization process G 12 in Fig. 11;), The generated address of the test link 185 is registered in the test link address C4.
[0198] また、初期化対象が中間 ORノード 180であるから、 AND'ORノードフラグ C5は、 F alse (ORノードを意味する。)とし、入力ノードフラグ C6は、 Falseとし、出力ノードフラ グ C7は、 Falseとし、テストノードフラグ C8は、 Falseとする。さらに、ノードの出力 C9 は、 Falseとし、強化信号の合計値 C10は、 0とする。 [0198] Since the initialization target is the intermediate OR node 180, the AND'OR node flag C5 is set to False (meaning an OR node), the input node flag C6 is set to False, and the output node flag is set. Group C7 is False, and test node flag C8 is False. Furthermore, the node output C9 is set to False, and the total value C10 of the enhancement signal is set to 0.
[0199] <中間 ANDノード初期化処理 G6 >  [0199] <Intermediate AND node initialization processing G6>
中間 ANDノード初期化処理 G6は、前述した中間 ORノード初期化処理 G5と略同 様である。すなわち、中間 ANDノード初期化処理 G6は、削除される実リンク (テストリ ンク以外のリンクのいずれ力 )を指定し、参照することで行われる。この処理は、ネット ワーク 20内から実リンク 1本を削除し、その実リンクに付随するテストノード (その実リ ンクについてのリンク情報記憶手段 63のテストノードアドレス D4に対応するテストノー ド)を実ノードへと昇格させる際に使用される処理だ力 である。  The intermediate AND node initialization process G6 is substantially the same as the intermediate OR node initialization process G5 described above. In other words, the intermediate AND node initialization process G6 is performed by designating and referring to the actual link to be deleted (any of the links other than the test link). In this process, one real link is deleted from the network 20, and the test node attached to the real link (the test node corresponding to the test node address D4 of the link information storage means 63 for the real link) is changed to the real node. It is the processing power that is used to promote to
[0200] 入力側リンクアドレス C1については、削除対象として指定された実リンクに付随する テスト中間 ANDノード (リンク情報記憶手段 63の実リンクのテストノードアドレス D4に 対応するテストノード)の第 1および第 2の入力側テストリンクのアドレス CI (CI (1) , C1 (2) )と、生成される初期化対象の中間 ANDノードのアドレス (これから確保しょう としているメモリ領域のアドレス)とを用いて、第 1の入力側テストリンクがテスト反転リン クであれば反転リンク(実リンク)を、第 1の入力側テストリンクがテスト非反転リンクであ れば非反転リンク(実リンク)を新たに初期化して生成し(図 11の反転リンク初期化処 理 G9または非反転リンク初期化処理 G10を行う。)、その生成された実リンクを中間 ANDノードの入力側リンクとして登録するために、その実リンクのアドレスを入力側リ ンクアドレス C1に登録する。同様に、第 2の入力側テストリンクがテスト反転リンクであ れば反転リンク(実リンク)を、第 2の入力側テストリンクがテスト非反転リンクであれば 非反転リンク (実リンク)を新たに初期化して生成し(図 11の反転リンク初期化処理 G9 または非反転リンク初期化処理 G10を行う。)、その生成された実リンクを中間 AND ノードの入力側リンクとして登録するために、その実リンクのアドレスを入力側リンクァ ドレス C1に登録する。  [0200] For the input side link address C1, the first and second test intermediate AND nodes (the test node corresponding to the test link address D4 of the real link in the link information storage means 63) associated with the real link designated as the deletion target Using the address CI (CI (1), C1 (2)) of the second input side test link and the address of the intermediate AND node to be initialized (address of the memory area to be secured) If the first input test link is a test reversal link, a reverse link (real link) is newly added. If the first input test link is a test non-reverse link, a non-reverse link (real link) is newly set. Generate by initialization (reverse link initialization process G9 or non-reverse link initialization process G10 in Fig. 11), and register the generated real link as the input link of the intermediate AND node Therefore, the address of the actual link is registered in the input side link address C1. Similarly, if the second input test link is a test reversal link, a reverse link (real link) is newly added. If the second input test link is a test non-reverse link, a non-reverse link (real link) is renewed. (Inverted link initialization process G9 or non-inverted link initialization process G10 in Fig. 11 is performed.), And the generated actual link is registered as an input link of the intermediate AND node. Register the link address in the input side link address C1.
[0201] その後、中間 ANDノードの第 1番目の入力側リンク (入力側リンクアドレス C1のうち 、配列の先頭に格納される入力側リンクアドレス C (l)に対応する入力側リンク)の強 化信号の累積値 D8を、削除対象として指定された実リンクの強化信号の累積値 D8 で上書きすることで初期化する。 [0202] 出力側リンクアドレス C2については、生成される初期化対象の中間 ANDノードの アドレスと、削除対象として指定された実リンクの出力側ノードアドレス D2と、削除対 象として指定された実リンクのネットワークアドレス D3とを用いて、非反転リンク(実リン ク)を新たに初期化して生成し(図 11の非反転リンク初期化処理 G10を行う。)、その 生成された実リンクを中間 ANDノードの出力側リンクとして登録するために、その実リ ンクのアドレスを出力側リンクアドレス C2に登録する。また、生成された非反転リンク( 実リンク)である出力側リンクの強化信号の累積値 D8を、削除される実リンクの強化 信号の累積値 D8で上書きすることで初期化する。 [0201] After that, strengthen the first input link of the intermediate AND node (the input link corresponding to the input link address C (l) stored at the beginning of the array out of the input link address C1) Initialization is performed by overwriting the accumulated value D8 of the signal with the accumulated value D8 of the enhancement signal of the real link specified as the deletion target. [0202] For the output side link address C2, the generated intermediate AND node address to be initialized, the output side node address D2 of the real link specified as the deletion target, and the real link specified as the deletion target A non-inverted link (actual link) is newly initialized and generated using the network address D3 (the non-inverted link initialization process G10 in Fig. 11 is performed), and the generated actual link is intermediate ANDed. In order to register as the output link of the node, the actual link address is registered in the output link address C2. Also, initialization is performed by overwriting the accumulated value D8 of the strengthened signal of the output link that is the generated non-inverted link (actual link) with the accumulated value D8 of the strengthened signal of the actual link to be deleted.
[0203] ネットワークアドレス C3は、削除対象として指定された実リンクのネットワークアドレス D3で上書きする。  [0203] The network address C3 is overwritten with the network address D3 of the real link specified for deletion.
[0204] テストリンクアドレス C4については、指定されたネットワークアドレス C3で参照される ネットワーク情報記憶手段 61の入力ノードアドレス Bl、中間ノードアドレス B2、出力 ノードアドレス B3からランダムに選択した 1つのノードアドレスと、生成される初期化対 象の中間 ANDノードのアドレスと、ネットワークアドレス D3とを用いて、ランダムに選 択されたノードに結合されるテストリンクを、テスト反転リンクまたはテスト非反転リンク の!、ずれかをランダムに選択して新たに生成し(図 11のテスト反転リンク初期化処理 G11またはテスト非反転リンク初期化処理 G12を行う。)、生成されたテストリンクのァ ドレスをテストリンクアドレス C4に登録する。  [0204] For the test link address C4, one node address randomly selected from the input node address Bl, intermediate node address B2, and output node address B3 of the network information storage means 61 referred to by the designated network address C3. The test link coupled to the randomly selected node using the address of the intermediate AND node to be initialized generated and the network address D3 can be used as a test inverted link or a test non-inverted link. Either one of them is selected at random, and a new one is generated (test inversion link initialization processing G11 or test non-inversion link initialization processing G12 in Fig. 11 is performed), and the generated test link address is set to test link address C4. Register with.
[0205] また、初期化対象が中間 AND—ドであるから、 AND 'ORノードフラグ C5は、 True  [0205] Since the initialization target is the intermediate AND—, the AND 'OR node flag C5 is True.
(ANDノードを意味する。)とし、入力ノードフラグ C6は、 Falseとし、出力ノードフラグ C7は、 Falseとし、テストノードフラグ C8は、 Falseとする。さらに、ノードの出力 C9は 、 Falseとし、強化信号の合計値 C10は、 0とする。  The input node flag C6 is set to False, the output node flag C7 is set to False, and the test node flag C8 is set to False. Further, the output C9 of the node is set to False, and the total value C10 of the enhancement signal is set to 0.
[0206] <テスト中間 ORノード初期化処理 G7>  [0206] <Test intermediate OR node initialization processing G7>
テスト中間 ORノード初期化処理 G7は、実リンクと、この実リンクのネットワークァドレ ス D3とを指定することで行われる。これは、テスト中間 ORノード力 必ず 1本の実リン クに付随して設けられる(実リンクのテストノードアドレス D4に登録される)力もである。  Test intermediate OR node initialization process G7 is performed by specifying the real link and the network address D3 of this real link. This is also the force that is always attached to one actual link (registered at the actual link test node address D4).
[0207] 入力側テストリンクアドレス C1については、図 15に示すように、指定された実リンク 2 00の入力側ノードアドレス D1と、この生成されるテスト中間 ORノード 201のアドレスと 、指定された実リンク 200のネットワークアドレス D3とを用いて、指定された実リンク 2 00が反転リンクであればテスト反転リンクを、指定された実リンク 200が非反転リンク であればテスト非反転リンクを新たに初期化して生成し(図 11のテスト反転リンク初期 化処理 G11またはテスト非反転リンク初期化処理 G12を行う。)、生成したリンクを第 1の入力側テストリンク 202とし、そのアドレスを第 1の入力側テストリンクアドレス CI (1 )として登録し、この第 1の入力側テストリンク 202の強化信号の累積値 D8を十分大 きな正の値 (例えば 103°°等)で上書きする。これは、第 1の入力側テストリンク 202が 削除されることを防止するためである。 [0207] As shown in FIG. 15, the input-side test link address C1 includes the input-side node address D1 of the designated real link 200 and the address of the generated test intermediate OR node 201. Using the network address D3 of the specified real link 200, the test reverse link is used if the specified real link 200 is a reverse link, and the test non-reverse if the specified real link 200 is a non-reverse link. A new link is initialized and created (test reverse link initialization process G11 or test non-reverse link initialization process G12 in Fig. 11 is performed), and the generated link is designated as the first input test link 202 and its address Is registered as the first input side test link address CI (1), and the accumulated value D8 of the reinforcement signal of the first input side test link 202 is set to a sufficiently large positive value (for example, 10 3 °°). Overwrite. This is to prevent the first input side test link 202 from being deleted.
[0208] さらに、入力側テストリンクアドレス C1については、指定された実リンク 200のネット ワークアドレス D3で参照されるネットワーク情報記憶手段 61の入力ノードアドレス B1 、中間ノードアドレス B2、出力ノードアドレス B3からランダムに選択した 1つのノードア ドレスと、生成される初期化対象のテスト中間 ORノード 201のアドレスと、指定された 実リンク 200のネットワークアドレス D3とを用いて、図 15に示すように、ランダムに選 択されたノード 203に結合される第 2の入力側テストリンク 204を、テスト反転リンクま たはテスト非反転リンクの 、ずれかをランダムに選択して新たに生成し(図 11のテスト 反転リンク初期化処理 G 11またはテスト非反転リンク初期化処理 G 12を行う。)、生成 された第 2の入力側テストリンク 204のアドレスを第 2の入力側テストリンクアドレス Cl ( 2)として登録する。 [0208] Further, for the input side test link address C1, the input node address B1, the intermediate node address B2, and the output node address B3 of the network information storage means 61 referred to by the network address D3 of the designated real link 200 are used. Using one randomly selected node address, the address of the test intermediate OR node 201 to be initialized to be generated, and the network address D3 of the specified real link 200, as shown in Figure 15, randomly A second input test link 204 coupled to the selected node 203 is newly generated by randomly selecting a test inversion link or a test non-inversion link (test inversion in Fig. 11). Link initialization process G11 or test non-inverted link initialization process G12)), and the generated second input side test link 204 is added. Registering a scan as a second input test link address Cl (2).
[0209] 出力側テストリンクアドレス C2については、初期化の必要はない。テスト中間 ORノ ード 201の出力側テストリンク 205では、強化信号の蓄積は行われず、情報伝達も行 わないからである。従って、図 15では、出力側テストリンク 205は、一点鎖線で示され ている。  [0209] The output side test link address C2 does not need to be initialized. This is because the strengthened signal is not stored and the information is not transmitted in the output side test link 205 of the test intermediate OR node 201. Accordingly, in FIG. 15, the output side test link 205 is indicated by a one-dot chain line.
[0210] ネットワークアドレス C3は、指定された実リンク 200のネットワークアドレス D3で上書 きする。また、テストノードの場合には、テストリンクアドレス C4に登録すべきテストリン クは無 、ので、テストリンクアドレス C4の初期化は必要な!/、。  [0210] The network address C3 is overwritten with the network address D3 of the specified real link 200. In the case of a test node, there is no test link to be registered in the test link address C4, so it is necessary to initialize the test link address C4! /.
[0211] また、初期化対象がテスト中間 ORノードであるから、 AND 'ORノードフラグ C5は、 False (ORノードを意味する。)とし、入力ノードフラグ C6は、 Falseとし、出力ノードフ ラグ C7は、 Falseとし、テストノードフラグ C8は、 Trueとする。さらに、ノードの出力 C9 は、 Falseとし、強化信号の合計値 CIOは、 0とする。 [0211] Since the initialization target is a test intermediate OR node, AND 'OR node flag C5 is set to False (meaning an OR node), input node flag C6 is set to False, and output node flag C7 is set to False, and test node flag C8 is True. In addition, the node output C9 Is False, and the total value CIO of the enhancement signal is 0.
[0212] <テスト中間 ANDノード初期化処理 G8 >  [0212] <Test intermediate AND node initialization processing G8>
テスト中間 ANDノード初期化処理 G8は、前述したテスト中間 ORノード初期化処理 G7と略同様である。すなわち、テスト中間 ANDノード初期化処理 G8は、実リンクと、 この実リンクのネットワークアドレス D3とを指定することで行われる。これは、テスト中 間 ANDノード力 必ず 1本の実リンクに付随して設けられる(実リンクのテストノードア ドレス D4に登録される)力もである。  The test intermediate AND node initialization process G8 is substantially the same as the test intermediate OR node initialization process G7 described above. That is, the test intermediate AND node initialization process G8 is performed by designating the actual link and the network address D3 of the actual link. This is also the force that is always attached to one real link (registered in the test node address D4 of the real link) during the test.
[0213] 入力側テストリンクアドレス C1については、指定された実リンクの入力側ノードアドレ ス D1と、この生成されるテスト中間 ANDノードのアドレスと、指定された実リンクのネ ットワークアドレス D3とを用いて、指定された実リンクが反転リンクであればテスト反転 リンクを、指定された実リンクが非反転リンクであればテスト非反転リンクを新たに初期 化して生成し(図 11のテスト反転リンク初期化処理 G 11またはテスト非反転リンク初期 化処理 G12を行う。)、生成したリンクを第 1の入力側テストリンクとし、そのアドレスを 第 1の入力側テストリンクアドレス C1 (1)として登録し、この第 1の入力側テストリンクの 強化信号の累積値 D8を十分大きな正の値 (例えば 103°°等)で上書きする。これは、 第 1の入力側テストリンクが削除されることを防止するためである。 [0213] For the input side test link address C1, the specified real link input side node address D1, the generated test intermediate AND node address, and the specified real link network address D3 If the specified real link is a reverse link, a test reverse link is generated. If the specified real link is a non-reverse link, a new test non-reverse link is generated (see the test reverse link in Figure 11). Initialize processing G11 or test non-inverted link initialization processing G12)), register the generated link as the first input test link address C1 (1) Overwrite the accumulated signal D8 of the first input side test link with a sufficiently large positive value (eg, 10 3 °°). This is to prevent the first input test link from being deleted.
[0214] さらに、入力側テストリンクアドレス C1については、指定された実リンクのネットヮー クアドレス D3で参照されるネットワーク情報記憶手段 61の入力ノードアドレス Bl、中 間ノードアドレス B2、出力ノードアドレス B3からランダムに選択した 1つのノードアドレ スと、生成される初期化対象のテスト中間 ANDノードのアドレスと、指定された実リン クのネットワークアドレス D3とを用いて、ランダムに選択されたノードに結合される第 2 の入力側テストリンクを、テスト反転リンクまたはテスト非反転リンクの 、ずれかをラン ダムに選択して新たに生成し(図 11のテスト反転リンク初期化処理 G 11またはテスト 非反転リンク初期化処理 G12を行う。)、生成された第 2の入力側テストリンクのァドレ スを第 2の入力側テストリンクアドレス C1 (2)として登録する。  [0214] Further, for the input side test link address C1, from the input node address Bl, the intermediate node address B2, and the output node address B3 of the network information storage means 61 referred to by the network address D3 of the designated real link. Combined with a randomly selected node using one randomly selected node address, the generated test intermediate AND node address to be initialized, and the network address D3 of the specified real link A second input test link is newly generated by randomly selecting either the test reversal link or the test non-reverse link (test reversal link initialization process G11 in Fig. 11 or test non-reversed link initial). ), The address of the generated second input side test link is changed to the second input side test link address. Register as C1 (2).
[0215] 出力側テストリンクアドレス C2については、初期化の必要はない。テスト中間 AND ノードの出力側テストリンクでは、強化信号の蓄積は行われず、情報伝達も行わない 力 である。 [0216] ネットワークアドレス C3は、指定された実リンクのネットワークアドレス D3で上書きす る。また、テストノードの場合には、テストリンクアドレス C4に登録すべきテストリンクは 無 、ので、テストリンクアドレス C4の初期化は必要な!/、。 [0215] The output side test link address C2 does not need to be initialized. In the test link at the output side of the test intermediate AND node, the enhancement signal is not stored and the information is not transmitted. [0216] The network address C3 is overwritten with the network address D3 of the specified real link. In the case of a test node, there is no test link to be registered in the test link address C4, so it is necessary to initialize the test link address C4! /.
[0217] また、初期化対象がテスト中間 ANDノードであるから、 AND 'ORノードフラグ C5は 、 True (ANDノードを意味する。)とし、入力ノードフラグ C6は、 Falseとし、出力ノー ドフラグ C7は、 Falseとし、テストノードフラグ C8は、 Trueとする。さらに、ノードの出 力 C9は、 Trueとし、強化信号の合計値 C10は、 0とする。  [0217] Since the initialization target is a test intermediate AND node, AND 'OR node flag C5 is set to True (meaning an AND node), input node flag C6 is set to False, and output node flag C7 is set to False, and test node flag C8 is True. Furthermore, the node output C9 is set to True, and the total value C10 of the enhancement signal is set to 0.
[0218] <反転リンク初期化処理 G9 >  [0218] <Inverted link initialization processing G9>
反転リンク初期化処理 G9には、次の 2通りの場合がある。 1つは、テスト反転リンク を昇格する場合であり、もう 1つは、元になるテスト反転リンク無しに、直接、反転リンク を生成する場合である。後者の場合は、プログラムを立ち上げ、ロボット 30の動作制 御を開始した直後に、出力ノード 23から他のノードに向けて生成される場合と、出力 ノード 23に結合されていた実リンクがー且削除されたときにそれに代えて生成される 場合とがある。  Reverse link initialization process G9 has the following two cases. One is to promote the test reverse link, and the other is to create the reverse link directly without the original test reverse link. In the latter case, immediately after starting the program and starting the operation control of the robot 30, there is a case where it is generated from the output node 23 toward another node, and there is a real link connected to the output node 23. And when it is deleted, it may be generated instead.
[0219] <反転リンク初期化処理 G9:テスト反転リンクを用 、た初期化処理 >  [0219] <Reverse link initialization process G9: Initialization process using test reverse link>
テスト反転リンクを用いる場合には、元になるテスト反転リンクと、出力側ノードアドレ ス D2を指定して初期化を行う。生成される反転リンクは、昇格によるものであるため、 生成される反転リンクの出力側ノードは、元になるテスト反転リンクの出力側ノードと 同じノードとなる。  When using a test reverse link, specify the original test reverse link and output node address D2 for initialization. Since the generated inverted link is due to promotion, the output node of the generated inverted link is the same node as the output node of the original test inverted link.
[0220] 入力側ノードアドレス D1については、元になるテスト反転リンクの入力側ノードアド レス D1を登録する。出力側ノードアドレス D2については、指定された出力側ノードア ドレスを登録する。ネットワークアドレス D3については、元になるテスト反転リンクのネ ットワークアドレス D3を登録する。  [0220] For the input side node address D1, register the input side node address D1 of the original test reverse link. For the output side node address D2, register the specified output side node address. For network address D3, register network address D3 of the original test reverse link.
[0221] テストノードアドレス D4については、この生成される反転リンクと、ネットワークァドレ ス D3とを指定し、指定された出力側ノードアドレス D2に対応する出力側ノード (生成 される反転リンクの出力側ノード)の AND 'ORノードフラグ C5力 True (ANDノード を意味する。)であればテスト中間 ORノードを、 False (ORノードを意味する。)であ ればテスト中間 ANDノードを、新たに初期化して生成し(図 11のテスト中間 ORノード 初期化処理 G7またはテスト中間 ANDノード初期化処理 G8を行う。)、生成されたテ ストノードをテストノードアドレス D4へ登録する。つまり、生成される反転リンクの出力 側ノードと、その反転リンクに付随するテストノードとの AND'ORを逆にする。 [0221] For test node address D4, specify this generated inverted link and network address D3, and output node corresponding to the specified output node address D2 (output of the generated inverted link) Side node) AND 'OR node flag C5 force True (means AND node), test intermediate OR node, false (means OR node), test intermediate AND node, new Initialized and generated (Test intermediate OR node in Figure 11) Perform initialization processing G7 or test intermediate AND node initialization processing G8. ) And register the generated test node at test node address D4. In other words, the AND'OR between the output node of the generated inverted link and the test node associated with the inverted link is reversed.
[0222] 反転 '非反転フラグ D5は、 True (反転リンクを意味する。 )とし、テストリンクフラグ D 6は、 Falseとする。また、リンクの出力 D7は、 Falseとし、強化信号の累積値 D8は、 指定された元になるテスト反転リンクの強化信号の累積値 D8で上書きし、強化信号 D9は、 0とする。 [0222] Inverted 'Non-inverted flag D5 is set to True (meaning inverted link), and test link flag D6 is set to False. The output D7 of the link is set to False, the accumulated value D8 of the strengthening signal is overwritten with the accumulated value D8 of the strengthening signal of the specified test inversion link, and the strengthening signal D9 is set to 0.
[0223] <反転リンク初期化処理 G9 :テスト反転リンクを用いない直接の初期化処理 > テスト反転リンクを用いない直接の初期化処理は、入力側ノードアドレス D1と、出力 側ノードアドレス D2と、ネットワークアドレス D3とを指定して行う。 D1〜D3には、指定 されたアドレスを登録する。この場合の初期化処理で生成される反転リンク(実リンク) は、出力ノード 23からしか出ていかないので、生成される反転リンクの出力側ノード は、出力ノード 23となる。一方、生成される反転リンクの入力側ノードは、ランダムに 決定される。  [0223] <Inverted link initialization processing G9: Direct initialization processing without using test inversion link> Direct initialization processing without using test inversion link consists of input node address D1 and output node address D2. Specify the network address D3. Register the specified addresses in D1 to D3. Since the inverted link (actual link) generated in the initialization process in this case only comes out from the output node 23, the output side node of the generated inverted link is the output node 23. On the other hand, the input side node of the generated reverse link is determined randomly.
[0224] テストノードアドレス D4を初期化する前に、 D5〜D9の初期化を行う。反転'非反転 フラグ D5は、 True (反転リンクを意味する。)とし、テストリンクフラグ D6は、 Falseとす る。また、リンクの出力 D7は、 Falseとし、強化信号の累積値 D8は、 0とし、強化信号 D9は、 0とする。  [0224] D5 to D9 are initialized before the test node address D4 is initialized. Inverted and non-inverted flag D5 is set to True (meaning inverted link), and test link flag D6 is set to False. The link output D7 is set to False, the enhancement signal accumulated value D8 is set to 0, and the enhancement signal D9 is set to 0.
[0225] テストノードアドレス D4については、この生成される反転リンクと、ネットワークァドレ ス D3とを指定し、指定された出力側ノードアドレス D2に対応する出力側ノード (生成 される反転リンクの出力側ノード)の AND 'ORノードフラグ C5力 True (ANDノード を意味する。)であればテスト中間 ORノードを、 False (ORノードを意味する。)であ ればテスト中間 ANDノードを、新たに初期化して生成し(図 11のテスト中間 ORノード 初期化処理 G7またはテスト中間 ANDノード初期化処理 G8を行う。)、生成されたテ ストノードをテストノードアドレス D4へ登録する。つまり、生成される反転リンクの出力 側ノードと、その反転リンクに付随するテストノードとの AND'ORを逆にする。なお、 テストノードアドレス D4を後に初期化するのは、テストノードの初期化の際に、そのテ ストノードが付随する反転リンクの反転 ·非反転フラグ D5が参照されるからである。 [0226] そして、以上のテスト反転リンクを用いた初期化処理、およびテスト反転リンクを用い ない直接の初期化処理の双方について、最後に、入力側ノードアドレス D1に対応す る入力側ノードの出力側リンクアドレス C2と、出力側ノードアドレス D2に対応する出 力側ノードの入力側リンクアドレス C1とへ、この生成される反転リンクのアドレスを登 録し、初期化を終える。 [0225] For test node address D4, specify this generated inverted link and network address D3, and output node corresponding to the specified output node address D2 (output of the generated inverted link) Side node) AND 'OR node flag C5 force True (means AND node), test intermediate OR node, false (means OR node), test intermediate AND node, new Generate and initialize (perform test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8 in Fig. 11), and register the generated test node at test node address D4. In other words, the AND'OR between the output node of the generated inverted link and the test node associated with the inverted link is reversed. The reason why the test node address D4 is initialized later is that the inversion / non-inversion flag D5 of the inversion link associated with the test node is referred to when the test node is initialized. [0226] Finally, in both the initialization process using the test inversion link and the direct initialization process without using the test inversion link, the output of the input side node corresponding to the input side node address D1 is finally provided. Register the generated inverted link address to the side link address C2 and the input side link address C1 of the output side node corresponding to the output side node address D2, and finish the initialization.
[0227] <非反転リンク初期化処理 G10>  [0227] <Non-inverted link initialization processing G10>
非反転リンク初期化処理 G10は、前述した反転リンク初期化処理 G9と略同様であ る。すなわち、非反転リンク初期化処理 G10には、次の 2通りの場合がある。 1つは、 テスト非反転リンクを昇格する場合であり、もう 1つは、元になるテスト非反転リンク無し に、直接、非反転リンクを生成する場合である。後者の場合は、プログラムを立ち上 げ、ロボット 30の動作制御を開始した直後に、出力ノード 23から他のノードに向けて 生成される場合と、出力ノード 23に結合されていた実リンクが一旦削除されたときに それに代えて生成される場合とがある。  The non-inversion link initialization process G10 is substantially the same as the above-described inversion link initialization process G9. In other words, there are the following two cases in the non-inverted link initialization process G10. One is to promote a test non-inverted link, and the other is to create a non-inverted link directly without the original test non-inverted link. In the latter case, immediately after starting the program and starting the operation control of the robot 30, there is a case where it is generated from the output node 23 toward another node, and the real link connected to the output node 23 is once. When deleted, it may be generated instead.
[0228] <非反転リンク初期化処理 G10:テスト非反転リンクを用いた初期化処理 >  [0228] <Non-inverted link initialization processing G10: Initialization processing using test non-inverted link>
テスト非反転リンクを用いる場合には、元になるテスト非反転リンクと、出力側ノード アドレス D2を指定して初期化を行う。生成される非反転リンクは、昇格によるものであ るため、生成される非反転リンクの出力側ノードは、元になるテスト非反転リンクの出 力佃 jノードと同じノードとなる。  When using a test non-inversion link, specify the original test non-inversion link and output node address D2 for initialization. Since the generated non-inverted link is due to promotion, the output node of the generated non-inverted link is the same node as the output node j of the original test non-inverted link.
[0229] 入力側ノードアドレス D1については、元になるテスト非反転リンクの入力側ノードア ドレス D1を登録する。出力側ノードアドレス D2については、指定された出力側ノード アドレスを登録する。ネットワークアドレス D3については、元になるテスト非反転リンク のネットワークアドレス D3を登録する。  [0229] For the input side node address D1, register the input side node address D1 of the original test non-inversion link. For output node address D2, register the specified output node address. For network address D3, register network address D3 of the original test non-inverted link.
[0230] テストノードアドレス D4については、この生成される非反転リンクと、ネットワークアド レス D3とを指定し、指定された出力側ノードアドレス D2に対応する出力側ノード (生 成される非反転リンクの出力側ノード)の AND 'ORノードフラグ C5力 True (ANDノ ードを意味する。)であればテスト中間 ORノードを、 False (ORノードを意味する。)で あればテスト中間 ANDノードを、新たに初期化して生成し(図 11のテスト中間 ORノ ード初期化処理 G7またはテスト中間 ANDノード初期化処理 G8を行う。)、生成され たテストノードをテストノードアドレス D4へ登録する。つまり、生成される非反転リンク の出力側ノードと、その非反転リンクに付随するテストノードとの AND 'ORを逆にす る。 [0230] For test node address D4, specify this generated non-inverted link and network address D3, and output node corresponding to the specified output node address D2 (generated non-inverted link) AND 'OR node flag of C5 force True (meaning AND node), test intermediate OR node if false (meaning OR node), test intermediate AND node if false (meaning OR node) , Newly initialized and generated (perform test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8 in Figure 11) Register the test node to test node address D4. In other words, the AND 'OR of the output node of the generated non-inverted link and the test node attached to the non-inverted link is reversed.
[0231] 反転 '非反転フラグ D5は、 False (非反転リンクを意味する。 )とし、テストリンクフラグ D6は、 Falseとする。また、リンクの出力 D7は、 Falseとし、強化信号の累積値 D8は 、指定された元になるテスト非反転リンクの強化信号の累積値 D8で上書きし、強化 信号 D9は、 0とする。  [0231] Inversion 'Non-inversion flag D5 is set to False (means non-inversion link), and test link flag D6 is set to False. The output D7 of the link is set to False, the accumulated value D8 of the enhancement signal is overwritten with the accumulated value D8 of the enhancement signal of the designated non-inverted test link, and the enhancement signal D9 is set to 0.
[0232] <非反転リンク初期化処理 G10:テスト非反転リンクを用いな 、直接の初期化処理  [0232] <Non-inverted link initialization process G10: Direct initialization process without using test non-inverted link
>  >
テスト非反転リンクを用いない直接の初期化処理は、入力側ノードアドレス D1と、出 力側ノードアドレス D2と、ネットワークアドレス D3とを指定して行う。 D1〜D3には、指 定されたアドレスを登録する。この場合の初期化処理で生成される非反転リンク (実リ ンク)は、出力ノード 23からしか出ていかないので、生成される非反転リンクの出力側 ノードは、出力ノード 23となる。一方、生成される非反転リンクの入力側ノードは、ラン ダムに決定される。  Direct initialization without using the test non-inverted link is performed by designating the input side node address D1, the output side node address D2, and the network address D3. The specified addresses are registered in D1 to D3. Since the non-inverted link (actual link) generated in the initialization process in this case is output only from the output node 23, the output-side node of the generated non-inverted link is the output node 23. On the other hand, the input side node of the generated non-inverted link is determined randomly.
[0233] テストノードアドレス D4を初期化する前に、 D5〜D9の初期化を行う。反転'非反転 フラグ D5は、 False (非反転リンクを意味する。)とし、テストリンクフラグ D6は、 False とする。また、リンクの出力 D7は、 Falseとし、強化信号の累積値 D8は、 0とし、強化 信号 D9は、 0とする。  [0233] D5 to D9 are initialized before the test node address D4 is initialized. Invert 'non-invert flag D5 is set to False (means non-inverted link), and test link flag D6 is set to False. The link output D7 is False, the enhancement signal cumulative value D8 is 0, and the enhancement signal D9 is 0.
[0234] テストノードアドレス D4については、この生成される非反転リンクと、ネットワークアド レス D3とを指定し、指定された出力側ノードアドレス D2に対応する出力側ノード (生 成される非反転リンクの出力側ノード)の AND 'ORノードフラグ C5力 True (ANDノ ードを意味する。)であればテスト中間 ORノードを、 False (ORノードを意味する。)で あればテスト中間 ANDノードを、新たに初期化して生成し(図 11のテスト中間 ORノ ード初期化処理 G7またはテスト中間 ANDノード初期化処理 G8を行う。)、生成され たテストノードをテストノードアドレス D4へ登録する。つまり、生成される非反転リンク の出力側ノードと、その非反転リンクに付随するテストノードとの AND 'ORを逆にす る。なお、テストノードアドレス D4を後に初期化するのは、テストノードの初期化の際 に、そのテストノードが付随する非反転リンクの反転 '非反転フラグ D5が参照されるか らである。 [0234] For test node address D4, specify this generated non-inverted link and network address D3, and output node corresponding to the specified output node address D2 (generated non-inverted link) AND 'OR node flag of C5 force True (meaning AND node), test intermediate OR node if false (meaning OR node), test intermediate AND node if false (meaning OR node) Then, a new initialization is performed (the test intermediate OR node initialization process G7 or the test intermediate AND node initialization process G8 in FIG. 11 is performed), and the generated test node is registered in the test node address D4. In other words, the AND 'OR of the output node of the generated non-inverted link and the test node attached to the non-inverted link is reversed. The test node address D4 is initialized later when the test node is initialized. This is because the non-inverted flag D5 of the non-inverted link associated with the test node is referred to.
[0235] そして、以上のテスト非反転リンクを用いた初期化処理、およびテスト非反転リンクを 用いない直接の初期化処理の双方について、最後に、入力側ノードアドレス D1に対 応する入力側ノードの出力側リンクアドレス C2と、出力側ノードアドレス D2に対応す る出力側ノードの入力側リンクアドレス C1とへ、この生成される非反転リンクのァドレ スを登録し、初期化を終える。  [0235] Finally, in both the initialization process using the test non-inversion link and the direct initialization process not using the test non-inversion link, finally, the input side node corresponding to the input side node address D1 Register the generated non-inverted link address to the output side link address C2 and the input side link address C1 of the output side node corresponding to the output side node address D2, and finish the initialization.
[0236] <テスト反転リンク初期化処理 Gl l >  [0236] <Test reverse link initialization processing Gl l>
テスト反転リンク初期化処理 Gi lは、入力側ノードアドレス D1と、出力側ノードアド レス D2と、ネットワークアドレス D3とを指定して行う。入力側ノードアドレス D1につい ては、指定された入力側ノードアドレスを登録する。出力側ノードアドレス D2につい ては、指定された出力側ノードアドレスを登録する。ネットワークアドレス D3について は、指定されたネットワークアドレスを登録する。  The test reverse link initialization process Gil is performed by specifying the input side node address D1, the output side node address D2, and the network address D3. For the input side node address D1, register the specified input side node address. For output node address D2, register the specified output node address. For network address D3, register the specified network address.
[0237] テストリンクには、これに付随するテストノードは設けないので、テストノードアドレス D4は、初期化の必要はない。反転 '非反転フラグ D5は、 True (反転リンクを意味す る。)とし、テストリンクフラグ D6は、 Trueとする。また、リンクの出力 D7は、 Falseとし、 強化信号の累積値 D8は、 0とし、強化信号 D9は、 0とする。  [0237] Since the test link is not provided in the test link, the test node address D4 does not need to be initialized. Inverted 'Non-inverted flag D5 is True (meaning inverted link), and test link flag D6 is True. The link output D7 is False, the enhancement signal accumulated value D8 is 0, and the enhancement signal D9 is 0.
[0238] そして、最後に、入力側ノードアドレス D1に対応する入力側ノードの出力側リンクァ ドレス C2へ、この生成されるテスト反転リンクのアドレスを登録し、初期化を終える。  [0238] Finally, the address of the generated test inversion link is registered in the output side link address C2 of the input side node corresponding to the input side node address D1, and the initialization is completed.
[0239] <テスト非反転リンク初期化処理 G12 >  [0239] <Test non-inverted link initialization processing G12>
テスト非反転リンク初期化処理 G12は、前述したテスト反転リンク初期化処理 G11と 略同様である。すなわち、テスト非反転リンク初期化処理 G12は、入力側ノードアドレ ス D1と、出力側ノードアドレス D2と、ネットワークアドレス D3とを指定して行う。入力 側ノードアドレス D1については、指定された入力側ノードアドレスを登録する。出力 側ノードアドレス D2については、指定された出力側ノードアドレスを登録する。ネット ワークアドレス D3については、指定されたネットワークアドレスを登録する。  The test non-reverse link initialization process G12 is substantially the same as the test reverse link initialization process G11 described above. That is, the test non-inversion link initialization process G12 is performed by designating the input side node address D1, the output side node address D2, and the network address D3. For the input side node address D1, the specified input side node address is registered. For the output side node address D2, register the specified output side node address. For network address D3, register the specified network address.
[0240] テストリンクには、これに付随するテストノードは設けないので、テストノードアドレス D4は、初期化の必要はない。反転'非反転フラグ D5は、 False (非反転リンクを意味 する。)とし、テストリンクフラグ D6は、 Trueとする。また、リンクの出力 D7は、 Falseと し、強化信号の累積値 D8は、 0とし、強化信号 D9は、 0とする。 [0240] Since the test link is not provided in the test link, the test node address D4 does not need to be initialized. Inverted 'non-inverted flag D5 is False (means non-inverted link To do. ) And the test link flag D6 is set to True. The link output D7 is set to False, the enhancement signal accumulated value D8 is set to 0, and the enhancement signal D9 is set to 0.
[0241] そして、最後に、入力側ノードアドレス D1に対応する入力側ノードの出力側リンクァ ドレス C2へ、この生成されるテスト非反転リンクのアドレスを登録し、初期化を終える。  [0241] Finally, the address of the generated test non-inversion link is registered in the output side link address C2 of the input side node corresponding to the input side node address D1, and the initialization is completed.
[0242] 図 12には、学習時の削除処理の構成が示されている。図 12において、前述した図 11のロボット初期化処理 Gl、ネットワーク初期化処理 G2、入力ノード初期化処理 G 3、および出力ノード初期化処理 G4に対応する終了処理は、ロボット 30の動作制御 用のプログラムを終了させる直前にのみ行うが、これらの終了処理については、ネット ワーク 20の構造変化に直接結びつくものではないので、説明は省略する。その他の ノードやリンクの終了処理は、ノードやリンクが削除される都度に行われるので、それ ぞれ学習時の削除処理 E1〜E8として説明を行う。削除の方法は、ノードの種類ゃリ ンクの種類によって異なる。図 12において、矢印の付け根の削除処理を行うには、 矢印の先端の削除処理が必要である。図中の実線は、必ず使用し、点線は、使用す る可能性があることを意味する。  [0242] FIG. 12 shows the configuration of the deletion process during learning. In FIG. 12, the end process corresponding to the robot initialization process Gl, network initialization process G2, input node initialization process G3, and output node initialization process G4 in FIG. Although it is performed only immediately before the program is terminated, these termination processes are not directly related to the structural change of the network 20 and will not be described. Since the other node and link termination processing is performed each time the node or link is deleted, it will be described as the deletion processing E1 to E8 during learning. The deletion method varies depending on the type of node and the type of link. In Fig. 12, to delete the root of the arrow, it is necessary to delete the tip of the arrow. The solid line in the figure must be used, and the dotted line means that it may be used.
[0243] <中間 ORノード削除処理 E1 >  [0243] <Intermediate OR node deletion processing E1>
中間 ORノード削除処理 E1では、先ず、削除対象の中間 ORノードのテストリンクァ ドレス C4に対応するテストリンクについてのメモリを開放する。すなわち、リンク情報記 憶手段 63の当該テストリンクの情報を、後述するテスト反転リンク削除処理 E7または テスト非反転リンク削除処理 E8に従って開放し、テストリンクを削除する。次に、削除 対象の中間 ORノードのネットワークアドレス C3を参照し、ネットワーク情報記憶手段 61の中間ノードアドレス B2から、削除対象の中間 ORノードのアドレスを検索し、肖 IJ 除する。その後、条件によって場合分けし、それぞれ異なる次のような 3通りの処理( 1)、(2)、(3)のうちのいずれかの処理を行う。  In the intermediate OR node deletion process E1, first, the memory for the test link corresponding to the test link address C4 of the intermediate OR node to be deleted is released. That is, the information on the test link in the link information storage means 63 is released according to a test reverse link deletion process E7 or a test non-reverse link deletion process E8 described later, and the test link is deleted. Next, with reference to the network address C3 of the intermediate OR node to be deleted, the address of the intermediate OR node to be deleted is searched from the intermediate node address B2 of the network information storage means 61 and removed. Then, depending on the conditions, perform one of the following three different processes (1), (2), and (3).
[0244] (1)図 16に示すように、削除対象の中間 ORノード 220の入力側リンクアドレス C1 に対応する入力側リンクが 1個であり(これを入力側リンク 221とする。)、この入力側リ ンク 221の入力側ノードアドレス D1に対応する入力側ノード 222が、削除対象の中 間 ORノード 220自身でない場合には、中間 ORノード 220の各出力側リンクアドレス C2に対応する出力側リンク(図 16では、一例として 3つの出力側リンク 223, 224, 2 25とする。)のそれぞれについて、次のような 3通りの処理(1—A)、(1— B)、 (1 -C )のうちのいずれかの処理を行う。 [0244] (1) As shown in FIG. 16, there is one input side link corresponding to the input side link address C1 of the intermediate OR node 220 to be deleted (this is referred to as the input side link 221). If the input side node 222 corresponding to the input side node address D1 of the input side link 221 is not the intermediate OR node 220 itself to be deleted, the output side corresponding to each output side link address C2 of the intermediate OR node 220 Link (in Figure 16, for example, three output links 223, 224, 2 25. ) For each of the following three types of processing (1-A), (1-B), (1-C).
[0245] (1 -A)出力側リンク 223のテストリンクフラグ D6が True (テストリンクを意味する。 ) で、かつ、その出力側リンク 223の出力側ノードアドレス D2に対応する出力側ノード 226のテストノードフラグ C8が False (実ノードを意味する。)の場合には、出力側リン ク 223、すなわち出力側ノード 226に結合されているテストリンク(出力側ノード 226の テストリンクアドレス C4に対応するテストリンク)を削除し (後述する図 12のテスト反転 リンク削除処理 E7またはテスト非反転リンク削除処理 E8を行う。)、ランダムに選択さ れたノード 240に結合するテストリンク 241をランダムに生成し (前述した図 11、図 12 のテスト反転リンク初期化処理 G11またはテスト非反転リンク初期化処理 G12を行う。 )、そのテストリンク 241のアドレスを出力側ノード 226のテストリンクアドレス C4に登録 する。 [0245] (1 -A) Output link 223 test link flag D6 is True (means a test link) and output node 226 corresponding to output node address D2 of output link 223 If the test node flag C8 is False (meaning a real node), it corresponds to the output link 223, that is, the test link coupled to the output node 226 (corresponding to the test link address C4 of the output node 226) (Test link) is deleted (test inversion link deletion processing E7 or test non-inversion link deletion processing E8 in Fig. 12 described later is performed), and test link 241 to be connected to randomly selected node 240 is randomly generated. (The test reverse link initialization process G11 or the test non-reverse link initialization process G12 shown in FIGS. 11 and 12 is performed.), The address of the test link 241 is set to the output node 226. To register to strike link address C4.
[0246] (1 -B)出力側リンク 224のテストリンクフラグ D6が True (テストリンクを意味する。 ) で、かつ、その出力側リンク 223の出力側ノードアドレス D2に対応する出力側ノード 227のテストノードフラグ C8が True (テストノードを意味する。)の場合には、出力側リ ンク 224を削除する。  [0246] (1 -B) Output link 224 Test link flag D6 is True (means test link), and output node 227 corresponding to output node address D2 of output link 223 If the test node flag C8 is True (meaning a test node), the output side link 224 is deleted.
[0247] (1 -C)出力側リンク 225のテストリンクフラグ D6が False (実リンクを意味する。)の 場合には、その出力側リンク 225の入力側ノードアドレス D1を、削除対象の中間 OR ノード 220の入力側リンクアドレス C1に対応する入力側リンク 221 (1つしかない入力 側リンク)の入力側ノードアドレス D1で上書きする。つまり、設定変更前の出力側リン ク 225の出力側ノード 228と、入力側リンク 221の入力側ノード 222とを、新たな設定 とされた出力側リンク 225で連結する。また、設定変更前の出力側リンク 225に付随 していたテストノード (設定変更前の出力側リンク 225のテストノードアドレス D4に対 応するテストノード)を削除し (後述する図 12のテスト中間 ORノード削除処理 E3また はテスト中間 ANDノード削除処理 E4を行う。)、新たなテストノード 229を生成し (前 述した図 11のテスト中間 ORノード初期化処理 G7またはテスト中間 ANDノード初期 化処理 G8を行う。)、生成したテストノード 229のアドレスを、設定変更後の出力側リ ンク 225のテストノードアドレス D4に登録する。その後、入力側リンク 221の入力側ノ ード 222の出力側リンクアドレス C2に、削除対象の中間 ORノード 220の出力側リンク アドレス C2 (出力側リンク 225のアドレス)を追加し、入力側リンク 221を削除する(後 述する図 12の反転リンク削除処理 E5または非反転リンク削除処理 E6を行う。 ) 0 [0248] (2)図 17に示すように、削除対象の中間 ORノード 260の入力側リンクアドレス C1 に対応する入力側リンクが 1個であり(入力側リンク 265とする。)、この入力側リンク 2 65の入力側ノードアドレス D1に対応する入力側ノード力 削除対象の中間 ORノード 260自身である場合には、中間 ORノード 260の各出力側リンクアドレス C2に対応す る出力側リンク(図 17では、一例として 2つの出力側リンク 261, 262とする。)のそれ ぞれについて、次のような 2通りの処理(2— A)、(2— B)のうちのいずれかの処理を 行う。 [0247] (1 -C) If the test link flag D6 of the output link 225 is False (meaning a real link), the input node address D1 of the output link 225 is changed to the intermediate OR to be deleted. Overwrite with input side node address D1 of input side link 221 (only one input side link) corresponding to input side link address C1 of node 220. That is, the output side node 228 of the output side link 225 before the setting change and the input side node 222 of the input side link 221 are connected by the newly set output side link 225. Also, delete the test node (test node corresponding to the test node address D4 of the output side link 225 before the setting change) attached to the output side link 225 before the setting change (the test intermediate OR in Fig. 12 described later). Node deletion process E3 or test intermediate AND node deletion process E4 is performed), and a new test node 229 is generated (test intermediate OR node initialization process G7 or test intermediate AND node initialization process G8 in Fig. 11 described above) Register the generated address of the test node 229 in the test node address D4 of the output side link 225 after the setting change. After that, input side node of input side link 221 Add the output side link address C2 of the intermediate OR node 220 to be deleted (the output side link 225 address) to the output side link address C2 of the port 222 and delete the input side link 221 (see Figure 12 below) Reverse link deletion process E5 or non-inverted link deletion process E6 is performed.) 0 [0248] (2) As shown in Fig. 17, the input side link corresponding to the input side link address C1 of the intermediate OR node 260 to be deleted is If there is one (input side link 265), and the input side node force corresponding to the input side node address D1 of this input side link 265 is the intermediate OR node 260 to be deleted, the intermediate OR node For each of the output side links corresponding to each output side link address C2 of 260 (in FIG. 17, two output side links 261 and 262 are taken as an example), the following two processes (2 — A) or (2— B) Carry out the management.
[0249] (2-A)出力側リンク 261のテストリンクフラグ D6が True (テストリンクを意味する。 ) で、かつ、その出力側リンク 261の出力側ノードアドレス D2に対応する出力側ノード 263のテストノードフラグ C8が False (実ノードを意味する。)の場合には、出力側リン ク 261、すなわち出力側ノード 263に結合されているテストリンク(出力側ノード 263の テストリンクアドレス C4に対応するテストリンク)を削除し (後述する図 12のテスト反転 リンク削除処理 E7またはテスト非反転リンク削除処理 E8を行う。)、ランダムに選択さ れたノード 280に結合するテストリンク 281をランダムに生成し (前述した図 11、図 12 のテスト反転リンク初期化処理 G11またはテスト非反転リンク初期化処理 G12を行う。 )、そのテストリンク 281のアドレスを出力側ノード 263のテストリンクアドレス C4に登録 する。  (2-A) Output link 261 test link flag D6 is True (means test link) and output node 263 corresponding to output node address D2 of output link 261 When the test node flag C8 is False (meaning a real node), it corresponds to the output link 261, that is, the test link coupled to the output node 263 (corresponding to the test link address C4 of the output node 263). (Test link) is deleted (test inversion link deletion processing E7 or test non-inversion link deletion processing E8 in Fig. 12 described later is performed), and test link 281 is randomly generated to connect to node 280 selected at random. (The test inversion link initialization process G11 or the test non-inversion link initialization process G12 in FIGS. 11 and 12 described above is performed.) The address of the test link 281 is assigned to the output node 263. To register to strike link address C4.
[0250] (2— B)出力側リンク 262およびこの出力側リンク 262の出力側ノード 264の条件が 、上記(2— A)以外の場合には、出力側リンク 262を削除する。  (2-B) If the conditions of the output side link 262 and the output side node 264 of the output side link 262 are other than the above (2-A), the output side link 262 is deleted.
[0251] (3)図 18に示すように、削除対象の中間 ORノード 300の入力側リンクアドレス C1 に対応する入力側リンクが 0個の場合には、中間 ORノード 300の各出力側リンクアド レス C2に対応する出力側リンク(図 18では、一例として 2つの出力側リンク 301, 302 とする。)のそれぞれについて、次のような 2通りの処理(3— A)、(3— B)のうちのい ずれかの処理を行う。  [0251] (3) As shown in FIG. 18, when the number of input side links corresponding to the input side link address C1 of the intermediate OR node 300 to be deleted is zero, each output side link address of the intermediate OR node 300 is The following two types of processing (3-A) and (3-B) are performed for each of the output side links corresponding to less C2 (in FIG. 18, two output side links 301 and 302 are taken as an example). Do one of the following.
[0252] (3-A)出力側リンク 301のテストリンクフラグ D6が True (テストリンクを意味する。 ) で、かつ、その出力側リンク 301の出力側ノードアドレス D2に対応する出力側ノード 303のテストノードフラグ C8が False (実ノードを意味する。)の場合には、出力側リン ク 301、すなわち出力側ノード 303に結合されているテストリンク(出力側ノード 303の テストリンクアドレス C4に対応するテストリンク)を削除し (後述する図 12のテスト反転 リンク削除処理 E7またはテスト非反転リンク削除処理 E8を行う。)、ランダムに選択さ れたノード 320に結合するテストリンク 321をランダムに生成し (前述した図 11、図 12 のテスト反転リンク初期化処理 G11またはテスト非反転リンク初期化処理 G12を行う。 )、そのテストリンク 321のアドレスを出力側ノード 303のテストリンクアドレス C4に登録 する。 [0252] (3-A) Output link 301 Test link flag D6 is True (means test link) If the test node flag C8 of the output side node 303 corresponding to the output side node address D2 of the output side link 301 is False (meaning a real node), the output side link 301, that is, the output Delete the test link (the test link corresponding to the test link address C4 of the output side node 303) connected to the side node 303 (test inversion link deletion processing E7 or test non-inversion link deletion processing E8 in Fig. 12 described later) And randomly generate the test link 321 to be coupled to the randomly selected node 320 (perform the test reverse link initialization process G11 or the test non-reverse link initialization process G12 of FIGS. 11 and 12 described above) The address of the test link 321 is registered in the test link address C4 of the output side node 303.
[0253] (3— B)出力側リンク 302およびこの出力側リンク 302の出力側ノード 304の条件が 、上記(3— A)以外の場合には、出力側リンク 302を削除する。  (3-B) When the conditions of the output side link 302 and the output side node 304 of the output side link 302 are other than the above (3-A), the output side link 302 is deleted.
[0254] そして、以上の(1)〜(3)の処理が終了した後、削除対象の中間 ORノードの入力 側リンクが存在すれば、それを削除し (後述する図 12の反転リンク削除処理 E5また は非反転リンク削除処理 E6を行う。)、さらに、削除対象の中間 ORノードの C1〜C1 0のメモリを開放し、中間 ORノードを削除する。  [0254] After the above processing (1) to (3) is completed, if there is an input side link of the intermediate OR node to be deleted, it is deleted (reverse link deletion processing in Fig. 12 described later). E5 or non-inverted link deletion processing E6 is performed.) Further, the memory of C1 to C10 of the intermediate OR node to be deleted is released, and the intermediate OR node is deleted.
[0255] <中間 ANDノード削除処理 E2>  [0255] <Intermediate AND node deletion processing E2>
中間 ANDノード削除処理 E2は、前術した中間 ORノード削除処理 E1と略等しぐ 中間 ORノード削除処理 E1の説明において、中間 ORノードを中間 ANDノードと読 み替えるだけなので、説明を省略する。  Intermediate AND node deletion processing E2 is almost the same as the previous intermediate OR node deletion processing E1 Intermediate OR node deletion processing In the description of E1, only the intermediate OR node is read as an intermediate AND node, so the description is omitted. .
[0256] <テスト中間 ORノード削除処理 E3 >  [0256] <Test intermediate OR node deletion processing E3>
削除対象のテスト中間 ORノードの第 1および第 2の入力側テストリンクアドレス C1に 対応する第 1および第 2の入力側テストリンクを削除する(後述する図 12のテスト反転 リンク削除処理 E7またはテスト非反転リンク削除処理 E8を行う。 ) 0その後、削除対象 のテスト中間 ORノードの C1〜C10のメモリを開放し、テスト中間 ORノードを削除する Delete the first and second input side test links corresponding to the first and second input side test link addresses C1 of the test intermediate OR node to be deleted (test inversion link deletion process E7 or test of Fig. 12 described later) Non-inverted link deletion processing E8 is performed.) 0 After that, the memory of C1 to C10 of the test intermediate OR node to be deleted is released and the test intermediate OR node is deleted
[0257] <テスト中間 ANDノード削除処理 E4> [0257] <Test intermediate AND node deletion processing E4>
テスト中間 ANDノード削除処理 E4は、前述したテスト中間 ORノード削除処理 E3と 略等しぐテスト中間 ORノード削除処理 E3の説明において、テスト中間 ORノードを テスト中間 ANDノードと読み替えるだけなので、説明を省略する。 Test intermediate AND node deletion process E4 is the test intermediate OR node deletion process E3, which is almost the same as the test intermediate OR node deletion process E3 described above. The description is omitted because it is simply read as test intermediate AND node.
[0258] <反転リンク削除処理 E5 >  [0258] <Reverse link deletion processing E5>
反転リンク削除処理 E5では、削除対象の反転リンクの入力側ノードアドレス D1に対 応する入力側ノードの出力側リンクアドレス C2から、この削除対象の反転リンクのアド レスを検索して削除し、同様に、削除対象の反転リンクの出力側ノードアドレス D2に 対応する出力側ノードの入力側リンクアドレス C1から、この削除対象の反転リンクの アドレスを検索して削除する。  Reverse link deletion process E5 searches for and deletes the reverse link address to be deleted from the output side link address C2 of the input side node corresponding to the input side node address D1 of the reverse link to be deleted. Then, the address of the reverse link to be deleted is searched and deleted from the input side link address C1 of the output side node corresponding to the output side node address D2 of the reverse link to be deleted.
[0259] また、削除対象の反転リンクに付随するテストノード(削除対象の反転リンクのテスト ノードアドレス D4に対応するテストノード)を削除する。この際、このテストノードの AN D. ORノードフラグ C5が、 True (ANDノードを意味する。)ならば、前述したテスト中 間 ANDノード削除処理 E4を行い、 False (ORノードを意味する。)ならば、前述した テスト中間 ORノード削除処理 E3を行う。  [0259] Also, the test node associated with the reverse link to be deleted (the test node corresponding to the test node address D4 of the reverse link to be deleted) is deleted. At this time, if the AN D.OR node flag C5 of this test node is True (meaning an AND node), the above-mentioned test intermediate AND node deletion processing E4 is performed, and False (meaning an OR node). Then, the test intermediate OR node deletion process E3 described above is performed.
[0260] その後、削除対象の反転リンクの D1〜D9のメモリを開放し、反転リンクの削除を終 える。  [0260] After that, the memory of D1 to D9 of the reverse link to be deleted is released, and the reverse link deletion ends.
[0261] <非反転リンク削除処理 E6 >  [0261] <Non-inverted link deletion processing E6>
非反転リンク削除処理 E6は、前述した反転リンク削除処理 E5と同じであるため、説 明を省略する。  Since the non-inverted link deletion process E6 is the same as the above-described inverted link deletion process E5, the description is omitted.
[0262] <テスト反転リンク削除処理 E7> [0262] <Test reversal link deletion processing E7>
テスト反転リンク削除処理 E7では、削除対象のテスト反転リンクの入力側ノードアド レス D1に対応する入力側ノードの出力側リンクアドレス C2から、この削除対象のテス ト反転リンクのアドレスを検索して削除する。  Test reverse link deletion processing E7 searches for and deletes the test reverse link address to be deleted from the output side link address C2 of the input side node corresponding to the input side node address D1 of the test reverse link to be deleted. .
[0263] また、削除対象のテスト反転リンクの出力側ノードアドレス D2に対応する出力側ノ ードのテストノードフラグ C8が、 True (テストノードを意味する。)ならば、その出力側 ノード (テストノード)の入力側テストリンクアドレス C1から、削除対象のテスト反転リン クのアドレスを検出して削除し、 False (実ノードを意味する。)ならば、その出力側ノ ード(実ノード)のテストリンクアドレス C4を削除する。 [0263] If the test node flag C8 of the output node corresponding to the output node address D2 of the test inversion link to be deleted is True (meaning a test node), the output node (test The address of the test reverse link to be deleted is detected and deleted from the test link address C1 of the node), and if it is False (means a real node), the output node (real node) Delete test link address C4.
[0264] その後、削除対象のテスト反転リンクの D1〜D9のメモリを開放し、テスト反転リンク の削除を終える。 [0265] <テスト非反転リンク削除処理 E8 > [0264] After that, the D1-D9 memory of the test inversion link to be deleted is released, and the deletion of the test inversion link is completed. [0265] <Test non-inverted link deletion processing E8>
テスト非反転リンク削除処理 E8は、前述したテスト反転リンク削除処理 E7と同じで あるため、説明を省略する。  The test non-reverse link deletion process E8 is the same as the test reverse link deletion process E7 described above, and thus the description thereof is omitted.
[0266] このような本実施形態によれば、次のような効果がある。すなわち、情報処理システ ム 10は、強化信号生成手段 43を備えているので、制御対象であるロボット 30の状態 の評価結果に応じてネットワーク 20に対して付与する強化信号を生成することができ る。 [0266] According to the present embodiment, the following effects are obtained. That is, since the information processing system 10 includes the reinforcement signal generation means 43, it is possible to generate an enhancement signal to be given to the network 20 according to the evaluation result of the state of the robot 30 that is the control target. .
[0267] また、情報処理システム 10は、学習手段 51を備えているので、強化信号生成手段 [0267] Further, since the information processing system 10 includes the learning means 51, the enhancement signal generation means
43により生成した強化信号を、ネットワーク 20の構成エレメントから他の構成エレメン トへ伝播させることができる。この際、学習手段 51は、伝播させる強化信号、すなわち 伝播先の構成エレメントに対して付与する強化信号を、伝播元および Zまたは伝播 先の構成エレメントの入出力状態に応じて構成エレメント毎に生成するので、構成ェ レメント毎に個別に付与された強化信号の累積値を用いて、構成エレメント毎にその 構成エレメントの生成(追加)または削除 (淘汰)を行うか否かの判定を行 ヽ、その処 理を実行し、ネットワーク 20の構造を自律的に変化させることができる。 The enhancement signal generated by 43 can be propagated from the configuration element of the network 20 to other configuration elements. At this time, the learning means 51 generates a reinforcement signal to be propagated, that is, a reinforcement signal to be given to the propagation destination constituent element, for each constituent element according to the input / output state of the propagation source and Z or the destination constituent element. Therefore, it is determined whether to generate (add) or delete (淘汰) the configuration element for each configuration element using the cumulative value of the enhancement signal assigned to each configuration element. This process can be executed and the structure of the network 20 can be changed autonomously.
[0268] 従って、前述した従来の-ユーロジェネティックラーニングによる学習器の場合とは 異なり、情報処理システム 10は、ネットワーク 20の構造を変化させるにあたり、ネット ワーク 20全体を評価単位として評価を行うのではなぐ構成エレメント単位 (すなわち 、 1つ 1つのノードやリンクの単位)での評価を行い、構成エレメント単位での生成また は削除を行うので、評価に要する時間を短縮することができ、低い時間オーダでネッ トワーク 20を自律的に構築していくことができるうえ、これに伴って計算コストの削減 を図ることちでさる。 [0268] Therefore, unlike the above-described learning device based on Eurogenetic learning, the information processing system 10 does not evaluate the entire network 20 as an evaluation unit when changing the structure of the network 20. Since the evaluation is performed in units of constituent elements (that is, the unit of each node or link), and generation or deletion is performed in units of constituent elements, the time required for evaluation can be shortened and the time order is low. The network 20 can be built autonomously and the calculation cost can be reduced accordingly.
[0269] また、前述した特許文献 2, 3に記載された-ユーラルネットワーク学習方法のように 、ネットワーク 20の使用環境やタスクに応じてネットワーク 20の構造を決定しておき、 その決定された構造の中で-ユーロンユニット間の結合係数の最適化を行うのでは なぐ情報処理システム 10は、ネットワーク 20の構造そのものをも自律的に変化させ 、最適化していくので、構造決定による環境、タスクへの限定を回避することができる 。このため、ネットワーク 20の使用環境やタスクが変化した場合でも、以前の学習結 果を既存知識として再利用する学習を行うことができる。 [0269] In addition, as described in Patent Documents 2 and 3 described above-the network 20 structure is determined in accordance with the use environment and tasks of the network 20, and the determination is made. In the structure, the information processing system 10 that does not optimize the coupling coefficient between the Euron units autonomously changes and optimizes the structure of the network 20 itself. Limitation to can be avoided. Therefore, even if the usage environment and tasks of the network 20 change, Learning that reuses fruits as existing knowledge can be performed.
[0270] さらに、情報処理システム 10は、状態評価用信号取得手段 42を備え、この状態評 価用信号取得手段 42により取得した状態評価用信号に基づき制御対象であるロボ ット 30の状態を評価する構成とされているので、人為的判断を介在させることなく制 御対象であるロボット 30の状態の評価を行うことができる。このため、ネットワーク 20 の自律的な構築速度を向上させることができるうえ、目的に沿って一貫した学習を容 易に行うことができる。  [0270] Further, the information processing system 10 includes a state evaluation signal acquisition unit 42. Based on the state evaluation signal acquired by the state evaluation signal acquisition unit 42, the state of the robot 30 to be controlled is determined. Since it is configured to evaluate, it is possible to evaluate the state of the robot 30 to be controlled without intervention of human judgment. For this reason, the autonomous construction speed of the network 20 can be improved, and consistent learning can be easily performed according to the purpose.
[0271] そして、学習手段 51は、伝播元のノードに付与された強化信号に基づき、伝播元 のノードの入出力状態に従って定まる伝播先の入力側リンクのノード出力への寄与 度に応じ、伝播先の入力側リンクに対して付与する強化信号を生成するので(図 8、 図 9参照)、ネットワーク 20に対して付与された強化信号を、出力ノード 23から逆伝 播させていくことができるうえ、個々のリンクに対し、妥当な評価を個別に行うことがで き、構成エレメント毎の適切な生成または削除を実現することができる。  [0271] Then, the learning means 51 performs propagation according to the contribution to the node output of the input link on the propagation destination determined according to the input / output state of the propagation source node based on the reinforcement signal given to the propagation source node. Since the enhancement signal to be given to the previous input side link is generated (see Fig. 8 and Fig. 9), the enhancement signal given to the network 20 can be propagated back from the output node 23. In addition, a reasonable evaluation can be performed for each link individually, and appropriate generation or deletion for each component element can be realized.
[0272] また、学習手段 51は、上記のようなノードからその入力側リンクへの強化信号の逆 伝播と併せ、ノードからその入力側リンクの入力側ノードへの強化信号の逆伝播も行 うので、より一層円滑な強化信号の逆伝播を実現することができる。  [0272] Further, the learning means 51 performs back propagation of the reinforcement signal from the node to the input side node of the input side link in addition to the back propagation of the reinforcement signal from the node to the input side link as described above. Therefore, the smoother back propagation of the enhancement signal can be realized.
[0273] さらに、学習手段 51は、リンクに対して付与された強化信号の累積値が閾値を下回 つたときに、このリンクを削除する構成とされているので、目的通りに制御対象である ロボット 30を制御するのに役立たないと考えられるリンク、すなわち不要と思われるリ ンクの適切な淘汰を行うことができ、ネットワーク 20の構造を自律的に変化させていく ことができる。  [0273] Furthermore, the learning means 51 is configured to delete the link when the cumulative value of the enhancement signal given to the link falls below the threshold value, and is thus a control target as intended. It is possible to perform appropriate dredging of links that are considered to be useless to control the robot 30, that is, links that are considered unnecessary, and to autonomously change the structure of the network 20.
[0274] そして、学習手段 51は、ノードの入力側リンクの数が 1以下になったときに、このノ ードを削除する構成とされているので、目的通りに制御対象であるロボット 30を制御 するのに役立たないと考えられるノード、すなわち不要と思われるノードの適切な淘 汰を行うことができ、ネットワーク 20の構造を自律的に変化させて 、くことができる。  [0274] Then, the learning means 51 is configured to delete this node when the number of links on the input side of the node becomes 1 or less. Appropriate selection of nodes that are considered not useful for control, that is, unnecessary nodes, can be performed, and the structure of the network 20 can be changed autonomously.
[0275] また、情報処理システム 10では、ノードには、テストリンクが設けられるので、そのテ ストリンクが目的通りに制御対象であるロボット 30を制御するのに役立つと考えられる 場合に、そのテストリンクをノード出力に寄与する実リンクに昇格させ、正式に入力側 リンクとして登録することができる。このため、自律的なリンクの生成を実現でき、ネット ワーク 20の構造を自律的に変化させて 、くことができる。 [0275] In the information processing system 10, since a test link is provided for a node, the test link is considered to be useful for controlling the robot 30 to be controlled as intended. Promote the link to a real link that contributes to node output and formally input You can register as a link. Therefore, autonomous link generation can be realized, and the structure of the network 20 can be changed autonomously.
[0276] さらに、学習手段 51は、上記のテストリンクに対して付与された強化信号の累積値 が閾値を下回ったときに、そのテストリンクを削除し、任意のノードに結合される新た なテストリンクを生成する構成とされているので、新しく生成されるリンク(実リンク)の 適切な候補となるテストリンクを常に用意しておくことができる。このため、リンクの適切 で、かつ円滑な生成を実現することができ、ネットワーク 20の構造を自律的に変化さ せていくことができる。 [0276] Furthermore, the learning means 51 deletes the test link when the cumulative value of the enhancement signal given to the test link falls below the threshold, and creates a new test coupled to an arbitrary node. Since it is configured to generate a link, a test link that is a suitable candidate for a newly generated link (actual link) can always be prepared. Therefore, appropriate and smooth generation of links can be realized, and the structure of the network 20 can be changed autonomously.
[0277] そして、情報処理システム 10では、実リンクには、このリンクに付随するテストノード が設けられるので、新たに生成されるノード (実ノード)の候補を常に用意しておくこと ができる。このため、自律的なノードの生成を実現でき、ネットワーク 20の構造を自律 的に変化させていくことができる。  [0277] In the information processing system 10, since a test node associated with this link is provided in the real link, a newly generated node (real node) candidate can always be prepared. Therefore, autonomous node generation can be realized, and the structure of the network 20 can be changed autonomously.
[0278] また、学習手段 51は、上記のテストノードから第 1および第 2の入力側テストリンクへ 強化信号を伝播させる構成とされているので、これによつても新たに生成されるリンク (実リンク)の候補を用意しておくことができ、ネットワーク 20の構造を自律的に変化さ せていくことができる。  [0278] In addition, the learning means 51 is configured to propagate the reinforcement signal from the test node to the first and second input side test links, so that a newly generated link ( (Real link) candidates can be prepared, and the structure of the network 20 can be changed autonomously.
[0279] さらに、学習手段 51は、上記の第 1または第 2の入力側テストリンクに対して付与さ れた強化信号の累積値が閾値を下回ったときに、閾値を下回った入力側テストリンク を削除し、新たな入力側テストリンクを生成する構成とされているので、新しく生成さ れるリンク(実リンク)の適切な候補となるテストリンクを常に用意しておくことができる。 このため、リンクの適切で、かつ円滑な生成を実現することができ、ネットワーク 20の 構造を自律的に変化させて 、くことができる。  [0279] Further, the learning means 51, when the cumulative value of the reinforcement signal given to the first or second input side test link described above falls below the threshold, the input side test link below the threshold. Since the test link is deleted and a new input-side test link is generated, a test link that is a suitable candidate for a newly generated link (actual link) can always be prepared. Therefore, appropriate and smooth generation of links can be realized, and the structure of the network 20 can be changed autonomously.
[0280] そして、学習手段 51は、上記の第 1および第 2の入力側テストリンクに対して付与さ れた強化信号の累積値がいずれも閾値を上回ったときに、テストノードを実用化する 構成とされているので、新たにノード(実ノード)を生成(追加)することができ、ネットヮ ーク 20の構造を自律的に変化させて 、くことができる。  [0280] Then, the learning means 51 puts the test node into practical use when the cumulative value of the enhancement signals given to the first and second input side test links exceeds the threshold value. Since it is configured, a new node (real node) can be generated (added), and the structure of the network 20 can be changed autonomously.
[0281] また、情報処理システム 10では、各ノードは、論理回路を用いて構成されているの で、 目的の制御を実現することができる情報処理システムを、単純な構造で構築する ことができる。 [0281] In addition, in the information processing system 10, each node is configured by using a logic circuit, so that an information processing system capable of realizing a desired control is constructed with a simple structure. be able to.
[0282] なお、本発明の効果を確かめるため、以下のような実験を行った。  [0282] In order to confirm the effect of the present invention, the following experiment was conducted.
[0283] 目標となる IZO動作を行う回路として、 2、 3ビット程度の小規模な回路を 10回路用 意した。 10回路の全てについて、履歴を含まない範囲での生成実験を行うとともに、 10回路のうちの幾つかの回路について、 1ステップ程度の履歴を含む生成実験を行 つた ο [0283] As a circuit to perform the target IZO operation, 10 small circuits of about 2 or 3 bits were prepared. A generation experiment was performed for all 10 circuits in a range that does not include the history, and a generation experiment that included a history of about one step was performed for some of the 10 circuits.
[0284] 初期状態では、ネットワークの出力層に ORノードを 1つだけ用意し、ランダムな入 力を加え、目標となる IZO動作ができた場合には、強化信号として報酬を付与し、失 敗した場合には、強化信号として罰を付与することにより、回路を生成した。  [0284] In the initial state, only one OR node is prepared in the output layer of the network, random input is added, and when the target IZO operation is completed, a reward is given as a reinforcement signal and the failure occurs. If so, the circuit was generated by giving punishment as an enhancement signal.
[0285] 図 19には、この実験結果が示されている。図 19は、 3ビットの XOR回路を目標回路 とし、 100ステップ分の移動平均で正答率を示したもの、すなわち直近の 100ステツ プ(100回の出力)のうち正解を出力したステップの割合を示したものである。  [0285] FIG. 19 shows the results of this experiment. Figure 19 shows a 3-bit XOR circuit as the target circuit, showing the correct answer rate with a moving average of 100 steps, that is, the ratio of the steps that output the correct answer in the last 100 steps (100 outputs). It is shown.
[0286] 各目標回路についての実験は、 10回ずつ行い、全て正しく目標回路を構成するこ とができた。また、正誤判定にノイズをのせた場合にも、正しい回路が構成されること を確認することができ、正解へ達した回路は、構造的に安定することも確かめられた。  [0286] The experiment for each target circuit was repeated 10 times, and all of the target circuits were configured correctly. It was also confirmed that the correct circuit was constructed even when noise was added to the correctness judgment, and that the circuit that reached the correct answer was structurally stable.
[0287] また、別の実験として、上記の実験により 2ビットの XOR回路を学習させた後、問題 を変えて、 3ビットの XOR回路を学習させた。そして、これらの学習内容に関連性が ある力否かを調べることにより、以前の学習結果を利用した新たな構造を獲得するこ とが確かめられた。  [0287] As another experiment, after learning a 2-bit XOR circuit from the above experiment, the problem was changed and a 3-bit XOR circuit was learned. By examining whether these learning contents have relevance, it was confirmed that a new structure using the previous learning results was obtained.
[0288] 図 20には、この実験結果が示されている。実験で生成された 3ビットの XOR回路の 構造の中で、実験開始時に既知の知識として与えた 2ビットの XOR回路の構造が再 利用された部分については、太線で示されている。実際に構造が再利用されている か否かは、構造生成の履歴を追跡することにより調べることができる。また、図 20にお いて、 3ビットの XOR回路の構造のうち、ノード Αの部分は、 2ビットの XOR回路の構 造と異なっている。これは、この部分のリンクがノード Aへと置き換わった力もであり、 構造的な再利用は達成されて ヽる。  [0288] FIG. 20 shows the results of this experiment. In the structure of the 3-bit XOR circuit generated in the experiment, the part where the 2-bit XOR circuit structure given as known knowledge at the start of the experiment is reused is shown in bold lines. Whether or not the structure is actually reused can be checked by tracking the history of structure generation. Also, in FIG. 20, the node 部分 part of the 3-bit XOR circuit structure is different from the 2-bit XOR circuit structure. This is also the force that replaced this part of the link with node A, and structural reuse can be achieved.
[0289] さらに、以上の 2つの実験の他にも、ケペラロボットシミュレータを用いた実験により 、ノード数が 1万個程度で、 1ステップ 64msのリアルタイムな学習や、バックアップの 機能を持たせ、遅延報酬による迷路問題への適用も行うことができた。以上により、 本発明の効果が顕著に示された。 [0289] Furthermore, in addition to the above two experiments, the experiment using the Keppera robot simulator has about 10,000 nodes, real-time learning of 64 ms per step, and backup. It has a function and can be applied to the maze problem by delayed reward. From the above, the effect of the present invention was remarkably shown.
[0290] なお、本発明は前記実施形態に限定されるものではなぐ本発明の目的を達成で きる範囲内での変形等は本発明に含まれるものである。  [0290] It should be noted that the present invention is not limited to the above-described embodiments, but includes modifications and the like within a range in which the object of the present invention can be achieved.
[0291] すなわち、前記実施形態では、制御対象は、ロボット 30とされていた力 これに限 定されず、ゲームのキャラクタ等でもよぐ例えば、格闘系ゲームの場合には、対戦相 手のキャラクタとの相対位置、対戦相手のキャラクタが出して 、る技の種類等をネット ワークへの入力とし、自分の分身キャラクタの動作、すなわち自分の分身キャラクタが 出す技の種類や、自分の分身キャラクタの動く方向等をネットワークの出力で定めて 帘 IJ御するようにしてもよ ヽ。  That is, in the above embodiment, the control target is not limited to the robot 30, and may be a game character or the like. For example, in the case of a fighting game, the opponent's character The relative position of the opponent, the opponent's character appears, the type of skill to be input to the network, and the action of your own character, that is, the type of skill that your own character appears and the The direction of movement may be determined by the network output.
[0292] また、前記実施形態では、図 8、図 9に示すような強化信号の分配 (伝播)が行われ ていたが、分配方法は、これに限定されるものではなぐ要するに、伝播元の構成ェ レメントに付与された強化信号に基づき、伝播元および Zまたは伝播先の構成エレメ ントの入出力状態に応じて、伝播先の構成エレメントに対して付与する強化信号を生 成し、構成エレメントから他の構成エレメントへの強化信号の伝播を実現できればよ い。  [0292] Further, in the above embodiment, the enhancement signal is distributed (propagated) as shown in Figs. 8 and 9, but the distribution method is not limited to this. Based on the reinforcement signal given to the configuration element, a reinforcement signal to be given to the propagation destination configuration element is generated according to the input / output state of the propagation source and Z or propagation destination configuration elements. It is only necessary to realize the propagation of the reinforcement signal from one to other constituent elements.
[0293] さらに、前記実施形態では、情報処理システム 10で用いられるネットワーク 20は、 主としてソフトウエアにより実現されていた力 これに限定されず、少なくとも一部にハ 一ドウエア回路を用いて実現してもよ!/、。  [0293] Furthermore, in the above-described embodiment, the network 20 used in the information processing system 10 is not limited to the power realized mainly by software, and is realized by using a hardware circuit at least in part. Moyo! /
[0294] そして、前記実施形態では、ノードは、 AND回路や OR回路を用いた論理回路に より構成されていた力 ネットワークの構成エレメントとしてのノードを論理回路により 構成する場合には、 XOR回路等のその他の論理回路を用いてもょ 、。  [0294] In the embodiment, the node is configured by a logic circuit using a logic circuit that is configured by a logic circuit using an AND circuit or an OR circuit. Use other logic circuits.
産業上の利用可能性  Industrial applicability
[0295] 以上のように、本発明の情報処理システムおよび情報処理方法、並びにプログラム は、 IZOの学習全般に用いることができ、例えば、ロボットの動作制御、ディスプレイ 画面上のゲームのキャラクタの動作制御、空調管理等を行う場合に用いるのに適し ている。 [0295] As described above, the information processing system, information processing method, and program of the present invention can be used for general IZO learning. For example, robot motion control, game character motion control on a display screen, and the like. Suitable for use in air conditioning management.
図面の簡単な説明 [図 1]本発明の一実施形態の情報処理システムの全体構成図。 Brief Description of Drawings FIG. 1 is an overall configuration diagram of an information processing system according to an embodiment of the present invention.
[図 2]前記実施形態の情報処理システムによる処理で用いられるデータの構造を示 す図。  FIG. 2 is a diagram showing a data structure used in processing by the information processing system of the embodiment.
[図 3]前記実施形態の情報処理システムによるロボットの動作制御の全体的な流れを 示すフローチャートの図。  FIG. 3 is a flowchart showing an overall flow of robot operation control by the information processing system of the embodiment.
[図 4]前記実施形態の情報処理システムによるネットワークの処理の流れを示すフロ 一チャートの図。  FIG. 4 is a flowchart showing the flow of network processing by the information processing system of the embodiment.
[図 5]前記実施形態の情報処理システムによる中間 ORノード (実ノード)の学習処理 の流れを示すフローチャートの図。  FIG. 5 is a flowchart showing a learning process flow of an intermediate OR node (real node) by the information processing system of the embodiment.
[図 6]前記実施形態の情報処理システムによる非反転リンクの学習処理の流れを示 すフローチャートの図。  FIG. 6 is a flowchart showing a non-inverted link learning process performed by the information processing system according to the embodiment.
[図 7]前記実施形態の情報処理システムによる中間 ORノードの学習処理の説明図。  FIG. 7 is an explanatory diagram of intermediate OR node learning processing by the information processing system of the embodiment.
[図 8]前記実施形態の情報処理システムによる中間 ORノードの学習時の強化信号の 分配例を示す図。 FIG. 8 is a diagram showing an example of distribution of reinforcement signals when learning an intermediate OR node by the information processing system of the embodiment.
[図 9]前記実施形態の情報処理システムによる中間 ANDノードの学習時の強化信号 の分配例を示す図。  FIG. 9 is a diagram showing an example of distribution of reinforcement signals when learning an intermediate AND node by the information processing system of the embodiment.
[図 10]前記実施形態の情報処理システムによる非反転リンク(実リンク)の学習処理の 説明図。  FIG. 10 is an explanatory diagram of learning processing of a non-inverted link (real link) by the information processing system of the embodiment.
[図 11]前記実施形態の情報処理システムによる初期化の構成の説明図。  FIG. 11 is an explanatory diagram of a configuration of initialization by the information processing system of the embodiment.
[図 12]前記実施形態の情報処理システムによる学習時の削除処理の構成の説明図  FIG. 12 is an explanatory diagram of the configuration of deletion processing during learning by the information processing system of the embodiment.
[図 13]前記実施形態の情報処理システムによる出力ノード初期化処理の説明図。 FIG. 13 is an explanatory diagram of output node initialization processing by the information processing system of the embodiment.
[図 14]前記実施形態の情報処理システムによる中間 ORノード初期化処理の説明図 FIG. 14 is an explanatory diagram of intermediate OR node initialization processing by the information processing system of the embodiment.
[図 15]前記実施形態の情報処理システムによるテスト中間 ORノード初期化処理の説 明図。 FIG. 15 is an explanatory diagram of test intermediate OR node initialization processing by the information processing system of the embodiment.
[図 16]前記実施形態の情報処理システムによる中間 ORノード削除処理の説明図。  FIG. 16 is an explanatory diagram of intermediate OR node deletion processing by the information processing system of the embodiment.
[図 17]前記実施形態の情報処理システムによる中間 ORノード削除処理の別の説明 図。 FIG. 17 is another explanation of intermediate OR node deletion processing by the information processing system of the embodiment. Figure.
[図 18]前記実施形態の情報処理システムによる中間 ORノード削除処理のさらに別の 説明図。  FIG. 18 is still another explanatory diagram of intermediate OR node deletion processing by the information processing system of the embodiment.
圆 19]本発明の効果確認実験の結果を示す図。 FIG. 19 is a diagram showing the results of an effect confirmation experiment of the present invention.
[図 20]本発明の別の効果確認実験の結果を示す図。 FIG. 20 is a diagram showing the results of another effect confirmation experiment of the present invention.
符号の説明 Explanation of symbols
10 情報処理システム  10 Information processing system
20 ネットワーク  20 network
21 構成エレメントである入カノ -ド、  21 Input element, which is a component element
22 構成エレメントである中間ノ -ド、  22 Intermediate nodes, which are constituent elements
23 構成エレメントである出カノ -ド、  23 Output elements that are constituent elements,
24 構成エレメントであるリンク  24 Links that are constituent elements
42 状態評価用信号取得手段  42 State evaluation signal acquisition means
43 強化信号生成手段  43 Strengthening signal generation means
51 学習手段  51 Means of learning
53 出力生成手段  53 Output generation means
61 ネットワーク構造記憶手段および強化信号記憶手段として機能するネットヮ ク情報記憶手段  61 Network information storage means functioning as network structure storage means and enhanced signal storage means
62 ネットワーク構造記憶手段、入出力状態記憶手段、および強化信号記憶手段 として機能するノード情報記憶手段  62 Node information storage means that functions as network structure storage means, input / output state storage means, and enhancement signal storage means
63 ネットワーク構造記憶手段、入出力状態記憶手段、および強化信号記憶手段 として機能するリンク情報記憶手段  63 Link information storage means functioning as network structure storage means, input / output state storage means, and enhancement signal storage means
105, 148, 185 テストリンク  105, 148, 185 test link
123, 142, 161, 201, 229 テストノード  123, 142, 161, 201, 229 test node
124, 143, 162, 202 第 1の入力側テス卜リンク  124, 143, 162, 202 First input test link
125, 146, 163, 204 第 2の入力側テス卜リンク  125, 146, 163, 204 Second input test link

Claims

請求の範囲  The scope of the claims
情報処理を行う複数のノードおよびこれらのノードを連結してノード間の情報伝達を 行うリンクを構成エレメントとして備えるネットワークを用いた情報処理システムであつ て、  An information processing system using a network including a plurality of nodes that perform information processing and a link that connects these nodes and transmits information between the nodes as constituent elements.
前記構成エレメント間の結合関係を含む前記ネットワークの構造を記憶するネットヮ ーク構造記憶手段と、  Network structure storage means for storing a structure of the network including a coupling relationship between the constituent elements;
前記ネットワークの出力生成処理で形成される前記構成エレメントの入出力状態を 記憶する入出力状態記憶手段と、  Input / output state storage means for storing input / output states of the constituent elements formed by the output generation processing of the network;
前記ネットワークの出力結果に基づき形成された制御対象の状態の評価結果に応 じて前記ネットワークに対して報酬または罰として付与する強化信号を生成する強化 信号生成手段と、  An enhanced signal generating means for generating an enhanced signal to be given as a reward or punishment to the network according to the evaluation result of the state of the controlled object formed based on the output result of the network;
この強化信号生成手段により生成した前記強化信号を少なくとも 1つの前記構成ェ レメントに付与し、前記強化信号を付与された構成エレメントから他の構成エレメント へ構成エレメント間の連鎖的な結合関係に従って前記強化信号を伝播させるために The enhancement signal generated by the enhancement signal generation means is applied to at least one component element, and the enhancement signal is applied in accordance with a chain connection relationship between the component elements from the component element to which the enhancement signal is applied to another component element. To propagate the signal
、順次、伝播元の構成エレメントに付与された強化信号に基づき、前記入出力状態 記憶手段に記憶された前記伝播元および Zまたは伝播先の構成エレメントの入出力 状態に応じて前記伝播先の構成エレメントに対して報酬または罰として付与する強 化信号を生成するとともに、前記構成エレメントに付与された強化信号若しくはその 履歴または強化信号の累積値若しくはその履歴を用いて前記構成エレメント毎に前 記構成エレメントの生成または削除を行って前記ネットワークの構造を変化させ、変 化後の前記ネットワークの構造を前記ネットワーク構造記憶手段に記憶させる学習手 段と、 The configuration of the propagation destination according to the input / output state of the propagation source and Z or the propagation destination configuration element stored in the input / output state storage means based on the reinforcement signal given to the configuration element of the propagation source sequentially A reinforcement signal to be given to the element as a reward or punishment is generated, and the above-described configuration is made for each constituent element by using the enhancement signal given to the constituent element or its history, or the cumulative value of the enhancement signal or the history thereof. Learning means for generating or deleting elements to change the structure of the network, and storing the changed network structure in the network structure storage means;
前記ネットワーク構造記憶手段に記憶された前記ネットワークの構造を参照し、前 記学習手段により構造を変化させた前記ネットワークを用いて前記ネットワークの出 力を生成する出力生成手段と、  Output generation means for generating the output of the network using the network whose structure has been changed by the learning means with reference to the network structure stored in the network structure storage means;
前記学習手段により生成された前記構成エレメントの強化信号若しくはその履歴ま たは強化信号の累積値若しくはその履歴を構成エレメント毎に記憶する強化信号記 憶手段と を備えたことを特徴とする情報処理システム。 Strengthening signal storage means for storing the strengthening signal of the constituent element generated by the learning means or its history or the cumulative value of the strengthening signal or its history for each constituent element; An information processing system comprising:
[2] 請求項 1に記載の情報処理システムにお 、て、  [2] In the information processing system according to claim 1,
前記制御対象の状態を検出する状態検出手段または前記制御対象自身から前記 制御対象の状態を評価するための状態評価用信号を取得する状態評価用信号取 得手段を備え、  A state detection means for detecting the state of the control object or a state evaluation signal acquisition means for acquiring a state evaluation signal for evaluating the state of the control object from the control object itself;
前記強化信号生成手段は、前記状態評価用信号取得手段により取得した前記状 態評価用信号に基づき前記制御対象の状態を評価し、この評価結果に応じて前記 強化信号を生成する構成とされて ヽる  The enhancement signal generation unit is configured to evaluate the state of the control target based on the state evaluation signal acquired by the state evaluation signal acquisition unit and generate the enhancement signal according to the evaluation result. Scold
ことを特徴とする情報処理システム。  An information processing system characterized by this.
[3] 請求項 1に記載の情報処理システムにお 、て、 [3] In the information processing system according to claim 1,
ユーザによる前記制御対象の状態の評価結果の入力を受け付ける評価結果入力 受付手段を備え、  An evaluation result input receiving means for receiving an input of an evaluation result of the state of the controlled object by a user;
前記強化信号生成手段は、前記評価結果入力受付手段により受け付けた前記評 価結果に応じて前記強化信号を生成する構成とされている  The enhancement signal generation means is configured to generate the enhancement signal according to the evaluation result received by the evaluation result input reception means.
ことを特徴とする情報処理システム。  An information processing system characterized by this.
[4] 請求項 1〜3のいずれかに記載の情報処理システムにおいて、 [4] In the information processing system according to any one of claims 1 to 3,
前記学習手段は、前記強化信号生成手段により生成された前記強化信号を前記 ネットワークの出力層を構成する全ての出力ノードに対して均等に付与するとともに、 前記伝播元の構成エレメントをノードとし、前記伝播先の構成エレメントを伝播元のノ ードの入力側リンクとし、前記伝播元のノードに付与された強化信号に基づき、前記 伝播元のノードの入出力状態に従って定まる伝播先の入力側リンクのノード出力へ の寄与度に応じ、前記伝播先の入力側リンクに対して報酬または罰として付与する 強化信号を生成する構成とされていることを特徴とする情報処理システム。  The learning means equally applies the enhancement signal generated by the enhancement signal generation means to all output nodes constituting the output layer of the network, and uses the constituent element of the propagation source as a node, The constituent element of the propagation destination is the input side link of the propagation source node, and the propagation destination input side link determined according to the input / output state of the propagation source node based on the reinforcement signal given to the propagation source node. An information processing system configured to generate a reinforcement signal to be given as a reward or punishment to the input link on the propagation destination according to the contribution to the node output.
[5] 請求項 4に記載の情報処理システムにお 、て、 [5] In the information processing system according to claim 4,
前記学習手段は、前記伝播元の構成エレメントをノードとし、前記伝播先の構成ェ レメントを伝播元のノードの入力側リンクの入力側に結合された入力側ノードとし、前 記伝播元のノードに付与された強化信号に基づき、前記伝播元のノードの入出力状 態に従って定まる入力側リンクのノード出力への寄与度に応じ、前記伝播先の入力 側ノードに対して報酬または罰として付与する強化信号を生成する構成とされている ことを特徴とする情報処理システム。 The learning means uses the propagation source configuration element as a node, the propagation destination configuration element as an input side node coupled to an input side of an input side link of the propagation source node, and sets the propagation source node as the propagation source node. Based on the given enhancement signal, the input of the propagation destination is determined according to the contribution to the node output of the input link determined according to the input / output state of the propagation source node. An information processing system configured to generate a reinforcement signal to be given as a reward or punishment to a side node.
[6] 請求項 4または 5に記載の情報処理システムにお 、て、  [6] In the information processing system according to claim 4 or 5,
前記強化信号記憶手段は、リンクに対して付与された前記強化信号の履歴または 前記強化信号の累積値をリンク毎に記憶する構成とされ、  The enhancement signal storage means is configured to store, for each link, a history of the enhancement signal given to a link or a cumulative value of the enhancement signal.
前記学習手段は、リンクに対して付与された前記強化信号の累積値が閾値を下回 つたときに、このリンクを削除する構成とされている  The learning means is configured to delete the link when the cumulative value of the enhancement signal given to the link falls below a threshold value.
ことを特徴とする情報処理システム。  An information processing system characterized by this.
[7] 請求項 6に記載の情報処理システムにお 、て、 [7] In the information processing system according to claim 6,
前記学習手段は、ノードの入力側リンクの数が 1以下になったときに、このノードを 削除する構成とされていることを特徴とする情報処理システム。  The information processing system according to claim 1, wherein the learning means is configured to delete a node when the number of links on the input side of the node becomes 1 or less.
[8] 請求項 4に記載の情報処理システムにお 、て、 [8] In the information processing system according to claim 4,
前記伝播元のノードの入力側には、前記伝播先の入力側リンクの他に、ノード出力 に寄与しな 、テストリンクが設けられ、  On the input side of the propagation source node, in addition to the propagation destination input side link, a test link that does not contribute to node output is provided,
前記強化信号記憶手段は、前記テストリンクに対して付与された前記強化信号の 履歴または前記強化信号の累積値も記憶する構成とされ、  The enhancement signal storage means is configured to store a history of the enhancement signal given to the test link or a cumulative value of the enhancement signal,
前記学習手段は、前記テストリンクに対して付与された前記強化信号の累積値が 閾値を上回ったときに、前記テストリンクを前記伝播元のノードの入力側リンクとして 前記ネットワーク構造記憶手段に登録する構成とされている  The learning means registers the test link as an input side link of the propagation source node in the network structure storage means when a cumulative value of the enhancement signal given to the test link exceeds a threshold value. It is configured
ことを特徴とする情報処理システム。  An information processing system characterized by this.
[9] 請求項 8に記載の情報処理システムにお 、て、 [9] In the information processing system according to claim 8,
前記学習手段は、前記テストリンクに対して付与された前記強化信号の累積値が 閾値を下回ったときに、前記テストリンクを削除し、任意のノードに結合される新たな テストリンクを生成し、前記ネットワーク構造記憶手段に登録する構成とされて 、ること を特徴とする情報処理システム。  The learning means deletes the test link when a cumulative value of the enhancement signal given to the test link falls below a threshold value, and generates a new test link coupled to an arbitrary node. An information processing system characterized by being configured to be registered in the network structure storage means.
[10] 請求項 1〜3のいずれかに記載の情報処理システムにおいて、 [10] In the information processing system according to any one of claims 1 to 3,
リンクには、このリンクに付随して前記ネットワークの出力に寄与しないテストノード が設けられ、このテストノードは、前記リンクの入力側ノードに第 1の入力側テストリンク で連結され、かつ、前記リンクの出力側ノードに出力側テストリンクで連結されるととも に、任意のノードに第 2の入力側テストリンクで連結され、 The link is provided with a test node that does not contribute to the output of the network associated with the link, and the test node is connected to the input node of the link at the first input test link. And connected to an output side node of the link via an output side test link, and to any node via a second input side test link,
前記学習手段は、前記伝播元の構成エレメントを前記リンクとし、前記伝播先の構 成エレメントを前記テストノードとし、前記伝播元のリンクに付与された強化信号に基 づき、前記伝播元のリンクの出力および前記伝播先のテストノードの出力の状態に応 じ、前記伝播先のテストノードに対して報酬または罰として付与する強化信号を生成 する構成とされていることを特徴とする情報処理システム。  The learning means uses the propagation source component element as the link, the propagation destination component element as the test node, and based on the reinforcement signal given to the propagation source link, An information processing system configured to generate an enhancement signal to be given as a reward or punishment to the propagation destination test node according to an output and an output state of the propagation destination test node.
[11] 請求項 10に記載の情報処理システムにおいて、  [11] In the information processing system according to claim 10,
前記学習手段は、前記伝播元の構成エレメントを前記テストノードとし、前記伝播先 の構成エレメントを前記テストノードの第 1および第 2の入力側テストリンクとし、伝播 元のテストノードに付与された強化信号に基づき、前記伝播元のテストノードの入出 力状態に従って定まる伝播先の第 1および第 2の入力側テストリンクのテストノード出 力への寄与度に応じ、前記伝播先の第 1および第 2の入力側テストリンクに対して報 酬または罰として付与する強化信号を生成する構成とされていることを特徴とする情 報処理システム。  The learning means uses the propagation source configuration element as the test node, the propagation destination configuration element as the first and second input test links of the test node, and the reinforcement given to the propagation source test node. Based on the signal, the first and second propagation destinations are determined according to the contribution to the test node output of the first and second input test links of the propagation destination determined according to the input / output state of the propagation test node. An information processing system characterized in that it is configured to generate an enhanced signal to be given as a reward or punishment to the test link on the input side of the system.
[12] 請求項 11に記載の情報処理システムにお 、て、  [12] In the information processing system according to claim 11,
前記強化信号記憶手段は、前記伝播先の第 1および第 2の入力側テストリンクに対 して付与された前記強化信号の履歴または前記強化信号の累積値もリンク毎に記憶 する構成とされ、  The enhancement signal storage means is configured to store the history of the enhancement signal or the cumulative value of the enhancement signal assigned to the first and second input side test links of the propagation destination for each link,
前記学習手段は、前記伝播先の第 1または第 2の入力側テストリンクに対して付与 された前記強化信号の累積値が閾値を下回ったときに、閾値を下回った入力側テス トリンクを削除し、任意のノードに結合される新たな入力側テストリンクを生成し、前記 ネットワーク構造記憶手段に登録する構成とされていることを特徴とする情報処理シ ステム。  The learning means deletes the input-side test link that has fallen below the threshold when the cumulative value of the enhancement signal given to the first or second input-side test link of the propagation destination has fallen below the threshold. An information processing system characterized in that a new input side test link coupled to an arbitrary node is generated and registered in the network structure storage means.
[13] 請求項 11に記載の情報処理システムにお 、て、  [13] In the information processing system according to claim 11,
前記強化信号記憶手段は、前記伝播先の第 1および第 2の入力側テストリンクに対 して付与された前記強化信号の履歴または前記強化信号の累積値もリンク毎に記憶 する構成とされ、 前記学習手段は、前記伝播先の第 1および第 2の入力側テストリンクに対して付与 された前記強化信号の累積値がいずれも閾値を上回ったときに、前記テストノードを 実用化するために前記テストノードを前記ネットワークの出力に寄与する実ノードに 昇格させて前記ネットワーク構造記憶手段に登録する構成とされている The enhancement signal storage means is configured to store the history of the enhancement signal or the cumulative value of the enhancement signal assigned to the first and second input side test links of the propagation destination for each link, In order to put the test node into practical use when the accumulated value of the enhancement signal given to the first and second input side test links of the propagation destinations exceeds a threshold value, the learning means The test node is promoted to a real node contributing to the output of the network and registered in the network structure storage means.
ことを特徴とする情報処理システム。  An information processing system characterized by this.
[14] 請求項 1〜13のいずれかに記載の情報処理システムにおいて、 [14] In the information processing system according to any one of claims 1 to 13,
前記ノードは、少なくとも 1つの論理回路を用いて情報処理を行う構成とされている ことを特徴とする情報処理システム。  The information processing system, wherein the node is configured to perform information processing using at least one logic circuit.
[15] 情報処理を行う複数のノードおよびこれらのノードを連結してノード間の情報伝達を 行うリンクを構成エレメントとして備えるネットワークを用いた情報処理方法であって、 前記構成エレメント間の結合関係を含む前記ネットワークの構造をネットワーク構造 記憶手段に記憶させるとともに、 [15] An information processing method using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as a constituent element, and includes a connection relationship between the constituent elements. Including the network structure including the network structure storage means;
前記ネットワークの出力生成処理で形成される前記構成エレメントの入出力状態を 入出力状態記憶手段に記憶させておき、  The input / output state of the constituent element formed by the output generation processing of the network is stored in the input / output state storage means,
強化信号生成手段が、前記ネットワークの出力結果に基づき形成された制御対象 の状態の評価結果に応じて前記ネットワークに対して報酬または罰として付与する強 化信号を生成する処理を行 ヽ、  The enhancement signal generation means performs a process of generating an enhancement signal to be given as a reward or punishment to the network according to the evaluation result of the state of the control target formed based on the output result of the network.
学習手段が、前記強化信号生成手段により生成した前記強化信号を少なくとも 1つ の前記構成エレメントに付与し、前記強化信号を付与された構成エレメントから他の 構成エレメントへ構成エレメント間の連鎖的な結合関係に従って前記強化信号を伝 播させるために、順次、伝播元の構成エレメントに付与された強化信号に基づき、前 記入出力状態記憶手段に記憶された前記伝播元および Zまたは伝播先の構成エレ メントの入出力状態に応じて前記伝播先の構成エレメントに対して報酬または罰とし て付与する強化信号を生成し、生成した前記構成エレメントの強化信号またはその 累積値を構成エレメント毎に強化信号記憶手段に記憶させるとともに、前記構成エレ メントに付与された強化信号若しくはその履歴または強化信号の累積値若しくはその 履歴を用いて前記構成エレメント毎に前記構成エレメントの生成または削除を行って 前記ネットワークの構造を変化させ、変化後の前記ネットワークの構造を前記ネットヮ ーク構造記憶手段に記憶させる処理を行 、、 A learning means gives the enhancement signal generated by the enhancement signal generation means to at least one of the constituent elements, and a chain connection between the constituent elements from the constituent element to which the enhancement signal is given to another constituent element In order to propagate the enhancement signal according to the relationship, the propagation source and Z or propagation destination constituent elements stored in the pre-written output state storage means are sequentially based on the reinforcement signals given to the propagation source constituent elements. The reinforcement signal to be given as a reward or punishment to the propagation destination component element according to the input / output state of the propagation element is generated, and the generated enhancement signal of the component element or its accumulated value is generated for each component element And the enhancement signal assigned to the component element or its history or the cumulative value of the enhancement signal. Properly changes the structure of the network generation, or by performing the deletion of the configuration elements for each of the construction elements using the history, the structure of the network after the change Nettowa Process to be stored in the key structure storage means,
出力生成手段が、前記ネットワーク構造記憶手段に記憶された前記ネットワークの 構造を参照し、前記学習手段により構造を変化させた前記ネットワークを用いて前記 ネットワークの出力を生成する処理を行う  The output generation means refers to the network structure stored in the network structure storage means, and performs processing for generating the network output using the network whose structure has been changed by the learning means.
ことを特徴とする情報処理方法。  An information processing method characterized by the above.
情報処理を行う複数のノードおよびこれらのノードを連結してノード間の情報伝達を 行うリンクを構成エレメントとして備えるネットワークを用いた情報処理システムとして、 コンピュータを機能させるためのプログラムであって、  A program for causing a computer to function as an information processing system using a network including a plurality of nodes that perform information processing and a link that links these nodes and transmits information between the nodes as constituent elements,
前記構成エレメント間の結合関係を含む前記ネットワークの構造を記憶するネットヮ ーク構造記憶手段と、  Network structure storage means for storing a structure of the network including a coupling relationship between the constituent elements;
前記ネットワークの出力生成処理で形成される前記構成エレメントの入出力状態を 記憶する入出力状態記憶手段と、  Input / output state storage means for storing input / output states of the constituent elements formed by the output generation processing of the network;
前記ネットワークの出力結果に基づき形成された制御対象の状態の評価結果に応 じて前記ネットワークに対して報酬または罰として付与する強化信号を生成する強化 信号生成手段と、  An enhanced signal generating means for generating an enhanced signal to be given as a reward or punishment to the network according to the evaluation result of the state of the controlled object formed based on the output result of the network;
この強化信号生成手段により生成した前記強化信号を少なくとも 1つの前記構成ェ レメントに付与し、前記強化信号を付与された構成エレメントから他の構成エレメント へ構成エレメント間の連鎖的な結合関係に従って前記強化信号を伝播させるために The enhancement signal generated by the enhancement signal generation means is applied to at least one component element, and the enhancement signal is applied in accordance with a chain connection relationship between the component elements from the component element to which the enhancement signal is applied to another component element. To propagate the signal
、順次、伝播元の構成エレメントに付与された強化信号に基づき、前記入出力状態 記憶手段に記憶された前記伝播元および Zまたは伝播先の構成エレメントの入出力 状態に応じて前記伝播先の構成エレメントに対して報酬または罰として付与する強 化信号を生成するとともに、前記構成エレメントに付与された強化信号若しくはその 履歴または強化信号の累積値若しくはその履歴を用いて前記構成エレメント毎に前 記構成エレメントの生成または削除を行って前記ネットワークの構造を変化させ、変 化後の前記ネットワークの構造を前記ネットワーク構造記憶手段に記憶させる学習手 段と、 The configuration of the propagation destination according to the input / output state of the propagation source and the Z or propagation destination configuration element stored in the input / output state storage means based on the reinforcement signal given to the propagation source configuration element sequentially A reinforcement signal to be given to the element as a reward or punishment is generated, and the above-described configuration is made for each constituent element by using the strengthening signal given to the constituent element or its history or the cumulative value of the strengthening signal or the history thereof. Learning means for generating or deleting elements to change the structure of the network, and storing the changed network structure in the network structure storage means;
前記ネットワーク構造記憶手段に記憶された前記ネットワークの構造を参照し、前 記学習手段により構造を変化させた前記ネットワークを用いて前記ネットワークの出 力を生成する出力生成手段と、 The network structure stored in the network structure storage means is referred to, and the network is output using the network whose structure has been changed by the learning means. Output generating means for generating force,
前記学習手段により生成された前記構成エレメントの強化信号若しくはその履歴ま たは強化信号の累積値若しくはその履歴を構成エレメント毎に記憶する強化信号記 憶手段と  Strengthening signal storage means for storing the strengthening signal of the constituent element generated by the learning means or its history or the cumulative value of the strengthening signal or its history for each constituent element;
を備えたことを特徴とする情報処理システムとして、コンピュータを機能させるための プログラム。  A program for causing a computer to function as an information processing system characterized by comprising:
PCT/JP2005/021062 2004-12-15 2005-11-16 Information processing system, information processing method, and program WO2006073025A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004363742A JP4472506B2 (en) 2004-12-15 2004-12-15 Information processing system, information processing method, and program
JP2004-363742 2004-12-15

Publications (1)

Publication Number Publication Date
WO2006073025A1 true WO2006073025A1 (en) 2006-07-13

Family

ID=36647512

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/021062 WO2006073025A1 (en) 2004-12-15 2005-11-16 Information processing system, information processing method, and program

Country Status (2)

Country Link
JP (1) JP4472506B2 (en)
WO (1) WO2006073025A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170070933A1 (en) * 2014-05-15 2017-03-09 Sony Corporation Method and system for realizing function by causing elements of hardware or software to perform linkage operation
JP2018530842A (en) * 2015-07-13 2018-10-18 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Solving complex problems using self-organizing logic gates and circuits and self-organizing circuits

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6235543B2 (en) 2015-09-30 2017-11-22 ファナック株式会社 Machine learning device, motor control device, processing machine, and machine learning method for optimizing cycle processing time of processing machine
JP6457369B2 (en) 2015-09-30 2019-01-23 ファナック株式会社 Machine learning device and motor control device having function of automatically adjusting parameters
JP6243385B2 (en) * 2015-10-19 2017-12-06 ファナック株式会社 Machine learning apparatus and method for learning correction value in motor current control, correction value calculating apparatus and motor driving apparatus provided with the machine learning apparatus
JP6193961B2 (en) * 2015-11-30 2017-09-06 ファナック株式会社 Machine learning device and method for optimizing the smoothness of feed of a machine feed shaft, and motor control device equipped with the machine learning device
JP6506219B2 (en) * 2016-07-21 2019-04-24 ファナック株式会社 Machine learning device, motor control device and machine learning method for learning current command of motor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (en) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd Cooperation method of optimization for characteristic optimization method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (en) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd Cooperation method of optimization for characteristic optimization method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TAKAHASHI Y.: "Ketsugo no Eikyodo o Koryo Shita Kaisogata Shinkei Kairomo no Ketsugo Sakujo Algorithm", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, 1998 NEN JOHO SYSTEM SOCIETY TAIKAI KOEN RONBUNSHU, 2 October 1998 (1998-10-02), pages 3, XP003007350 *
TAMURA H.: "Jiko Chosei Kino o Koryo Shita 2 Atai Gakushu Network", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, DAI J86-D-11, no. 2, 21 March 2000 (2000-03-21), pages 350 - 353, XP003007355 *
YAMADA K.: "Modulate-Gata Kyoka Gakushu", IEICE TECHNICAL REPORT, vol. 97, no. 623, 19 March 1998 (1998-03-19), pages 139 - 146, XP003007354 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170070933A1 (en) * 2014-05-15 2017-03-09 Sony Corporation Method and system for realizing function by causing elements of hardware or software to perform linkage operation
US10021612B2 (en) * 2014-05-15 2018-07-10 Sony Corporation Method and system for realizing function by causing elements of hardware or software to perform linkage operation
US10142901B2 (en) * 2014-05-15 2018-11-27 Sony Corporation Method and system for realizing function by causing elements of hardware to perform linkage operation
US20190075500A1 (en) * 2014-05-15 2019-03-07 Sonycorporation Method and system for realizing function by causing elements of hardware to perform linkage operation
US10448299B2 (en) 2014-05-15 2019-10-15 Sony Corporation Method and system for realizing function by causing elements of hardware to perform linkage operation
US10728818B2 (en) 2014-05-15 2020-07-28 Sony Corporation Method and system for realizing function by causing elements of hardware to perform linkage operation
US10887809B2 (en) 2014-05-15 2021-01-05 Sony Corporation Method and system for realizing function by causing elements of hardware to perform linkage operation
US11570676B2 (en) 2014-05-15 2023-01-31 Sony Corporation Method and system for realizing function by causing elements of hardware to perform linkage operation
JP2018530842A (en) * 2015-07-13 2018-10-18 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Solving complex problems using self-organizing logic gates and circuits and self-organizing circuits

Also Published As

Publication number Publication date
JP2006172141A (en) 2006-06-29
JP4472506B2 (en) 2010-06-02

Similar Documents

Publication Publication Date Title
WO2006073025A1 (en) Information processing system, information processing method, and program
Mo et al. Attacking deep reinforcement learning with decoupled adversarial policy
Ashraf et al. Optimizing hyperparameters of deep reinforcement learning for autonomous driving based on whale optimization algorithm
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
CN111260027B (en) Intelligent agent automatic decision-making method based on reinforcement learning
Kim et al. Landmark-guided subgoal generation in hierarchical reinforcement learning
Shakya et al. Reinforcement learning algorithms: A brief survey
CN111694917B (en) Vehicle abnormal track detection and model training method and device
WO2000041853A1 (en) Robot, main unit of robot, and coupling unit of robot
Patton et al. Neuromorphic computing for autonomous racing
Blei et al. Shortest paths in a dynamic uncertain domain
Ollington et al. Incorporating expert advice into reinforcement learning using constructive neural networks
Kujanpää et al. Hierarchical imitation learning with vector quantized models
JP6911946B2 (en) Information processing equipment, control methods, and programs
Hou et al. A memetic multi-agent demonstration learning approach with behavior prediction
Rodrigues et al. Optimizing agent training with deep q-learning on a self-driving reinforcement learning environment
Irgen-Gioro Teaching artificial intelligence using Lego
Ansari et al. Language expansion in text-based games
Bar et al. Deep Reinforcement Learning Approach with adaptive reward system for robot navigation in Dynamic Environments
CN115688876A (en) Training method for generating flow model and related device
Straub Assessment of the comparative efficiency of software‐based Boolean, electronic, software‐based fractional value and simplified quantum principal expert systems
Argall et al. Automatic weight learning for multiple data sources when learning from demonstration
Roth et al. MSVIPER
Cetin et al. Learning routines for effective off-policy reinforcement learning
Dovgan et al. Optimization of End-to-End Deep Learning for Obtaining Human-Like Driving Models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05806811

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 5806811

Country of ref document: EP