WO2004044772A2 - Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank - Google Patents

Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank Download PDF

Info

Publication number
WO2004044772A2
WO2004044772A2 PCT/EP2003/011655 EP0311655W WO2004044772A2 WO 2004044772 A2 WO2004044772 A2 WO 2004044772A2 EP 0311655 W EP0311655 W EP 0311655W WO 2004044772 A2 WO2004044772 A2 WO 2004044772A2
Authority
WO
WIPO (PCT)
Prior art keywords
database
statistical model
statistical
computer
client computer
Prior art date
Application number
PCT/EP2003/011655
Other languages
English (en)
French (fr)
Other versions
WO2004044772A9 (de
WO2004044772A3 (de
Inventor
Michael Haft
Reimar Hofmann
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to US10/534,510 priority Critical patent/US20060129580A1/en
Priority to AU2003279305A priority patent/AU2003279305A1/en
Priority to EP03772243A priority patent/EP1561173A2/de
Priority to JP2004550701A priority patent/JP2006505858A/ja
Publication of WO2004044772A2 publication Critical patent/WO2004044772A2/de
Publication of WO2004044772A9 publication Critical patent/WO2004044772A9/de
Publication of WO2004044772A3 publication Critical patent/WO2004044772A3/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Definitions

  • the invention relates to a method and a computer arrangement for providing database information of a first database and a method for computer-aided formation of a statistical image of a database.
  • a call center usually records in detail when which call was received in the call center, when the respective incoming call was processed by an employee of the call center, to which other employee of the call center may have been forwarded, etc.
  • log files are commonly used in process automation formed in which data is stored on the individual processes.
  • a third area of application can be seen in telecommunications; For example, protocol data about the data traffic occurring in the switches are determined and stored in the switches of a mobile radio network. Finally, log data about the data traffic, for example about the frequency of access to information provided by the web server computer, is also frequently formed in a web server computer.
  • the manufacturer must find the cause of the problem to access the logged process data, generally the recorded log data of the system.
  • a log file containing the log data is currently of considerable size, often on the order of a few dozen GBytes. For this reason, it is difficult to transfer such a log file to the manufacturer of the system, for example using FTP (File Transfer Protocol).
  • FTP File Transfer Protocol
  • the database data can be data from (public)
  • a known possibility of providing information from a database via a communication network from a server computer to a client computer is to install diagnostic or statistical tools for analyzing the data contained in the databases directly on the server side, which, for example, using a web server, which is installed on the server computer and a web browser program installed on a client computer can be used.
  • So-called OLAP tools online analytical processing tools
  • OLAP tools online analytical processing tools
  • their operation is very complex and expensive. With some OLAP tools, the amount of data to be processed has even grown so large that the OLAP tools fail.
  • the invention addresses the problem of efficient access to the content of a database via a communication network while maintaining the confidentiality of the data contained in the database.
  • the problem is solved by a method and a computer arrangement for providing database information of a first database and by a method for computer-aided formation of a statistical model of a database with the features according to the independent patent claims.
  • the general scenario which is addressed by the invention, is characterized in the following way: At a first location A, a large amount of data stored in a database is available. At a second location B, someone wants to use this available data. The user at location B is less interested in individual data sets, but primarily in the statistics characterizing the database data.
  • a first statistical image is formed for the first database, for example in the form of a common probability model.
  • This image or model represents the statistical relationships of the data elements contained in the first database.
  • the first statistical image is stored in a server computer. Furthermore, the first statistical image is transmitted from the server computer to a client computer via a communication network, and the received first statistical image is processed further by the client computer.
  • a computer arrangement for computer-aided provision of database information of a first database has a server computer and a client computer, which are coupled to one another by means of a communication network are.
  • a first statistical image, which is formed for a first database, is stored in the server computer.
  • the first statistical image describes the statistical relationships between the data elements contained in the first database.
  • the client computer is set up in such a way that it can be used for further processing, for example an analysis, of the first statistical image transmitted from the server computer via the communication network to the client computer.
  • Probability models can be defined within the general formalism of the Bayesian networks (synonymously also causal networks or general graphical probabilistic networks).
  • the structure is determined by a directed graph.
  • the directed graph has nodes and the nodes relating edges to one another, the nodes describing predeterminable dimensions of the model or of the image in accordance with the values available in the database. Some nodes can also correspond to unobservable quantities (so-called latent variables, as described for example in [1]).
  • latent variables as described for example in [1]
  • missing or unobservable quantities are replaced by expected values or expected distributions. In the context of the improved EM learning method according to the invention, only the expected values are determined for the missing variables, the parent nodes of which are observable values from the database.
  • a statistical model is preferably used as the statistical image.
  • a statistical model should be understood to mean any model that represents all statistical relationships or the common frequency distribution of the data in a database (exact or approximate), for example a Bayesian (or causal) network, a Markov network or generally a graphical probabilistic Model, a “latent variable model, a statistical clustering model or a trained artificial neural network.
  • the statistical model can thus be understood as a complete, exact or approximate image of the statistics of the database.
  • This procedure according to the invention has the following advantages in particular: Compared with the database itself, the statistical model is very small, since the statistical model is a compressed image of the statistics of the database (not of the individual entries in the database), comparable to one according to the JPEG Standard compressed digital image, which is a compressed but approximate image of the digital image;
  • the compressed statistical models can thus be transmitted very easily, for example by means of electronic mail (e-mail), FTP (File Transfer Protocol) or other communication protocols for data transmission from the server computer to the client computer.
  • the transmitted statistical model can thus be used on the client side for the subsequent statistical analysis.
  • the server computer and the client computer can be coupled to one another for transmission of the statistical model via any communication network, for example via a fixed network or via a mobile radio network.
  • the invention is suitable for use in any area in which it is desirable not to transmit the entire data of a large database, but rather to transmit only the smallest possible amount of data while maintaining the greatest possible information content of the transmitted data with respect to the database, which is determined by the transferred data are described.
  • An advantage of the invention can be seen, in particular, in the fact that it is possible to ensure to a high degree the confidentiality of individual entries in the database, since not all data elements of the database itself are transmitted, but only a statistical representation of the data elements of the database, which enables a statistical analysis of the database on the client side without the concrete, possibly confidential data being available on the client side.
  • an operator for example of a technical system, can view the statistical content of the one he manages Database can be provided to a user of a client computer in an uncomplicated manner and as a rule without violating data protection guidelines, for example by means of a web server installed on the server computer, in which case the statistical models are provided by means of a
  • Client computer installed web browser program can be accessed.
  • the invention can be implemented by means of software, that is to say by means of a computer program, in hardware, that is to say by means of a special electronic circuit, or in any hybrid form, that is to say partly in software and partly in hardware.
  • the client computer uses the first statistical model and data elements of a second database stored in the client computer, to form an overall statistical model or an overall statistical image, which is at least a part of those in the first statistical Has image and statistical information contained in the second database.
  • a second statistical image or a second statistical model for a second database which represents the statistical relationships of the data elements contained in the second database.
  • the second statistical image is about the
  • Communication network to the client computer and using the first statistical map and second statistical image, the client computer forms an overall statistical image which has at least part of the statistical information contained in the first statistical image and in the second statistical image.
  • the statistical models are stored in different server computers and in each case transmitted from there to the client computer via a communication network.
  • the statistical models can be formed by the server computer (s), alternatively also by other, possibly specially configured computers, in which case the statistical models formed still refer to the server computer (s), for example via a local network.
  • the statistical models can thus be made available in a very simple manner worldwide in a heterogeneous network, for example on the Internet.
  • At least one of the statistical models can be formed using a scalable method with which the
  • the degree of compression of the statistical model can be adjusted compared to the data elements contained in the respective database.
  • At least one of the statistical models can also be developed using an EM learning process or variants thereof (as described, for example, in [2]) or using an gradient-based learning processes are formed.
  • the so-called APN learning method adaptive probabilistic network learning method
  • all likelihood-based learning methods or Bayesian learning methods can be used, as described for example in [3].
  • the structure of the common probability models can be in the form of a graphical probabilistic model (a Bayesian network, a Markov network or a
  • Probabilistic models from available data elements can be used, for example any structure learning method [4] and [5].
  • the first database and / or the second database can have data elements which describe at least one technical system.
  • the data elements describing the at least one technical system can at least partially represent values measured on the technical system which describe the operating behavior of the technical system.
  • a second database with data elements is stored in the client computer.
  • the client computer has a unit for forming an overall statistical model using the first statistical model and the data elements of the second database, the overall statistical model containing at least a part of those in the first statistical model and in the second database has statistical information.
  • a second server computer is provided, in which a second statistical model, which is formed for a second database, is stored, the second statistical model being the statistical relationships of the data elements contained in the second database represents.
  • the client computer is also coupled to the second server computer by means of the communication network. The client computer instructs a unit to form an overall statistical model
  • the overall statistical model having at least part of the statistical information contained in the first statistical model and in the second statistical model.
  • FIG. 1 shows a block diagram of a computer arrangement according to a first exemplary embodiment of the invention
  • FIG. 2 shows a block diagram of a computer arrangement according to a second exemplary embodiment of the invention
  • FIG. 3 shows a block diagram of a computer arrangement according to a third exemplary embodiment of the invention.
  • FIG. 4 shows a block diagram of a computer arrangement according to a fourth exemplary embodiment of the invention.
  • Figure 5 is a block diagram of a computer arrangement according to a fifth embodiment of the invention.
  • 1 shows a computer arrangement 100 according to a first exemplary embodiment of the invention.
  • the computer arrangement 100 is used in a call center.
  • the computer arrangement 100 has a multiplicity of telephone terminals 101 which are connected to a call center computer 103, 104, 105 by means of telephone lines 102.
  • the call center the phone calls from employees of the call center are answered and the processing of incoming calls
  • Telephone calls in particular the time of the incoming call, the duration, an indication of the employee who answered the call, an indication of the reason for the call and the type of processing of the call or any other information are provided by the call center Computers 103, 104, 105.
  • Each call center computer 103, 104, 105 has
  • each call center computer 103, 104, 105 are coupled to one another by means of a computer bus 118, 119, 120.
  • the call center computers 103, 104, 105 are coupled to a server computer 122 by means of the local network 121.
  • the server computer 122 has a first input / output interface 123 to the local network 121, a memory 124, a processor 127 and one
  • the server computer 122 serves according to this
  • Embodiment as a web server computer, as will be explained in more detail below.
  • the data recorded by the call center computers 103, 104, 105 are transmitted to the server computer 122 via the local network 121 and stored there in a database 126.
  • a statistical model 125 is also stored in the memory 124, which represents the statistical relationships of the data elements contained in the database 126.
  • the statistical model 125 is formed using the EM learning method known per se. Other alternative, preferably used methods for forming the statistical model 125 are described in detail below.
  • the statistical model 125 is automatically formed again at regular time intervals, based in each case on the most current data from the database 126.
  • the statistical model 125 is automatically provided by the server computer 122 for transmission to one or more client computers 132.
  • the client computer 132 is coupled to the second input / output interface 128 of the server computer 122 via a second communication connection 131, for example a communication connection which enables communication in accordance with the TCP / IP communication protocol.
  • the client computer 132 also has an input / output interface 133, configured for communication in accordance with the TCP / IP communication protocol, and a processor 134 and a memory 135.
  • the statistical model 125 transmitted in an electronic message 130 from the server computer 122 to the client computer 132 is stored in the memory 135 of the client computer 132.
  • the user of the client computer 132 now carries out any user-specific statistical analysis on the statistical model 125 and thus “indirectly” on the data in the database 126, without the large database 126 having to be transferred to the client computer 132.
  • the client-side statistical analysis can aim to optimize the call center.
  • analyzes are carried out in particular with regard to answering the following questions:
  • the analyzes to answer the above questions are performed by the user of the client computer 132.
  • the operator of the call center is then given suitable measures to optimize the operation of the call center based on the analysis results.
  • FIG. 2 shows a computer arrangement 200 according to a second exemplary embodiment of the invention.
  • the computer arrangement 200 is used in the field of biotechnology.
  • the computer arrangement 200 has a server computer 201 which has a memory 202, a processor 203 and an input / output interface 204 which is set up for communication in accordance with the TCP / IP protocols.
  • the components are coupled to one another by means of a computer bus 205.
  • In the memory 202 is a database 206 with genetic
  • Sequences or amino acid sequences are stored together with the additional information associated with the sequences.
  • a statistical model 207 has been formed in the same manner as in the first exemplary embodiment and stored there.
  • Each client computer 209, 210, 211 has
  • An input / output interface 212, 213, 214 set up for communication in accordance with the TCP / IP protocols
  • a memory 218, 219, 220 is provided.
  • the server computer 201 Upon request from a client computer 209, 210, 211, the server computer 201 transmits the statistical model 206 to the client computer 209, 210, 211 in an electronic message 221, 222, 223.
  • the user of the client computer 209, 210, 211 compares the sequence to be examined with the statistical model 206.
  • the result of a statistical analysis is an indication of how many sufficiently similar sequences exist in the database 206 and what properties these sequences are characterized by.
  • FIG 3 shows a computer arrangement 300 according to a third exemplary embodiment of the invention.
  • the computer arrangement 300 has a first computer 301 and a second computer 309.
  • the first computer 301 has a memory 302, a processor 303 and an input device configured for communication in accordance with the TCP / IP communication protocols.
  • the first computer 301 is a car of a car dealership, which contains in the customer database stored in the memory 302 information on the customer's first name and last name, place of residence and type of vehicle used, but not on age, marital status and salary receipt.
  • the second computer 309 has an input / output interface 310 set up for communication in accordance with the TCP / IP communication protocols, a memory 311 and a processor 312, which are coupled to one another by means of a computer bus 313.
  • the second computer 309 is a computer of a bank cooperating with the dealership.
  • memory 311 of the second Computers 309 stores a second customer database 314.
  • the second customer database 314 contains information about the customer's first name and last name of the customer, their place of residence, marital status, age and salary receipt, but not about the vehicle type used by the respective customer.
  • the bank is therefore unable to determine from its stored data which families with which wages typically use which cars.
  • the knowledge is at least approximately available in both databases in order to establish a connection, for example, between the vehicle type and the salary input.
  • a statistical model 306 according to the EM learning method is formed in the first computer via the database.
  • the statistical model 306 compressed with respect to the database is transmitted to the second computer 309, which is bidirectionally coupled to the first computer 301 via the Internet 308, in an electronic message 307.
  • this is merged by the second computer 309 with the second customer database 314 to form an overall statistical model 315.
  • Partner A has the attributes W, X, Y, which are symbolic for a variety of arbitrary attributes are available.
  • Partner B has the attributes X, Y, Z.
  • Partner B (according to this exemplary embodiment the car dealership) provides partner A (according to this exemplary embodiment the bank) with a statistical model of its data, which is subsequently referred to as P ß (X , Y, Z).
  • the aim of partner A is to create a statistical overall model P (W, X, Y, Z) from his data together with the data from his database.
  • Partner A derives a conditional model P ß (Z
  • Each customer is assigned the value of the variable Z (as an entry in an additional column in the database) the value that is most likely according to the probability distribution Pg (Z
  • partner A can now use standard statistical analysis methods with regard to all four attributes or a common statistical model, the overall model P ß (W, X, Y, Z ), which clearly represents a virtual shared database image.
  • the EM- Learning method used. In each learning step of the iterative EM learning process, based on the current parameters, estimates (expected sufficient statistics) are generated for the missing sizes, which replace the missing sizes.
  • X, Y) can also be used to determine expected values or expected sufficient statistics values for the variable Z and thus consistently expand this learning process to include a common model of distributed data to create.
  • the bank now has all the statistical information available and can carry out corresponding analyzes of the data.
  • the bank creates a statistical model via the second customer database and transmits it to the dealership, which in turn forms an overall statistical model.
  • the car dealership it would be desirable for the car dealership to know the age of its customers, their marital status and their salary, or at least an estimate of their age, marital status and age
  • suitable products can be offered to customers in a much more targeted manner, for example, a young family with an average salary is certainly to be offered a different car than a single with a high salary.
  • FIG. 1 shows a computer arrangement 400 according to a fourth exemplary embodiment of the invention.
  • n computers 401, 413, 420 are provided, each in 23 computer bus 424 are coupled together.
  • a statistical model 425 is also formed via the customer database in the nth computer 420 by means of the EM learning method and is stored in the memory 421 of the nth computer 420.
  • the computers 401, 413, 420 are connected to a client computer 409 by means of a respective communication connection 408.
  • the client computer 409 has a memory 411, one
  • Processor 412 and an input / output interface 410 set up for communication in accordance with the TCP / IP communication protocols, which are coupled to one another by means of a computer bus 426.
  • the computers 401, 413, 420 transmit the statistical models 406, 418, 525 to the client computer 409 in respective electronic messages 407, 419, 427, which stores these in its memory 410.
  • the exemplary embodiment is explained in more detail below only taking into account the first statistical model 406 and the second statistical model 418.
  • any number of statistical models can be combined to form an overall model, for example by repeatedly performing the method steps described below.
  • the aim of the third exemplary embodiment is to combine a plurality of statistical models with one another to form an overall model.
  • partner A also creates a statistical model PA (W, X, Y) and then the 24 models PA (W, X, Y) and P ß (X, Y, Z) combined to form a statistical overall model P (W, X, Y, Z).
  • X, Y) or as P (W, X, Y, Z) P B (X, Y, Z) P A (W
  • Z) e.g. a distribution over or an affinity for vehicle types for a given salary receipt.
  • the variables X and Y are marginalized.
  • variable W is used to infer the common variables X and Y based on the model P A (W, X, Y).
  • X, Y) (prediction of the variable Z from the variables X and Y) is used to determine the distribution for the variable Z in accordance with all combinations allowed for the variables X and Y thereafter.
  • the overall model 426 P (W, X, Y, Z) can be handled numerically easily if the overlap between these statistical models is not too large, preferably less than 10 common variables. In the case of a large "overlap space”, additional approximations can be used to accelerate the execution of the following sums, which according to the above exemplary embodiments have to be formed over all common states of the common variables X and Y:
  • P (W, z) ⁇ P A (W, X, Y) • P ß (z
  • H) or the form of the dependency between X, Y and H on the one hand and H and Z on the other hand is chosen so that the above sums are easy to carry out.
  • H) are determined in such a way that the approximate total distribution P a pp rox (W, X, Y, Z) is as good as possible for the desired distribution
  • P (W, X, Y, Z) P A (W, X, Y) • PB (Z
  • the log likelihood or the Kullback-Leibler distance can be used as a cost function.
  • An EM learning method or a gradient-based learning method are therefore again suitable as optimization methods.
  • Finding optimal parameters can and may be computationally expensive. As soon as the two probability models are then "merged" into an overall model, the overall model can be used in a very efficient manner.
  • variable H is a hidden variable, i.e. to parameterize the distribution P (W, X, Y, H) as
  • a hidden variable H instead of a hidden variable H, several variables can also be introduced.
  • a hidden variable K can also be introduced for the model PB to simplify the numerics.
  • An approximation of the overall model P (W, X, Y, Z) takes e.g. the shape
  • Tre, e procedure can be carried out.
  • H) has to be determined by known learning methods.
  • FIG. 5 shows a computer arrangement 500 according to a fifth exemplary embodiment of the invention. 28
  • the computer arrangement 500 is used for the exchange of customer information, in accordance with this exemplary embodiment for the exchange of address information for customers.
  • the computer arrangement 500 has a server computer 501 and one or more with it via
  • Telecommunications network 502 connected client computer 503.
  • the server computer 501 has a memory 504, a processor 505 and an input / output interface 506 set up for communication via the Internet, which components are coupled to one another by means of a computer bus 507.
  • the server computer 501 serves as a web server computer, as will be explained in more detail below.
  • a large customer database 508 (in particular with address information about the customers and information describing the buying behavior of the customers) is stored in the memory 504. Furthermore, a statistical model 509, which was formed by the server computer 501 via the customer database 508, is also stored in the memory 504 and represents the statistical relationships of the data elements contained in the customer database 508.
  • the statistical model 509 is formed using the known EM learning method. Other alternative, preferably used methods for forming the statistical model 509 are described in detail below.
  • the statistical model 509 is automatically formed again at regular, predetermined time intervals, based in each case on the most current data from the customer database 508.
  • the statistical model 509 is automatically provided by the server computer 501 for transmission to the one or more client computers 503.
  • the client computer 503 also has an input
  • Output interface 510 set up for communication in accordance with the TCP / IP communication protocol as well as a processor 511 and a memory 512.
  • the components of the client computer are coupled to one another by means of a computer bus 513.
  • the statistical model 509 transmitted in an electronic message 514 from the server computer 501 to the client computer 503 is stored in the memory 512 of the client computer 503.
  • the statistical model 509 does not contain the details of the customer database 508, in particular the actual addresses of the customers. However, the statistical model 509 contains statistical information about the behavior, in particular about the purchasing behavior of the customers.
  • the user of the client computer 503 now chooses an interesting group of customers, i.e. a part 515 of the statistical model 509 which is of interest to him and which describes a buying behavior which is of interest to the company of the user of the client computer 503.
  • the client computer 503 transmits the information 515 about the selected part of the statistical model 509 in a second electronic message 516 to the server computer 501.
  • the server computer 501 uses the received information to read the customers designated by means of the part 515 of the statistical model 509 and the associated customer detailed information 517, in particular the customer 30 addresses of the customers, from the customer database 508 and transmits the read customer detail information 517 in a third electronic message 518 to the client computer 503.
  • this transmission takes place against payment.
  • a very efficient so-called "on-line list broking" is realized.
  • the states of the variables are identified with small letters.
  • Li is the number of states of the variable Xi.
  • An entry in a data record 31 ⁇ (a database) now consists of values for all variables, where x ⁇ ⁇ x, Xg, ...) denotes the ⁇ th data set.
  • the variable X ⁇ is in the state x?,
  • the variable X2 is in the state x ⁇ etc.
  • P ( ⁇ ) describes an a priori distribution
  • P ( ⁇ -_) is the a priori weight of the i-th cluster
  • ⁇ j describes the structure of the i-th
  • Distributions for each cluster together parameterize a common probability model on X ⁇ or on X.
  • the aim is to determine the parameters of the model, ie the a priori distribution p ( ⁇ ) and the conditional probability tables p (x
  • a corresponding EM learning process consists of a series of iteration steps, with an improvement of the model (in the sense of a so-called likelihood) being achieved in each iteration step.
  • new parameters p new are estimated based on the current or "old" parameters p defined.
  • Each EM step begins with the E step, in the "Sufficient Statistics" in the tables provided for this purpose 32 can be determined. It starts with probability tables, the entries of which are initialized with zero values. The fields of the tables are filled with the so-called sufficient statistics s ( ⁇ ) and s (x, ⁇ ) in the course of the E-step, in that for each data point the missing information (in particular the assignment of each data point to the clusters) by means of expected values be supplemented.
  • the a posteriori distribution p ⁇ l fWj 1x7l must be determined. This step is also referred to as an "inference step”.
  • ⁇ ) are calculated for the statistical model, p (x
  • membership probabilities for certain classes are only calculated up to a value close to 0 in an iterative process, and the classes with 35 Probabilities of membership below a selectable value are no longer used in the iterative process.
  • a sequence of the factors to be calculated is determined in such a way that the factor that belongs to a rarely occurring state of a variable is processed first.
  • the rarely occurring values can be stored in an ordered list before the formation of the product begins, so that the variables are ordered according to the frequency of their appearance of a zero in the list.
  • the clusters which have a weight other than zero, can be stored in a list, the data stored in the list being pointers to the corresponding clusters.
  • the method can also be an expectation maximization learning process, in which in the event that a cluster is assigned an a posteriori weight "zero" for a data point, this cluster receives zero weight for this data point in all further steps of the EM method and that this cluster no longer has to be considered in all further steps.
  • the method can only run over clusters that have a non-zero weight.
  • Formation of an overall product carried out. As soon as the first zero occurs in the associated factors, which can be read out, for example, from a memory, array or a pointer list, the formation of the overall product is terminated.
  • the a posteriori weight belonging to the cluster is then set to zero.
  • it can first be checked whether at least one of the factors in the product is zero. All multiplications for the formation of the overall product are only carried out if all factors are different from zero.
  • a clever order is chosen such that if a factor in the product is zero, this factor is very likely to appear as one of the first factors in the product very soon. This means that the formation of the overall product can be stopped very soon.
  • the definition 37 of the new order can occur according to the frequency with which the states of the variables appear in the data.
  • a factor that belongs to a very rare state of a variable is processed first. The order in which the factors are processed can thus be determined once before the start of the learning process by storing the values of the variables in a correspondingly ordered list.
  • a logarithmic representation of the tables is preferably used, for example to avoid underflow problems.
  • This function can be used to replace zero elements with a positive value, for example. This means that complex processing or separations of values that are almost zero and differ from one another by a very small distance are no longer necessary.
  • clusters which are given an a posteriori weight of zero by multiplication by zero, are excluded from all further calculations in order to save numerical effort, in this example, from one EM step to the next, intermediate results regarding cluster affiliations are also obtained individual data points (which clusters are already excluded or still permissible) are stored in additionally necessary data structures.
  • a list or a similar data structure can first be saved, which contains references to the relevant clusters, which have been given a non-zero weight for this data point.
  • missing information is not added for all sizes.
  • part of the missing information can be “ignored”. In other words, this means that no attempt is made to learn something about a random variable Y from data in which there is no information about the random variable Y (a node Y) is or that no attempt is being made - something about the relationships between two random variables Y and X (two nodes Y and X) from data in which no information about the random variables Y and X is contained.
  • a statistical model contains variables which describe what rating a cinema-goer has given a film.
  • There is a variable for each film with each variable being assigned a plurality of states, each state representing an evaluation value.
  • There is a record for each customer, in 40 is stored, which film has received which evaluation value. If a new film is offered, the rating values for this film are initially missing.
  • the new variant of the EM learning method it is now possible to carry out the EM learning method only with the films known up to that point until the new film appears, ie the new film (ie generally the new node in the directed graph) initially to ignore. Only when the new film is released is the statistical model dynamically supplemented by a new variable (a new node) and the ratings of the new film are taken into account. The convergence of the process in terms of log likelihood is still guaranteed; the process converges even faster.
  • H is a hidden node.
  • 0 , 0, ..., 0 denotes a set of M observable nodes in the directed graph of the statistical model.
  • a data record with N data record elements ⁇ _, i 1, ..., N
  • the statistical model estimates are accumulated according to the following rules:
  • the parameters for all nodes are updated according to the following rules:
  • Probability tables must be standardized when transferring SS to P.
  • the expected values for the non-existent nodes Yi are calculated and according to the 43 Sufficient Statistics values for these nodes updated according to regulation (7).
  • the composite distribution P (H, essentially these random numbers in the first step This means that the initial random numbers are taken into account in the sufficient statistics values according to the ratio of the missing information to the available information. This means that the initial random numbers in each table are only "deleted" according to the ratio of the missing information to the existing information.
  • Node H are normalized for the log likelihood:
  • the sum ⁇ denotes the sum over all states h of the h node H.
  • the first line applies generally to all B (see regulation (14)).
  • the third line applies due to regulation (15).
  • the last line of regulation (17) again corresponds to regulation (14).
  • a sequence of EM iterations is formed such that:
  • the unobserved nodes Xi are divided into two subsets Hi and Y_i in such a way that none of the nodes in the sets Xi and Hi is a dependent, i.e. subsequent node ("child" node) of a node in the set Y_.
  • Y_ corresponds to a branch in a Bayesian network for which there is no information in the data.
  • the invention can clearly be seen in the fact that a broad and simple (but generally approximate) access to the statistics of a database (preferably via the Internet) by forming statistical ones
  • Models for the content of the database is created.
  • the statistical models for "remote diagnosis”, for so-called “remote assistance” or for “remote research” are thus automatically sent via a communication network.
  • “knowledge” is communicated and sent in the form of a statistical model.
  • Knowledge is often knowledge about the relationships and interdependencies in a domain, for example about the dependencies in a process.
  • a statistical model of a domain, which is formed from the data in the database reflects all of these relationships.
  • the models represent a common probability distribution of the dimensions of the database, so they are not restricted to a specific task, but represent any dependencies between the dimensions. Compressed with the statistical model, knowledge of a domain can be handled, sent, and used very easily Provide users, etc.
  • the resolution of the image or the statistical model can be selected according to the requirements of data protection or the needs of the partners. 51
  • the following publications are cited in this document:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Für die erste Datenbank wird ein erstes statistisches Abbild gebildet, welches die statistischen Zusammenhänge der in der ersten Datenbank enthaltenen Datenelemente repräsentiert. Anschließend wird das erste statistische Abbild in einem Server-Computer gespeichert und von diesem über ein Kommunikationsnetz zu einem Client-Computer übertragen. Das empfangene erste statistische Abbild wird von dem Client-Computer weiterverarbeitet.

Description

Beschreibung
Verfahren und Computer-Anordnung zum Bereitstellen von Datenbankinformation einer ersten Datenbank und Verfahren zum rechnergestützten Bilden eines statistischen Abbildes einer Datenbank
Die Erfindung betrifft ein Verfahren und eine Computer- Anordnung zum Bereitstellen von Datenbankinformation einer ersten Datenbank und ein Verfahren zum rechnergestützten Bilden eines statistischen Abbildes einer Datenbank.
Heutzutage sind kaum noch Vorgänge zu beobachten, die ohne Unterstützung eines Computers ablaufen. Häufig wird bei Einsatz eines Computers im Rahmen eines Prozesses der Prozess mittels des Computers überwacht oder zumindest prozessspezifische Daten von dem Computer aufgezeichnet- und protokolliert, beispielsweise Daten über die einzelnen Prozessschritte des Prozesses und deren Ergebnisse oder Zwischenergebnisse.
Beispielsweise wird üblicherweise in einem Call Center im Detail festgehalten, wann welcher Anruf in dem Call Center eingegangen ist, wann der jeweilige eingegangene Anruf von einem Mitarbeiter des Call Centers bearbeitet wurde, zu welchem anderen Mitarbeiter des Call Centers möglicherweise weitergeleitet worden ist, etc.
Ferner werden üblicherweise in der Prozess-Automatisierung ' umfangreiche Protokoll-Dateien gebildet, in denen Daten über die einzelnen Prozesse gespeichert werden.
Ein drittes Anwendungsgebiet ist in der Telekommunikation zu sehen; so werden beispielsweise in den Switches eines Mobilfunknetzes Protokolldaten über den in den Switches auftretenden Datenverkehr ermittelt und gespeichert. Schließlich werden auch in einem Webserver-Computer häufig Protokolldaten über den Datenverkehr, beispielsweise über die Zugriffshäufigkeit auf von dem Webserver-Computer bereitgestellter Information, gebildet.
Treten im Verlauf eines Prozesses Probleme auf, so wird üblicherweise der Betreiber der Anlage, auf welcher der Prozess ausgeführt wird, vor Ort versuchen, die Ursache für die aufgetretenen Probleme zu finden. Gelingt ihm das nicht, so wendet er sich meist an den Hersteller der Anlage.
Herstellerseitig ist es zum Auffinden der Problemursache erforderlich, auf die protokollierten Prozessdaten, allgemein auf die aufgezeichneten Protokolldaten der Anlage zuzugreifen. Derzeit hat eine die Protokolldaten enthaltende Protokolldatei eine erhebliche Größe, häufig in der Größenordnung einiger Dutzend GByte. Eine solche Protokolldatei lässt sich aus diesem Grund nur schlecht zu dem Hersteller der Anlage, beispielsweise unter Verwendung von FTP (File Transfer Protocol) übertragen. Selbst wenn ausreichend schnelle Kommunikationsverbindungen zur Verfügung stehen, ist es für den Hersteller einer Anlage schwierig und teuer, für eine größere Anzahl von Kunden die Protokolldateien zu speichern und zu verarbeiten.
Auch in anderen Bereichen besteht der Bedarf, zu Analysezwecken große Datenmengen zu übertragen, beispielsweise überall dort, wo große Datenbanken öffentlich zugänglich sind, um der Öffentlichkeit das Forschen unter Verwendung der Datenbankdaten zu ermöglichen. Die Datenbankdaten können Daten sein aus (öffentlichen)
Forschungsprojekten (beispielsweise Daten einer Gen-Datenbank oder einer Protein-Datenbank) , Wetterdaten, demographische Daten, Daten, die zum Zwecke einer Rasterfahndung (in diesem Fall nur einem begrenzten Kreis befugter Nutzer) zur Verfügung gestellt werden sollen. Insbesondere .der Bereich der Biotechnologie ist heutzutage von erheblichem Interesse. Es existieren eine Vielzahl von Datenbanken in diesem Bereich.
Ferner ist es insbesondere aus Gründen der Datensicherheit häufig wünschenswert, nicht alle konkreten Informationen der Datenbankdaten weiterzugeben.
Eine bekannte Möglichkeit, Informationen einer Datenbank über ein Kommunikationsnetz von einem Server-Computer einem Client-Computer bereitzustellen, besteht darin, Diagnoseoder Statistik-Werkzeuge zur Analyse der in den Datenbanken enthaltenen Daten direkt serverseitig zu installieren, welche beispielsweise unter Verwendung eines Web-Servers, welcher auf dem Server-Computer installiert ist und eines auf einem Client-Computer installierten Web-Browser-Programms genutzt werden können. Hierfür können so genannte OLAP-Werkzeuge (On- Line Analytical Processing-Werkzeuge) eingesetzt werden, deren Betrieb allerdings sehr aufwendig und teuer ist. Bei einigen OLAP-Werkzeugen ist die zu verarbeitende Datenmenge sogar schon so groß geworden, so dass die OLAP-Werkzeuge versagen.
Ferner ist es für den Betreiber einer Anlage sehr unbequem und teuer, diese Werkzeuge serverseitig zu betreiben, da das unmittelbare Interesse an der Information ja bei dem Nutzer des Client-Computers liegt und häufig der Betreiber der Anlage nicht bereit ist, die zusätzlichen Kosten für die Bereitstellung und Wartung des Server-Computers und der OLAP- Werkzeuge zu tragen.
Weiterhin ist bei einer großen Anzahl von Client-Computern und einer großen Zahl von Anfragen an den Server-Computer die Beantwortung aller Anfragen sehr rechenaufwendig, weshalb die Hardware des Server-Computers häufig unakzeptabel teuer ist.
Der Erfindung liegt das Problem eines effizienten Zugriffs auf den Inhalt einer Datenbank über ein Kommunikationsnetz unter Wahrung der Vertraulichkeit der in der Datenbank enthaltenen Daten zugrunde.
Das Problem wird durch ein Verfahren und eine Computer- Anordnung zum Bereitstellen von Datenbankinformation einer ersten Datenbank sowie durch ein Verfahren zum rechnergestützten Bilden eines statistischen Modells einer Datenbank mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
Das allgemeine Szenario, welches von der Erfindung adressiert wird, ist auf folgende Weise charakterisiert: An einem ersten Ort A steht eine große Menge von in einer Datenbank gespeicherten Daten zur Verfügung. An einem zweiten Ort B will jemand diese zur Verfügung stehenden Daten nutzen. Der Nutzer an dem Ort B ist weniger an einzelnen Datensätzen interessiert, sondern in erster Linie an der die Datenbankdaten charakterisierenden Statistik.
Bei einem Verfahren zum rechnergestützten Bereitstellen von Datenbankinformation einer ersten Datenbank wird für die erste Datenbank ein erstes statistisches Abbild beispielsweise in Form eines gemeinsamen Wahrscheinlichkeitsmodells gebildet. Dieses Abbild bzw. Modell repräsentiert die statistischen Zusammenhänge der in der ersten Datenbank enthaltenen Datenelemente. Das erste statistische Abbild wird in einem Server-Computer gespeichert. Ferner wird das erste statistische Abbild von dem Server-Computer über ein Kommunikationsnetz zu einem Client-Computer übertragen und das empfangene erste statistische Abbild wird von dem Client-Computer weiterverarbeitet .
Eine Computer-Anordnung zum rechnergestützten Bereitstellen von Datenbankinformation einer ersten Datenbank weist einen Server-Computer und einen Client-Computer auf, die miteinander mittels eines Kommunikationsnetzes gekoppelt sind. In dem Server-Computer ist ein erstes statistisches Abbild, welches für eine erste Datenbank gebildet ist, gespeichert. Das erste statistische Abbild beschreibt die statistischen Zusammenhänge der in der ersten Datenbank enthaltenen Datenelemente. Der Client-Computer ist derart eingerichtet, dass mit ihm eine Weiterverarbeitung, beispielsweise eine Analyse, des von dem Server-Computer über das Kommunikationsnetz zu dem Client-Computer übertragenen ersten statistischen Abbildes möglich ist.
Bei einem Verfahren zum rechnergestützten Bilden eines statistischen Modells einer Datenbank, welche eine Vielzahl von Datenelementen aufweist, kann ein so genanntes EM- Lernverfahren (Expectation Maximisation-Lernverfahren) auf die Datenelemente durchgeführt werden, sowie auch alternativ andere Lernverfahren. Die Struktur des gemeinsamen (alle Felder in der Datenbank umfassenden)
Wahrscheinlichkeitsmodells kann im Rahmen des allgemeinen Formalismus der Bayesianischen Netze (synonym auch Kausale Netze oder allgemeine Graphische Probabilistische Netze) festgelegt werden. Hierbei wird die Struktur durch einen gerichteten Graphen festgelegt. Der gerichtete Graph weist Knoten und die Knoten miteinander in Bezug setzende Kanten auf, wobei die Knoten vorgebbare Dimensionen des Modells bzw. des Abbildes entsprechend den in der Datenbank vorhandenen Werten beschreiben. Einige Knoten können dabei auch nicht beobachtbaren Größen (so genannten latenten Variablen, wie sie beispielsweise in [1] beschrieben sind) entsprechen. Im Rahmen eines allgemeinen EM-Lernverfahrens werden fehlende oder nicht beobachtbare Größen durch Erwartungswerte oder erwartete Verteilungen ersetzt. Im Rahmen des erfindungsgemäßen verbesserten EM-Lernverfahrens werden nur die Erwartungswerte ermittelt zu den fehlenden Größen, deren Eltern-Knoten beobachtbare Werte aus der Datenbank sind.
Als statistisches Abbild wird vorzugsweise ein statistisches Modell verwendet. Unter einem statistischen Modell ist in diesem Zusammenhang jedes Modell zu verstehen, das alle statistischen Zusammenhänge bzw. die gemeinsame Häufigkeitsverteilung der Daten einer Datenbank darstellt (exakt oder approximativ), beispielsweise ein Bayesianisches (oder Kausales) Netz, ein Markov Netz oder allgemein ein Graphisches Probabilistisches Modell, ein „Latent Variabel Model , ein statistisches Clustering-Modell oder ein trainiertes künstliches Neuronales Netz. Das statistische Modell kann somit als ein vollständiges, exaktes oder approximatives Abbild der Statistik der Datenbank aufgefasst werden.
Im Zusammenhang der Weiterverarbeitung des statistischen Modells durch den Client-Computer bedeutet dies, dass eine Analyse nicht wie gemäß dem Stand der Technik basierend auf den Datenelementen der Datenbank selbst oder basierend auf einem OLAP-Werkzeug erfolgt. Stattdessen werden alle gewünschten (bedingten) Wahrscheinlichkeitsverteilungen aus dem gemeinsamen Wahrscheinlichkeitsmodell, dem statistischen Modell, ermittelt.
Diese erfindungsgemäße Vorgehensweise hat insbesondere die folgenden Vorteile: • Verglichen mit der Datenbank selbst ist das statistische Modell sehr klein, da das statistische Modell ein komprimiertes Abbild der Statistik der Datenbank ist (nicht der einzelnen Einträge in der Datenbank) , vergleichbar einem gemäß dem JPEG-Standard komprimiertem digitalen Bild, welches ein komprimiertes aber approximatives Abbild des digitalen Bildes darstellt;
• Das statistische Modell selbst kann mit wesentlich geringerem Hardware-Aufwand sehr schnell evaluiert werden.
Je nach verwendetem Verfahren zum Trainieren des statistischen Modells kann eine erhebliche Kompression der Datenbank erzielt werden. Unter Verwendung eines in der erzielbaren Kompression skalierbaren Lernverfahrens wurde eine Kompression von bis zu einem Faktor 1000 erreicht, wobei die in dem statistischen Modell enthaltene Information qualitativ ausreichend war. Die komprimierten statistischen Modelle lassen sich somit sehr einfach beispielsweise mittels elektronischer Post (E-Mail) , FTP (File Transfer Protocol) oder anderer Kommunikationsprotokolle zur Datenübertragung von dem Server-Computer zu dem Client-Computer übertragen. Das übertragene statistische Modell kann somit clientseitig zur nachfolgenden statistischen Analyse genutzt werden.
Der Server-Computer und der Client-Computer können über ein beliebiges Kommunikationsnetz, beispielsweise über ein Festnetz oder über ein Mobilfunknetz miteinander zur Übertragung des statistischen Modells gekoppelt sein.
Die Erfindung ist zum Einsatz in jedem Bereich geeignet, in dem es wünschenswert ist, nicht die gesamten Daten einer großen Datenbank zu übertragen, sondern nur eine möglichst geringe Datenmenge zu übertragen bei Erhalt eines möglichst großen Informationsgehalts der übertragenen Daten hinsichtlich der Datenbank, die von den übertragenen Daten beschrieben werden.
Ein Vorteil der Erfindung ist insbesondere darin zu sehen, dass es ermöglicht wird, in einem hohen Maße die Vertraulichkeit von individuellen Einträgen in die Datenbank zu gewährleisten, da nicht alle Datenelemente der Datenbank selbst übertragen werden, sondern nur eine statistische Repräsentation der Datenelemente der Datenbank, womit clientseitig eine statistische Analyse der Datenbank möglich wird, ohne dass clientseitig die konkreten, möglicherweise geheim zu haltenden Daten verfügbar sind.
Ferner kann ein Betreiber beispielsweise einer technischen Anlage die statistischen Inhalte der von ihm geführten Datenbank einem Nutzer eines Client-Computers unkompliziert und in der Regel ohne Verletzung von Datenschutzrichtlinien, beispielsweise mittels eines auf dem Server-Computer installierten Web-Servers bereitgestellt werden, in welchem Fall die statistischen Modelle mittels eines auf einem
Client-Computer installierten Web-Browser-Programms abgerufen werden können.
Die Erfindung kann mittels Software, das heißt mittels eines Computerprogramms, in Hardware, das heißt mittels einer speziellen elektronischen Schaltung, oder in beliebig hybrider Form, das heißt teilweise in Software und teilweise in Hardware, realisiert werden.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die folgenden Ausgestaltungen der Erfindung betreffen die Verfahren und die Computer-Anordnung.
Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen, unter Verwendung des ersten statistischen Modells und Datenelementen einer in dem Client-Computer gespeicherten zweiten Datenbank ein statistisches Gesamt-Modell bzw. ein statistisches Gesamt-Abbild zu bilden, welches zumindest einen Teil der in dem ersten statistischen Abbild und in der zweiten Datenbank enthaltenen statistischen Information aufweist.
Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, für eine zweite Datenbank ein zweites statistisches Abbild bzw. ein zweites statistisches Modell zu bilden, welches die statistischen Zusammenhänge der in der zweiten Datenbank enthaltenen Datenelemente repräsentiert. Das zweite statistische Abbild wird über das
Kommunikationsnetz zu dem Client-Computer übertragen und unter Verwendung des ersten statistischen Abbildes und des zweiten statistischen Abbildes wird von dem Client-Computer ein statistisches Gesamt-Abbild gebildet, welches zumindest einen Teil der in dem ersten statistischen Abbild und in dem zweiten statistischen Abbild enthaltenen statistischen Information aufweist.
Diese Ausgestaltungen der Erfindung tragen beispielsweise folgendem allgemeinen erfindungsgemäßen Szenario Rechnung, dass fast jeder Vorgang in einem Unternehmen, insbesondere auch jeder Kundenkontakt und jede Bestellung und Auslieferung eines Produktes mit Rechnerunterstützung abläuft. In diesem Zusammenhang werden üblicherweise die Vorgänge in dem Unternehmen oder jede Aktion eines Kunden im Detail in einer Protokolldatei aufgezeichnet, beispielsweise im Rahmen von so genannten Customer Relationship Management Systemen (CRM- Systemen) oder im Rahmen von Supply Chain Management Systemen. Die protokollierten Daten stellen für viele Unternehmen ein erhebliches Vermögen dar. Dementsprechend zeigt sich ein Trend der Unternehmen, dass sie ihre Daten, beispielsweise Daten über Kunden, in „Wissen über Kunden" umsetzen. Es hat sich jedoch gezeigt, dass die in einem Unternehmen vorhandenen Informationen beispielsweise über einen Kunden (aber auch über den Betrieb einer technischen Anlage oder ähnlichem) nur sehr einseitig ist. Häufig fehlen wesentliche Attribute aller oder einzelner Kunden oder technischen Anlagen, die z.B. ein Zielgruppen-gerechtes Marketing, allgemein eine qualitativ hochwertige Datenauswertung, erst ermöglichen. Ein Beispiel im Rahmen der Kundeninformation ist in dem Alter des Kunden zu sehen oder in deren Familienstand sowie die Anzahl der Kinder. Es hat sich jedoch herausgestellt, dass bei Zusammenführen der Information mehrerer Datenbanken, seien es Kundendatenbanken oder auch Datenbanken mit Informationen über technische Prozesse, ein erheblich genaueres und vollständigeres „Bild" (im Fall des Marketings, ein „Kundenbild" ) ergeben. Die gemeinsame Nutzung der Datenbanken bzw. des Wissens mehrerer Unternehmen würde somit für die nachfolgende Auswertung eine erhebliche Verbesserung ermöglichen. Der Austausch von Daten über Unternehmensgrenzen hinweg stellt aber aus folgenden Gründen keine zufrieden stellende Lösung für das oben beschriebene Problem dar: • Unternehmen sind üblicherweise nicht bereit, Details über ihre Kunden oder ihre technischen Prozesse an andere Unternehmen weiterzugeben. Der Kundenstamm eines Unternehmens und damit die Detail-Daten über die Kunden stellen häufig ein wesentliches Unternehmensvermögen dar.
• Ein Austausch der Datenbankdaten bedeutet technisch auch, dass große Mengen an Daten übertragen und gespeichert werden müssen.
• Aus datenschutzrechtlichen Gründen sind dem Austausch von Datenbankdaten, insbesondere von personenbezogenen
Daten enge Grenzen gesetzt.
• Selbst wenn Daten zwischen zwei Unternehmen ausgetauscht werden, entsteht ohne zusätzliche Maßnahmen zunächst nur für die Kunden, die in beiden Unternehmen bekannt sind, ein verbessertes Bild. Für Kunden, die nur in einem
Unternehmen bekannt sind, bleiben die Daten und damit das Bild über diese Kunden weiterhin unvollständig.
Zusammenfassend ergeben sich somit anschaulich folgende erfindungsgemäße Aspekte:
• Das Wissen über Kunden oder Prozesse oder Anlagen, allgemein die in einer Datenbank enthaltene Information, wird so dargestellt,
• dass es stark komprimiert und damit technisch auf einfachere Weise zwischen den Computern austauschbar ist, und
• dass wesentliche Zusammenhänge dargestellt werden, dass jedoch Detail-Informationen nur in einem definierbaren Maß wiederzufinden sind, so dass Unternehmen mit weniger Bedenken solche
Informationen austauschen und keine Datenschutzrichtlinien verletzt werden. • Die auf diese Weise dargestellte Information aus verschiedenen Quellen (aus verschiedenen Datenbanken) kann zu einem Gesamtbild kombiniert werden, welches von allen teilnehmenden Unternehmen genutzt werden kann.
Durch die oben beschriebenen Ausgestaltungen wird es somit nunmehr möglich, unter Wahrung des Datenschutzes unter Reduzierung der benötigten Bandbreite zur Übertragung der statistischen Information, diese den Nutzern bereitzustellen, welche clientseitig die statistischen Modell zu einem Gesamtbild, dem Gesamt-Modell, zusammenführen können.
Gemäß einer anderen Ausgestaltung der Erfindung werden die statistischen Modell in unterschiedlichen Server-Computern gespeichert und jeweils von dort über ein Kommunikationsnetz zu dem Client-Computer übertragen.
In diesem Zusammenhang ist anzumerken, dass die statistischen Modelle von den Server-Computer (n) gebildet werden können, alternativ auch von anderen, möglicherweise speziell dazu eingerichteten Computern, in welchem Fall die gebildeten statistischen Modellen noch zu den Server-Computer (n) , beispielsweise über ein lokales Netz, übertragen werden.
Somit können die statistischen Modelle in einem heterogenen Netz, beispielsweise im Internet, weltweit auf sehr einfache Weise bereitgestellt werden.
Mindestens eines der statistischen Modelle kann mittels eines skalierbaren Verfahrens gebildet werden, mit dem der
Kompressionsgrad des statistischen Modells verglichen mit den in der jeweiligen Datenbank enthaltenen Datenelementen einstellbar ist.
Mindestens eines der statistischen Modelle kann ferner mittels eines EM-Lernverfahrens oder Varianten davon (wie sie beispielsweise in [2] beschrieben sind) oder mittels eines gradientenbasierten Lernverfahrens gebildet werden. Beispielsweise kann das so genannte APN-Lernverfahren (Adaptive Probabilistic Network-Lernverfahren) als gradientenbasiertes Lernverfahren eingesetzt werden. Allgemein können alle Likelihood-basierten Lernverfahren oder Bayesianische Lernverfahren genutzt werden, wie sie beispielsweise in [3] beschrieben sind. Die Struktur der gemeinsamen Wahrscheinlichkeitsmodelle kann dabei in Form eines Graphischen Probabilistischen Modells (eines Bayesianischen Netzes, eines Markov Netzes oder einer
Kombination davon) spezifiziert werden. Einem Spezialfall dieses allgemeinen Formalismus entsprechen so genannte Latent Variable Models oder statistische Clustering-Modelle. Darüber hinaus kann jedes Verfahren zum Lernen nicht nur der Parameter, sondern auch der Struktur Graphischer
Probabilistischer Modelle aus verfügbaren Datenelementen genutzt werden, beispielsweise jedes beliebige Strukturlernverfahren [4] und [5] .
Die erste Datenbank oder/und die zweite Datenbank kann/können Datenelemente aufweisen, welche mindestens eine technische Anlage beschreiben. Die die mindestens eine technische Anlage beschreibenden Datenelemente können zumindest teilweise an der technischen Anlage gemessene Werte darstellen, welche das Betriebsverhalten der technischen Anlage beschreiben.
Gemäß einer Ausgestaltung der erfindungsgemäßen Computer- Anordnung ist in dem Client-Computer eine zweite Datenbank mit Datenelementen gespeichert. Der Client-Computer weist eine Einheit zum Bilden eines statistischen Gesamt-Modells unter Verwendung des ersten statistischen Modells und den Datenelementen der zweiten Datenbank, auf, wobei das statistische Gesamt-Modell zumindest einen Teil der in dem ersten statistischen Modell und in der zweiten Datenbank enthaltenen statistischen Information aufweist. Gemäß einer anderen Ausgestaltung der erfindungsgemäßen Computer-Anordnung ist ein zweiter Server-Computer vorgesehen, in dem ein zweites statistisches Modell, welches für eine zweite Datenbank gebildet ist, gespeichert ist, wobei das zweite statistische Modell die statistischen Zusammenhänge der in der zweiten Datenbank enthaltenen Datenelemente repräsentiert. Der Client-Computer ist mittels des Kommunikationsnetzes ebenfalls mit dem zweiten Server- Computer gekoppelt. Der Client-Computer weist eine Einheit zum Bilden eines statistischen Gesamt-Modells unter
Verwendung des ersten statistischen Modells und des zweiten statistischen Modells, auf, wobei das statistische Gesamt- Modell zumindest einen Teil der in dem ersten statistischen Modell und in dem zweiten statistischen Modell enthaltenen statistischen Information aufweist.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Folgenden näher erläutert.
Es zeigen
Figur 1 ein Blockdiagra m einer Computer-Anordnung gemäß einem ersten Ausführungsbeispiel der Erfindung;
Figur 2 ein Blockdiagramm einer Computer-Anordnung gemäß einem zweiten Ausführungsbeispiel der Erfindung;
Figur 3 ein Blockdiagramm einer Computer-Anordnung gemäß einem dritten Ausführungsbeispiel der Erfindung;
Figur 4 ein Blockdiagramm einer Computer-Anordnung gemäß einem vierten Ausführungsbeispiel der Erfindung; und
Figur 5 ein Blockdiagramm einer Computer-Anordnung gemäß einem fünften Ausführungsbeispiel der Erfindung. Fig.l zeigt eine Computer-Anordnung 100 gemäß einem ersten Ausführungsbeispiel der Erfindung.
Die Computer-Anordnung 100 wird in einem Call Center eingesetzt. Die Computer-Anordnung 100 weist eine Vielzahl von Telefon-Endgeräten 101 auf, welche mittels Telefonleitungen 102 mit einem Call-Center-Computer 103, 104, 105 verbunden sind. In dem Call Center werden die Telefonanrufe von Mitarbeitern des Call Centers entgegengenommen und die Bearbeitung der eingehenden
Telefonanrufe, insbesondere der Zeitpunkt des eingehenden Anrufs, die Dauer, eine Angabe über den Mitarbeiter, der den Anruf entgegengenommen hat, ein Angabe über den Grund des Anrufs sowie die Art der Bearbeitung des Anrufes oder auch beliebige andere Angaben werden von den Call-Center-Computern 103, 104, 105 aufgezeichnet.
Jeder Call-Center-Computer 103, 104, 105 weist auf
• eine erste Eingangs-/Ausgangsschnittstelle 106, 107, 108 zum öffentlichen Telefonnetz zur Entgegennahme des jeweiligen Telefonanrufes,
• einen Prozessor 109, 110, 111,
• einen Speicher 112, 113, 114, und
• eine zweite Eingangs-/Ausgangsschnittstelle 115, 116, 117 zu einem lokalen Netzwerk 121 des Call Centers.
Die oben genannten Komponenten innerhalb jedes Call-Center- Computers 103, 104, 105 sind mittels eines Computerbusses 118, 119, 120 miteinander gekoppelt.
Die Call-Center-Computer 103, 104, 105 sind mittels des lokalen Netzwerkes 121 mit einem Server-Computer 122 gekoppelt. Der Server-Computer 122 weist eine erste Eingangs- /Ausgangsschnittstelle 123 zu dem lokalen Netzwerk 121, einen Speicher 124, einen Prozessor 127 sowie eine zur
Kommunikation über das Internet eingerichtete zweite Eingangs-/Ausgangsschnittstelle 128 auf, welche Komponenten mittels eines Computerbusses 129 miteinander gekoppelt sind. Der Server-Computer 122 dient gemäß diesem
Ausführungsbeispiel als Web-Server-Computer, wie im Folgenden noch näher erläutert wird.
Die von den Call-Center-Computern 103, 104, 105 aufgezeichneten Daten werden über das lokale Netzwerk 121 zu dem Server-Computer 122 übertragen und dort in einer Datenbank 126 gespeichert.
Ferner ist in dem Speicher 124 noch ein statistisches Modell 125 gespeichert, welches die statistischen Zusammenhänge der in der Datenbank 126 enthaltenen Datenelemente repräsentiert.
Das statistische Modell 125 wird unter Verwendung des an sich bekannten EM-Lernverfahrens gebildet. Andere alternative bevorzugt eingesetzte Verfahren zum Bilden des statistischen Modells 125 werden im Folgenden noch im Detail beschrieben.
Gemäß diesem Ausführungsbeispiel der Erfindung wird das statistische Modell 125 automatisch in regelmäßigen Zeitintervallen erneut, jeweils basierend auf den aktuellsten Daten der Datenbank 126, gebildet.
Das statistische Modell 125 wird von dem Server-Computer 122 automatisch zur Übertragung an einen oder an mehrere Client- Computer 132 bereitgestellt. Der Client-Computer 132 ist über eine zweite Kommunikationsverbindung 131, beispielsweise einer Kommunikationsverbindung, welche eine Kommunikation gemäß dem TCP/IP-Kommunikationsprotokoll ermöglicht, mit der zweiten Eingangs-/Ausgangsschnittstelle 128 des Server- Computers 122 gekoppelt.
Der Client-Computer 132 weist ebenfalls eine Eingangs- /Ausgangsschnittstelle 133, eingerichtet zur Kommunikation gemäß dem TCP/IP-Kommunikationsprotokoll auf sowie einen Prozessor 134 und einen Speicher 135. Das in einer elektronischen Nachricht 130 von dem Server- Computer 122 an den Client-Computer 132 übertragene statistische Modell 125 wird in dem Speicher 135 des Client- Computers 132 gespeichert. Der Benutzer des Client-Computers 132 führt nunmehr eine beliebige, nutzerspezifische statistische Analyse auf das statistische Modell 125 und damit „indirekt" auf die Daten der Datenbank 126 aus, ohne dass die große Datenbank 126 an den Client-Computer 132 übertragen werden muss.
Ziel der clientseitigen statistischen Analyse kann eine Optimierung des Call Centers sein. Gemäß diesem Ausführungsbeispiel werden insbesondere Analysen hinsichtlich der Beantwortung der folgenden Fragen durchgeführt:
„Nach welcher Wartezeit in einer Warteschlange des Call Centers gibt ein Telefonanrufer üblicherweise auf?"
„Gibt es regionale oder tageszeitliche Abhängigkeiten zwischen den in dem Call Center eingehenden Telefonanrufen?"
„Zu welchem Zeitpunkt und in Abhängigkeit welcher anderen Merkmale treten welche Anfragen auf und wie viele Mitarbeiter sollten dementsprechend in dem Call Center bereitstehen?"
„Welche Routing-Strategien führen zu welchen Ergebnissen?"
Somit werden die Analysen zur Beantwortung der oben genannten Fragen von dem Benutzer des Client-Computers 132 durchgeführt. Anschließend werden dem Betreiber des Call Centers aus den Analyseergebnissen geeignete Maßnahmen zur optimierten Betreiben des Call Centers gegeben.
Fig.2 zeigt eine Computer-Anordnung 200 gemäß einem zweiten Ausführungsbeispiel der Erfindung. Die Computer-Anordnung 200 wird im Bereich der Biotechnologie eingesetzt.
Die Computer-Anordnung 200 weist einen Server-Computer 201 auf, der einen Speicher 202, einen Prozessor 203 sowie eine zur Kommunikation gemäß den TCP/IP-Protokollen eingerichtete Eingangs-/Ausgangsschnittstelle 204 auf. Die Komponenten sind mittels eines Computerbusses 205 miteinander gekoppelt.
In dem Speicher 202 ist eine Datenbank 206 mit genetischen
Sequenzen oder Aminosäuresequenzen zusammen mit den Sequenzen zugeordneten Zusatzinformationen gespeichert.
Für einen Forscher, gemäß diesem Ausführungsbeispiel ein Nutzer eines der Client-Computer 209, 210, 211, der die
Eigenschaften einer (neuen) Sequenz untersucht, ist es häufig von erheblichem Interesse, Sequenzen mit gleichen oder ähnlichen Eigenschaften zu finden. Zum Durchsuchen der von dem oder den Server-Computern 201 öffentlich bereitgestellten Datenbanken stellt der Forscher mittels des über ein Kommunikationsnetz 208 mit dem Server-Computer 201 gekoppelten Client-Computers 209, 210, 211 entsprechende Such-Anfragen an den oder die Server-Computer 202. In dem Server-Computer 201 ist ein statistisches Modell 207 auf die gleiche Weise wie gemäß dem ersten Ausführungsbeispiel gebildet worden und dort gespeichert.
Jeder Client-Computer 209, 210, 211 weist auf
• eine zur Kommunikation gemäß den TCP/IP-Protokollen eingerichtete Eingangs-/Ausgangsschnittstelle 212, 213, 214,
• einen Prozessor 215, 216, 217,
• einen Speicher 218, 219, 220.
Nach erfolgter Anfrage eines Client-Computers 209, 210, 211 überträgt der Server-Computer 201 das statistische Modell 206 an den Client-Computer 209, 210, 211 in einer elektronischen Nachricht 221, 222, 223.
Nach Empfang des statistischen Modells 206 wird von dem Nutzer des Client-Computers 209, 210, 211 die von ihm zu untersuchende Sequenz mit dem statistischen Modell 206 verglichen. Ergebnis einer statistischen Analyse ist eine Angabe, wie viele ausreichend ähnliche Sequenzen in der Datenbank 206 existieren und durch welche Eigenschaften diese Sequenzen sich auszeichnen.
Fig.3 zeigt eine Computer-Anordnung 300 gemäß einem dritten Ausführungsbeispiel der Erfindung.
Die Computer-Anordnung 300 weist einen ersten Computer 301 und einen zweiten Computer 309 auf.
Der erste Computer 301 weist einen Speicher 302, einen Prozessor 303 sowie eine zur Kommunikation gemäß den TCP/IP- Kommunikationsprotokollen eingerichtete Eingangs-
/Ausgangsschnittstelle 304 auf, welche mittels eines Computerbusses 305 miteinander gekoppelt sind.
Der erste Computer 301 ist ein Computer eines Autohauses, welches in der in dem Speicher 302 gespeicherten Kunden- Datenbank Informationen zu Vorname und Nachname der Kunden, über Wohnort und genutzten Fahrzeugtyp, nicht jedoch über Alter, Familienstand und Gehaltseingang enthält.
Der zweite Computer 309 weist eine zur Kommunikation gemäß den TCP/IP-Kom unikationsprotokollen eingerichtete Eingangs- /Ausgangsschnittstelle 310, einen Speicher 311 und einen Prozessor 312 auf, welche mittels eines Computerbusses 313 miteinander gekoppelt sind.
Der zweite Computer 309 ist ein Computer einer mit dem Autohaus kooperierenden Bank. In dem Speicher 311 des zweiten Computers 309 ist eine zweite Kunden-Datenbank 314 gespeichert. In der zweiten Kunden-Datenbank 314 sind zu den Kunden der Bank Informationen zu Vorname und Nachname der Kunden, deren Wohnort, Familienstand, Alter und Gehaltseingang, enthalten, nicht jedoch zu dem von dem jeweiligen Kunden genutzten Fahrzeugtyp. Die Bank kann somit aus ihren gespeicherten Daten nicht ermitteln, welche Familien mit welchem Gehaltseingang typischerweise welche Autos nutzen.
Um diese Informationen zu erhalten, wäre die Zusammenlegung der beiden Kunden-Datenbanken erforderlich, was jedoch aus Datenschutz-rechtlichen Gründen nicht gestattet ist und von den beiden Firmen üblicherweise auch nicht erwünscht ist.
Erfindungsgemäß wird ausgenutzt, dass in beiden Datenbanken das Wissen jedenfalls approximativ vorhanden ist, um einen Zusammenhang beispielsweise zwischen Fahrzeugtyp und Gehaltseingang herzustellen.
In dem ersten Computer wird aus diesem Grund über die Datenbank ein statistisches Modell 306 gemäß dem EM- Lernverfahren gebildet. Das gegenüber der Datenbank komprimierte statistische Modell 306 wird zu dem zweiten Computer 309, welcher mit dem ersten Computer 301 bidirektional über das Internet 308 gekoppelt ist, in einer elektronischen Nachricht 307 übertragen.
Nach Empfang des statistischen Modells 306 wird dieses von dem zweiten Computer 309 mit der zweiten Kunden-Datenbank 314 zu einem statistischen Gesamt-Modell 315 zusammengeführt.
Zur Erläuterung des Zusammenführens des statistischen Modells 306 mit der zweiten Kunden-Datenbank 314 zu dem statistischen Gesamt-Modell 315 wird angenommen, dass zwei Partner A und B statistische Modelle austauschen wollen. Der Partner A verfügt über die Attribute W, X, Y, welche symbolisch für eine Vielzahl beliebiger Attribute stehen. Der Partner B verfügt über die Attribute X, Y, Z. Der Partner B (gemäß diesem Ausführungsbeispiel das Autohaus) stellt dem Partner A (gemäß diesem Ausführungsbeispiel die Bank) ein statistisches Modell seiner Daten zur Verfügung, das im Folgenden mit Pß(X,Y,Z) bezeichnet wird.
Ziel des Partners A ist es, aus seinen Daten zusammen mit den Daten seiner Datenbank ein statistisches Gesamt-Modell P(W,X,Y,Z) zu erstellen.
Hierzu sind gemäß diesem Ausführungsbeispiel die folgenden zwei Verfahren vorgesehen:
• Der Partner A leitet aus dem statistischen Modell Pß(X,Y,Z) ein bedingtes Modell Pß(Z|X,Y) ab, um unter dessen Verwendung aus den ihm bekannten Informationen X und Y seiner Kunden die Eigenschaft Z seiner Kunden zu schätzen. Jeder Kunde bekommt als Wert der Variable Z (als Eintrag in einer zusätzlichen Spalte in der Datenbank) den Wert zugeordnet, der nach Maßgabe der Wahrscheinlichkeitsverteilung Pg(Z|X,Y) am wahrscheinlichsten ist. Mit den auf diese Weise ergänzten Informationen W, X, Y und Z über jeden Kunden kann der Partner A nunmehr übliche statistische Analyseverfahren hinsichtlich aller vier Attribute anwenden oder ein gemeinsames statistisches Modell, das Gesamt-Modell Pß(W,X,Y,Z), welches anschaulich ein virtuelles gemeinsames Datenbank-Abbild darstellt, erstellen. • Statt für das Attribut Z den wahrscheinlichsten Wert zu ergänzen, kann es in einer alternativen Vorgehensweise sinnvoller sein, an Stelle der fehlenden Variable Z eine ganze Verteilung über seine Werte zu ergänzen und beim Erzeugen des statistischen Gesamt-Modells zu verwenden. Um in diesem Zusammenhang teilweise fehlende Information statistisch konsistent im Sinne der so genannten Likelihood eines Modells zu handhaben, wird das EM- Lernverfahren eingesetzt. In jedem Lernschritt des iterativen EM-Lernverfahrens werden basierend auf den aktuellen Parametern Schätzungen (Expected Sufficient Statistics) über die fehlenden Größen erzeugt, die an die Stelle der fehlenden Größen treten. In dem EM- Lernverfahren kann das bedingte Modell Pß(Z|X,Y) dazu verwendet werden, auch für die Variable Z Erwartungswerte oder Expected Sufficient Statistics- Werte zu ermitteln und so dieses Lernverfahren konsistent zu erweitern, um ein gemeinsames Modell verteilter Daten zu erzeugen.
Somit hat die Bank nunmehr die gesamte statistische Information verfügbar und kann entsprechende Analysen über die Daten durchführen.
In diesem Zusammenhang ist anzumerken, dass das oben beschriebene Szenario auch umgekehrt durchgeführt werden kann, d.h. dass die Bank ein statistisches Modell über die zweite Kunden-Datenbank erstellt und dieses an das Autohaus übermittelt, welches seinerseits ein statistisches Gesamt- Modell bildet. Für das Autohaus wäre es beispielsweise wünschenswert, das Alter seiner Kunden zu kennen, deren Familienstand und deren Gehaltseingang, oder jedenfalls eine Schätzung des Alters, des Familienstandes und des
Gehaltseingangs. Basierend auf diesen Informationen können den Kunden somit passende Produkte viel gezielter angeboten werden, beispielsweise ist einer jungen Familie mit einem durchschnittlichen Gehaltseingang sicherlich ein anderes Auto anzubieten als einem Single mit einem hohen Gehalt.
Fig. zeigt eine Computer-Anordnung 400 gemäß einem vierten Ausführungsbeispiel der Erfindung.
Gemäß diesem Ausführungsbeispiel sind eine Vielzahl von n Computern 401, 413, 420 vorgesehen, die jeweils in 23 Computerbusses 424 miteinander gekoppelt sind. Über die Kunden-Datenbank in dem n-ten Computer 420 ist ebenfalls mittels des EM-Lernverfahrens ein statistisches Modell 425 gebildet und in dem Speicher 421 des n-ten Computers 420 gespeichert.
Die Computer 401, 413, 420 sind mittels einer jeweiligen KommunikationsVerbindung 408 mit einer Client-Computer 409.
Der Client-Computer 409 weist einen Speicher 411, einen
Prozessor 412 sowie eine zur Kommunikation gemäß den TCP/IP- Kommunikationsprotokollen eingerichtete Eingangs- /Ausgangsschnittstelle 410 auf, welche mittels eines Computerbusses 426 miteinander gekoppelt sind.
Die Computer 401, 413, 420 übermitteln die statistischen Modelle 406, 418, 525 an den Client-Computer 409 in jeweiligen elektronischen Nachrichten 407, 419, 427, welcher diese in dessen Speicher 410 speichert.
Im Folgenden wird zur einfacheren Darstellung das Ausführungsbeispiel nur unter Berücksichtigung des ersten statistischen Modells 406 und des zweiten statistischen Modells 418 näher erläutert. Es ist jedoch anzumerken, dass erfindungsgemäß eine beliebige Anzahl statistischer Modelle zu einem Gesamt-Modell zusammengeführt werden kann, beispielsweise mittels wiederholten Durchführens der im Folgenden beschriebenen Verfahrensschritte.
Im Unterschied zu dem dritten Ausführungsbeispiel ist es gemäß dem dritten Ausführungsbeispiel das Ziel, mehrere statistische Modelle miteinander zu einem Gesamt-Modell zu kombinieren.
Somit wird in Anlehnung an die im dritten Ausführungsbeispiel verwendeten Nomenklatur von dem Partner A ebenfalls ein statistisches Modell PA(W,X,Y) erstellt und dann werden die 24 Modelle PA(W,X,Y) und Pß(X,Y,Z) zu einem statistischen Gesamt-Modell P(W,X,Y, Z) kombiniert.
Das Gesamt-Modell P(W,X,Y,Z) kann basierend auf den beiden Modellen PA(W,X,Y) und Pß(X,Y,Z) definiert werden als: • P(W,X,Y,Z) = PA(W,X,Y)PB(Z|X,Y) oder als P(W,X,Y,Z) = PB(X,Y,Z)PA(W|X,Y) .
Auch Kombinationen aus beiden Vorgehensweisen sind erfindungsgemäß vorgesehen. Für den Partner A ist es am sinnvollsten, die erste obige Alternative zu wählen. Damit verfügt er über ein statistisches Gesamt-Modell 426, welches ihm in einer approximativen Weise ermöglicht, auch die Abhängigkeiten zwischen den Attributen W und Z zu analysieren (in diesem Ausführungsbeispiel die Abhängigkeit zwischen Fahrzeugtyp und Gehaltseingang) . Basierend auf dem Gesamt- Modell 426 werden beispielsweise bedingte
Wahrscheinlichkeitsverteilungen der Form P(X|Z), z.B. eine Verteilung über oder eine Affinität zu Fahrzeugtypen bei einem gegebenen Gehaltseingang, ermittelt. Hierzu wird über die Variablen X und Y marginalisiert .
Zur Erläuterung wird angenommen, dass die Ergebnisse aus dem Gesamt-Modell 426 in einer Art eines zweistufigen Prozesses zustande kommen. Zunächst wird aus der Variable W auf die gemeinsamen Variablen X und Y basierend auf dem Modell PA(W,X,Y) geschlossen. Entsprechend allen danach erlaubten Kombinationen für die Variablen X und Y wird die bedingte Wahrscheinlichkeitsverteilung Pß(Z|X,Y) (Prädiktion der Variable Z aus den Variablen X und Y) genutzt, um die Verteilung für die Variable Z zu bestimmen.
Im Unterschied zu dem Fall, in dem alle vier Variablen in einer Datenbank zu finden sind, erfolgt die Schlussfolgerung somit erfindungsgemäß indirekt; ähnlich wie bei einer Flüsterpost können dabei Informationen verloren gehen. 25
Im schlimmsten Fall, nämlich wenn kein Überlapp zwischen den beiden statistischen Abbildern vorliegt, dann ist auch keine Kombination der beiden Modelle möglich. Allerdings ist beispielsweise für den Fall, dass gemeinsame Variablen in den beiden Modellen vorhanden sind, möglich, ein Gesamt-Modell zu bilden, selbst wenn in den beiden Ausgangs-Datenbanken keine gemeinsamen Kunden, beispielsweise kein gemeinsamer Kundenschlüssel, vorhanden ist.
Das Gesamt-Modell 426 P(W,X,Y,Z) kann numerisch einfach gehandhabt werden, wenn der Überlapp zwischen diesen statistischen Modellen nicht zu groß ist, vorzugsweise kleiner als 10 gemeinsame Variablen. In dem Fall eines großen „Überlapp-Raums" können zusätzliche Approximationen verwendet werden, um die Ausführung der folgenden Summen zu beschleunigen, welche gemäß den obigen Ausführungsbeispielen über alle gemeinsamen Zustände der gemeinsamen Variablen X und Y gebildet werden müssen:
P(w|z) cc pA(w, X, Y) • Pß(z|x, Y) x,y
bzw.
P(W, z) = ∑ PA(W, X, Y) • Pß(z|x, Y) . x,y
Die Summen können insbesondere sehr geschickt approximiert werden basierend auf einem Ansatz durch Einführen einer zusätzlichen künstlichen Variable H und zusätzlichen bedingten Verteilungen (Tafeln im Falle diskreter Variable) P(H|X, Y) und P(Z|H) der Form:
Papproχ(W/ Z) * ∑ P&(W, X, Y)∑ P(H I X, Y) Pß(Z | H) x,y h 26 bzw .
papproχ(W X' Y' z) * PA(W, X, Y)∑ P(H | X, Y) Pß(Z | H) . h
Die Struktur bzw. die Parametrisierung der bedingten
Verteilungen P(H)X, Y) und P(Z|H) bzw. die Form der Abhängigkeit zwischen X,Y und H einerseits und H und Z andererseits wird so gewählt, dass die obigen Summen einfach auszuführen sind. Die Parameter der bedingten Verteilungen P(H|X, Y) und P(Z|H) werden so bestimmt, dass die approximative Gesamtverteilung Papprox(W, X, Y, Z) möglicht gut der gewünschten Verteilung
P(W, X, Y, Z) = PA(W, X, Y) • PB(Z|X, Y)
entspricht. Als Kostenfunktion kann hierbei insbesondere die Log-Likelihood bzw. die Kullback-Leibler-Distanz verwendet werden. Als Optimierungsverfahren bieten sich daher wiederum ein EM-Lernverfahren oder ein Gradienten-basiertes Lernverfahren an.
Das Auffinden optimaler Parameter kann und darf durchaus rechenaufwendig sein. Sobald die beiden Wahrscheinlichkeitsmodelle dann zu einem Gesamtmodell „fusioniert" sind kann das Gesamtmodell in einer sehr effizienten Art und Weise genutzt werden.
Es bietet sich insbesondere an,- die Variable H als eine versteckte Variable einzuführen, also die Verteilung P(W,X,Y,H) zu parametrisieren als
p(w, x, Y, H) = P(H) ■ p(w, x, Y|H)
mit einer so genannten a priori Verteilung P(H) .
In dem Fall in dem das Modell P(W,X,Y) bereits ursprünglich als ein Latent Variable Model parametrisiert wurde, 27
PA(W, X, Y) = ∑ PA(X, Y, Z | H) • PA(H) , h
kann unmittelbar die bereits vorhandene latente Variable H genutzt werden.
Statt einer versteckten Variable H können auch mehrere Variablen eingeführt werden. Gleichzeitig kann auch für das Modell PB zur Vereinfachung der Numerik eine versteckte Variable K eingeführt werden. Eine Approximation des Gesamtmodells P(W,X,Y,Z) nimmt damit z.B. die Form an
P(W, X, Y, Z) * ∑ PA(X, Y, Z | H) • PA(H)∑ P(K 1 H) • Pß(Z | K) . h k
In diesem Modell können Summen über den Raum des Uberlapps bestehend aus X und Y einfach durch bekannte
Inferenzverfahren (beispielsweise das so genannte Junction-
Tre,e-Verfahren) ausgeführt werden. Für die Fusion der beiden Modelle ist lediglich die bedingte Verteilung P(K|H) durch bekannte Lernverfahren zu bestimmen.
Um das Ziel zu erreichen kleine, austauschbare jedoch aber sehr genaue „Abbilder einer Datenbank" zu generieren, sind insbesondere sehr skalierbare Lernverfahren, die hoch komprimierte Abbilder generieren, erwünscht. Gleichzeitig sollen sich die Abbilder effizient fusionieren, d.h. zusammenführen lassen, wozu man insbesondere auch sehr effizient mit fehlenden Informationen umgehen können sollte. Bekannte Lernverfahren sind insbesondere dann langsam, wenn in den Daten viele der Belegungen der Felder fehlen.
Fig.5 zeigt eine Computer-Anordnung 500 gemäß einem fünften Ausführungsbeispiel der Erfindung. 28 Die Computer-Anordnung 500 wird im Rahmen des Austauschs von Kundeninformation, gemäß diesem Ausführungsbeispiel im Rahmen des Austauschs von Adressinformation von Kunden, eingesetzt. Die Computer-Anordnung 500 weist einen Server-Computer 501 sowie einen oder mehrere mit diesem über ein
Telekommunikationsnetz 502 verbundenen Client-Computer 503 auf.
Der Server-Computer 501 weist einen Speicher 504, einen Prozessor 505 sowie eine zur Kommunikation über das Internet eingerichtete Eingangs-/Ausgangsschnittstelle 506 auf, welche Komponenten mittels eines Computerbusses 507 miteinander gekoppelt sind. Der Server-Computer 501 dient gemäß diesem Ausführungsbeispiel als Web-Server-Computer, wie im Folgenden noch näher erläutert wird.
In dem Speicher 504 ist eine große Kunden-Datenbank 508 (insbesondere mit Adressinformation über die Kunden und das Kaufverhalten der Kunden beschreibende Information) gespeichert. Ferner ist in dem Speicher 504 noch ein statistisches Modell 509, welches von dem Server-Computer 501 über die Kunden-Datenbank 508 gebildet worden ist, gespeichert, welches die statistischen Zusammenhänge der in der Kunden-Datenbank 508 enthaltenen Datenelemente repräsentiert.
Das statistische Modell 509 wird unter Verwendung des an sich bekannten EM-Lernverfahrens gebildet. Andere alternative bevorzugt eingesetzte Verfahren zum Bilden des statistischen Modells 509 werden im Folgenden noch im Detail beschrieben.
Gemäß diesem Ausführungsbeispiel der Erfindung wird das statistische Modell 509 automatisch in regelmäßigen vorgegebenen Zeitintervallen erneut, jeweils basierend auf den aktuellsten Daten der Kunden-Datenbank 508, gebildet. 29 Das statistische Modell 509 wird von dem Server-Computer 501 automatisch zur Übertragung an den oder an mehrere Client- Computer 503 bereitgestellt.
Der Client-Computer 503 weist ebenfalls eine Eingangs-
/Ausgangsschnittstelle 510, eingerichtet zur Kommunikation gemäß dem TCP/IP-Kommunikationsprotokoll auf sowie einen Prozessor 511 und einen Speicher 512. Die Komponenten des Client-Computers sind mittels eines Computerbusses 513 miteinander gekoppelt.
Das in einer elektronischen Nachricht 514 von dem Server- Computer 501 an den Client-Computer 503 übertragene statistische Modell 509 wird in dem Speicher 512 des Client- Computers 503 gespeichert.
In diesem Zusammenhang ist anzumerken, dass in dem statistischen Modell 509 die Details der Kunden-Datenbank 508, insbesondere die tatsächlichen Adressen der Kunden, nicht enthalten ist. Das statistische Modell 509 enthält allerdings statistische Information über das Verhalten, insbesondere über das Kaufverhalten der Kunden.
Der Benutzer des Client-Computers 503 wählt nunmehr eine für ihn interessante Gruppe von Kunden, d.h. einen für ihn interessanten Teil 515 des statistischen Modells 509, der ein für das Unternehmen des Benutzers des Client-Computers 503 interessierendes Kaufverhalten beschreibt, aus. Die Information 515 über den ausgewählten Teil des statistischen Modells 509 überträgt der Client-Computer 503 in einer zweiten elektronischen Nachricht 516 zu dem Server-Computer 501.
Unter Verwendung der empfangenen Information liest der Server-Computer 501 die mittels des Teils 515 des statistischen Modells 509 bezeichneten Kunden und die zugehörige Kunden-Detailinformation 517, insbesondere die 30 Adressen der Kunden, aus der Kunden-Datenbank 508 aus und übermittelt die ausgelesene Kunden-Detailinformation 517 in einer dritten elektronischen Nachricht 518 zu dem Client- Computer 503.
Auf diese Weise ist es möglich, beispielsweise für eine Marketing-Kampagne seitens des Benutzers des Client-Computers 503 gezielt die Adressen der gemäß der Kunden-Datenbank 508 für die Kampagne interessantesten Kunden des Unternehmens des Server-Computers 501 auszuwählen und von dem Server-Computer 501 zu erbitten. Ein erheblicher Vorteil ist ferner darin zu sehen, dass der Server-Computer 501 nur die Informationen an den Client-Computer 503 übermittelt, die auch an diesen übermittelt werden dürfen.
Diese Übermittlung erfolgt gemäß einer Ausgestaltung der Erfindung gegen Bezahlung. Anders ausgedrückt wird somit eine sehr effizientes so genanntes „On-Line Listbroking" realisiert.
Im Folgenden werden verschiedene skalierbare Verfahren zum Bilden eines statistischen Modells angegeben.
Zur besseren Veranschaulichung der bevorzugt eingesetzten Verbesserung eines EM-Lernverfahrens im Falle eines Naiven Bayesianischen Cluster Modells werden im Folgenden einige Grundlagen des EM-Lernverfahrens näher erläutert:
Mit X = {x^, k = 1, ...,κ} wird einen Satz von K statistischen Variablen (die z.B. den Feldern einer Datenbank entsprechen können) bezeichnet.
Die Zustände der Variablen werden mit kleinen Buchstaben bezeichnet. Die Variable Xi kann die Zustände X11/X12'"- annehmen, d.h. X]_ e (x ±, i = 1, ...,L]_j. Li ist die Anzahl der Zustände der Variable Xi . Ein Eintrag in einem Datensatz 31 (einer Datenbank) besteht nun aus Werten für alle Variablen, wobei xπ
Figure imgf000032_0001
x , Xg, ...) den π-ten Datensatz bezeichnet. In dem π-ten Datensatz ist die Variable X^ in dem Zustand x?, die Variable X2 in dem Zustand x^ usw. Die Tafel hat M Einträge, d.h. jxπ, π = 1, ...,Mj. Zusätzlich gibt es eine versteckte Variable oder eine Cluster-Variable, die im Folgenden mit Ω bezeichnet wird; deren Zustände sind {ωj_, i = 1, ...,N}. ES gibt also N Cluster.
In einem statistischen Clustering-Modell beschreibt P(Ω) eine a priori Verteilung; P(ω-_) ist das a priori Gewicht des i-ten Clusters und p(x|ωj beschreibt die Struktur des i-ten
Clusters oder die bedingte Verteilung der beobachtbaren (in der Datenbank enthaltenen) Größen X = (x^, k = 1, ...,κ} in dem i-ten Cluster. Die a priori Verteilung und die bedingten
Verteilungen für jedes Cluster parametrisieren zusammen ein gemeinsames Wahrscheinlichkeitsmodell auf X Ω bzw. auf X.
In einem Naiven Bayesian Network wird vorausgesetzt, dass K p(x|ω-i_) mit TT p(X |ωi) faktorisiert werden kann. k=l
Im Allgemeinen wird darauf gezielt, die Parameter des Modells, also die a priori Verteilung p(Ω) und die bedingten Wahrscheinlichkeitstafeln p(x|co) derart zu bestimmen, dass das gemeinsame Modell die eingetragenen Daten möglichst gut widerspiegelt. Ein entsprechendes EM-Lernverfahren besteht aus einer Reihe von Iterationsschritten, wobei in jedem Iterationsschritt eine Verbesserung des Modells (im Sinne einer so genannten Likelihood) erzielt wird. In jedem Iterationsschritt werden neue Parameter pneu(...) basierend auf den aktuellen oder „alten" • Parametern p (...) geschätzt.
Jeder EM-Schritt beginnt zunächst mit dem E-Schritt, in dem „Sufficient Statistics" in dafür bereitgehaltenen Tafeln 32 ermittelt werden. Es wird mit Wahrscheinlichkeitstafeln begonnen, deren Einträge mit Null-Werten initialisiert werden. Die Felder der Tafeln werden im Verlauf des E- Schrittes mit den so genannten Sufficient Statistics s(Ω) und s(x, Ω) gefüllt, indem für jeden Datenpunkt die fehlenden Informationen (also insbesondere die Zuordnung jedes Datenpunktes zu den Clustern) durch Erwartungswerte ergänzt werden.
Um Erwartungswerte für die Clustervariable Ω zu berechnen ist die a posteriori Verteilung p Αl fWj 1x7l zu ermitteln. Dieser Schritt wird auch als „Inferenzschritt" bezeichnet.
Im Falle eines Naive Bayesian Network ist die a posteriori Verteilung für Ω nach der Vorschrift
Palt(i|xπ) =
Figure imgf000033_0001
für jeden Datenpunkt xπ aus den eingetragenen Informationen
1 zu berechnen, wobei — eine vorgebbare Normierungskonstante
Zπ ist .
Das Wesentliche dieser Berechnung besteht aus der Bildung des Produkts
Figure imgf000033_0002
über alle k = 1, ...,K. Dieses Produkt muss in jedem E-Schritt für alle Cluster i = 1, ... , N und für alle Datenpunkte xπ, π = 1, ...,M gebildet werden.
Ähnlich aufwendig oft noch aufwendiger ist' der Inferenzschritt für die Annahme anderer Abhängigkeitsstrukturen als einem Naive Bayesian Network, und beinhaltet damit den wesentlichen numerischen Aufwand des EM- Lernens . 33 Die Einträge in den Tafeln s(Ω) und s(x, Ω) ändern sich nach
Bildung des obigen Produktes für jeden Datenpunkt xπ, π = 1, ...,M, da s(ωi) um pa fωj_|xπ] für alle i addiert
wird, bzw. eine Summe alle paltfωii| ~ gebildet wird. Auf entsprechende Weise wird s(x, ωi) (bzw. s(x], &±) für alle
Variabein k im Falle eines Naive Bayesian Network) jeweils um pa ω-}Jxπ für alle Cluster i addiert. Dieses schließt zunächst den E (Expectation) -Schritt ab.
Anhand dieses Schrittes werden neue Parameter pneu(Ω) und pneu(x|Ω) für das statistische Modell berechnet, wobei p(x|ω-) die Struktur des i-ten Cluster oder die bedingte Verteilung der in der Datenbank enthaltenden Größen X in diesem i-ten
Cluster darstellt.
Im M (Maximisation) -Schritt werden unter Optimierung einer allgemeinen log Likelihood
M M
Σ Σ lloogg
Figure imgf000034_0001
(1) π=l i=l
neue Parameter pneu(Ω) und pneu(x|Ω), welche auf den bereits berechneten Sufficient Statistics basieren, gebildet.
Der M-Schritt bringt keinen wesentlichen numerischen Aufwand mehr mit sich.
Somit ist klar, dass der wesentliche Aufwand des Algorithmus in dem Inferenzschritt bzw. auf die Bildung des Produktes τ~r paltlχπ|ω I unci au^ ^e A]ckumui erung der Sufficient k=l Statistics ruht. 34 Die Bildung von zahlreichen Null-Elementen in den Wahrscheinlichkeitstafeln pal (x|ωjj bzw. P (xk)ωi) lässt sich jedoch durch geschickte Datenstrukturen und Speicherung von Zwischenergebnissen von einem EM-Schritt zum nächsten dazu ausnutzen, die Produkte effizient zu berechen.
Zum Beschleunigen des EM-Lernverfahrens wird die Bildung eines Gesamtproduktes in einem obigem Inferenzschritt, welcher aus Faktoren von a posteriori Verteilungen von Zugehörigkeitswahrscheinlichkeiten für alle eingegebene
Datenpunkte besteht, wie gewöhnlich durchgeführt wird, sobald die erste Null in den dazu gehörenden Faktoren auftritt, wird die Bildung des Gesamtproduktes jedoch abgebrochen. Es lässt sich zeigen, dass für den Fall, dass in einem EM-Lernprozess ein Cluster für einen bestimmten Datenpunkt das Gewicht Null zugeordnet bekommt, dieser Cluster auch in allen weiteren EM- Schritten für diesen Datenpunkt das Gewicht Null zugeordnet bekommen wird.
Somit wird eine sinnvolle Beseitigung von überflüssigen numerischen Aufwand gewährleistet, indem entsprechende Ergebnisse von einem EM-Schritt zum nächsten zwischengespeichert werden und nur für die Cluster, die nicht das Gewicht Null haben, bearbeitet werden.
Es ergeben sich somit die Vorteile, dass aufgrund des Bearbeitungsabbruchs beim Auftreten eines Clusters mit Null Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch für alle weiteren Schritte, besonders bei der Bildung des Produkts im Inferenzschritt, das EM-Lernverfahren insgesamt deutlich beschleunigt wird.
Im Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung werden Zugehörigkeitswahrscheinlichkeiten zu bestimmten Klassen nur bis zu einem Wert nahezu 0 in einem iterativen Verfahren berechnet, und die Klassen mit 35 Zugehörigkeitswahrscheinlichkeiten unterhalb eines auswählbaren Wertes im iterativen Verfahren nicht weiter verwendet.
In einer Weiterbildung des Verfahrens wird eine Reihenfolge der zu berechnenden Faktoren derart bestimmt, dass der Faktor, der zu einem selten auftretenden Zustand einer Variabel gehört, als erstes bearbeitet wird. Die selten auftretenden Werte können vor Beginn der Bildung des Produkts derart in einer geordneten Liste gespeichert werden, dass die Variabein je nach Häufigkeit ihrer Erscheinung einer Null in der Liste geordnet sind.
Es ist weiterhin vorteilhaft, eine logarithmische Darstellung von Wahrscheinlichkeitstafeln zu benutzen.
Es ist weiterhin vorteilhaft, eine dünne Darstellung (sparse representation) der Wahrscheinlichkeitstafeln zu benutzen, z.B. in Form einer Liste, die nur' die von Null verschiedenen Elemente enthält.
Ferner werden bei der Berechnung von Sufficient Statistics nur noch die Cluster berücksichtigt, die ein von Null verschiedenes Gewicht haben.
Die Cluster, die ein von Null verschiedenes Gewicht haben, können in eine Liste gespeichert werden, wobei die in der Liste gespeicherte Daten Pointer zu den entsprechenden Cluster sein können.
Das Verfahren kann weiterhin ein Expectation Maximisation Lernprozess sein, bei dem in dem Fall dass für ein Datenpunkt ein Cluster ein a posteriori Gewicht „Null" zugeordnet bekommt, dieser Cluster in allen weiteren Schritten des EM- Verfahrens für diesen Datenpunkt das Gewicht Null erhält und dass dieser Cluster in allen weiteren Schritten nicht mehr berücksichtigt werden muss. 36
Das Verfahren kann dabei nur noch über Cluster laufen, die ein von Null verschiedenes Gewicht haben.
I. Erstes Beispiel in einem Inferenzschritt
a) Bildung eines Gesamtproduktes mit Unterbrechung bei Nullwert
Für jeden Cluster ωj_ in einem Inferenzschritt wird die
Bildung eines Gesamtproduktes durchgeführt. Sobald die erste Null in den dazu gehörenden Faktoren, welche beispielsweise aus einem Speicher, Array oder einer Pointerliste herausgelesen werden können, auftritt, wird die Bildung des Gesamtproduktes abgebrochen.
Im Falle des Auftretens eines Nullwertes wird dann das zu dem Cluster gehörende a posteriori Gewicht auf Null gesetzt. Alternativ kann auch zuerst geprüft werden, ob zumindest einer der Faktoren in dem Produkt Null ist. Dabei werden alle Multiplikationen für die Bildung des Gesamtproduktes nur dann durchgeführt, wenn alle Faktoren von Null verschieden sind.
Wenn hingegen bei einem zu dem Gesamtprodukt gehörender Faktor kein Nullwert auftritt, so wird die Bildung des
Produktes wie normal fortgeführt und der nächste Faktor aus dem Speicher, Array oder der Pointerliste herausgelesen und zur Bildung des Produktes verwendet.
b) Auswahl einer geeigneten Reihenfolge zur Beschleunigung der Datenverarbeitung
Eine geschickte Reihenfolge wird derart gewählt, dass, falls ein Faktor in dem Produkt Null ist, dieser Faktor mit hoher Wahrscheinlichkeit sehr bald als einer der ersten Faktoren in dem Produkt auftritt. Somit kann die Bildung des Gesamtproduktes sehr bald abgebrochen werden. Die Festlegung 37 der neuen Reihenfolge kann dabei entsprechend der Häufigkeit, mit der die Zustände der Variablen in den Daten auftreten, erfolgen. Es wird ein Faktor der zu einer sehr selten auftretenden Zustand einer Variable gehört, als erstes bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet werden, kann somit einmal vor dem Start des Lernverfahrens festgelegt werden, indem die Werte der Variablen in einer entsprechend geordneten Liste gespeichert werden.
c) Logarithmische Darstellung der Tafeln
Um den Rechenaufwand des oben genannten Verfahrens möglichst einzuschränken, wird vorzugsweise eine logarithmische Darstellung der Tafeln benutzt, um beispielsweise Underflow- Probleme, zu vermeiden. Mit dieser Funktion können ursprünglich Null-Elemente zum Beispiel durch einen positiven Wert ersetzt werden. Somit ist eine aufwendige Verarbeitung bzw. Trennungen von Werten, die nahezu Null sind und sich voneinander durch einen sehr geringen Abstand unterscheiden, nicht weiter notwendig.
d) Umgehung von erhöhter Summierung bei der Berechnung von Sufficient Statistics
In dem Fall, dass die dem Lernverfahren zugegebenen stochastischen Variablen eine geringe
Zugehörigkeitswahrscheinlichkeit zu einem bestimmten Cluster besitzen, werden im Laufe des Lernverfahrens viele Cluster das a posteriori Gewicht Null haben.
Um auch das Akkumulieren der Sufficient Statistics in dem darauf folgenden Schritt zu beschleunigen, werden nur noch solche Cluster in diesem Schritt berücksichtigt, die ein von Null verschiedenes Gewicht haben.
Dabei ist es vorteilhaft, die von Null verschiedenen Cluster in einer Liste, einem Array oder einer ähnlichen 38 Datenstruktur gespeichert werden, die es erlaubt, nur die von Null verschiedenen Elemente zu speichern.
II. Zweites Beispiel in einem EM Lernverfahren
a) Nicht-Berücksichtigung von Cluster mit Null-Zuordnungen für einen Datenpunkt
Insbesondere wird hier in einem EM-Lernverfahren von einem Schritt des Lernverfahrens zum nächsten Schritt für jeden Datenpunkt gespeichert, welche Cluster durch Auftreten von Nullen in den Tafeln noch erlaubt sind und welche nicht mehr.
Wo im ersten Beispiel Cluster, die durch Multiplikation mit Null ein a posteriori Gewicht Null erhalten, aus allen weiteren Berechnungen ausgeschlossen werden, um dadurch numerischen Aufwand zu sparen, werden in gemäß diesem Beispiel auch von einem EM-Schritt zum nächsten Zwischenergebnisse bezüglich Cluster-Zugehörigkeiten einzelner Datenpunkte (welche Cluster bereits ausgeschlossen bzw. noch zulässig sind) in zusätzlich notwendigen Datenstrukturen gespeichert.
b) Speichern einer Liste mit Referenzen auf relevante Cluster
Für jeden Datenpunkt oder für jede eingegebene stochastische Variable kann zunächst eine Liste oder eine ähnliche Datenstruktur gespeichert werden, die Referenzen auf die relevanten Cluster enthalten, die für diesen Datenpunkt ein von Null verschiedenes Gewicht bekommen haben.
Insgesamt werden in diesem Beispiel nur noch die erlaubten Cluster, allerdings für jeden Datenpunkt in einem Datensatz, gespeichert .
Die beiden obigen Beispiele können miteinander kombiniert werden, was den Abbruch bei „Null" -Gewichten im 39 Inferenzschritt ermöglicht, wobei in folgenden EM-Schritten nur noch die zulässigen Cluster nach dem zweiten Beispiel berücksichtigt werden.
Eine zweite Variante des EM-Lernverfahrens wird im Folgenden näher erläutert. Es ist darauf hinzuweisen, dass dieses Verfahren unabhängig von der Verwendung des auf diese Weise gebildeten statistischen Modells ist.
Bezugnehmend auf das oben beschriebene EM-Lernverfahren lässt sich zeigen, dass das Ergänzen fehlender Information nicht für alle Größen erfolgen uss. Erfindungsgemäß wurde erkannt, dass ein Teil der fehlenden Information „ignoriert" werden kann. Anders ausgedrückt bedeutet dies, dass nicht versucht wird, etwas über eine Zufallsvariable Y zu lernen aus Daten, in denen keine Information über die Zufallsvariable Y (einem Knoten Y) enthalten ist oder dass nicht versucht- wird, etwas über die Zusammenhänge zwischen zwei Zufallsvariablen Y und X (zwei Knoten Y und X) aus Daten, in denen keine Information über die Zufallsvariablen Y und X enthalten ist.
Damit wird nicht nur der numerische Aufwand zur Durchführung des EM-Lernverfahrens wesentlich reduziert, sondern es wird ferner erreicht, dass das EM-Lernverfahren schneller konvergiert. Ein zusätzlicher Vorteil ist darin zu sehen, dass statistische Modelle mittels dieser Vorgehensweise leichter dynamisch aufbauen lassen, d.h. während des Lernprozesses können leichter Variablen (Knoten) in einem Netz, dem gerichteten Graphen, ergänzt werden.
Als anschauliches Beispiel für das erfindungsgemäße Verfahren wird angenommen, dass ein statistisches Modell Variablen enthält, die beschreiben, welche Bewertung ein Kinobesucher einem Film gegeben hat. Für jeden Film gibt es eine Variable, wobei jeder Variable eine Mehrzahl von Zuständen zugeordnet ist, wobei jeder Zustand jeweils einen Bewertungswert repräsentiert. Für jeden Kunden gibt es einen Datensatz, in 40 dem gespeichert ist, welcher Film welchen Bewertungswert erhalten hat. Wird ein neuer Film angeboten, so fehlen anfangs die Bewertungswerte für diesen Film. Mittels der neuen Variante des EM-Lernverfahrens ergibt sich nunmehr die Möglichkeit, das EM-Lernverfahren bis zu dem Erscheinen des neuen Films nur mit den bis dorthin bekannten Filmen durchzuführen, d.h. den neuen Film (d.h. allgemein den neuen Knoten in dem gerichteten Graphen) zunächst zu ignorieren. Erst mit Erscheinen des neuen Films wird das statistische Modell um eine neue Variable (einen neuen Knoten) dynamisch ergänzt und die Bewertungen des neuen Films werden berücksichtigt. Die Konvergenz des Verfahrens im Sinne der log Likelihood ist dabei noch immer gewährleistet; das Verfahren konvergiert sogar schneller.
Im Folgenden wird erläutert, unter welchen Bedingungen fehlende Informationen nicht berücksichtigt werden müssen.
Zur Erläuterung der Vorgehensweise wird folgende Notation verwendet. Mit H wird ein versteckter Knoten bezeichnet. Mit 0 = , 0 , ...,0 wird ein Satz von M beobachtbaren Knoten in dem gerichteten Graphen des statistischen Modells bezeichnet.
Es wird ohne Einschränkung der Allgemeingültigkeit im Folgenden ein Bayesianisches Wahrscheinlichkeitsmodell angenommen, welches gemäß folgender Vorschrift faktorisiert werden kann:
P(H, o) = P(H) f[p(θπ|HJ. (2) π=l
Es ist in diesem Zusammenhang anzumerken, dass die beschriebene Vorgehensweise auf jedes statistische Modell anwendbar ist, und nicht auf ein Bayesianisches Wahrscheinlichkeitsmodell beschränkt ist, wie später noch im Detail dargelegt wird. 41
Mit Großbuchstaben werden im Weiteren Zufallsvariablen bezeichnet, wohingegen mit einem Kleinbuchstaben eine Instanz einer jeweiligen Zufallsvariable bezeichnet wird.
Es wird ein Datensatz mit N Datensatzelementen {θ_, i = 1, ...,N| angenommen, wobei für jedes Datensatzelement nur ein Teil der beobachtbaren Knoten tatsächlich beobachtet wird. Für das i- te Datensatzelement wird angenommen, dass die Knoten Xj_ beobachtet wird und dass die Beobachtungswerte der Knoten Y_ fehlen.
Es gilt also: .
Xi Y-L = Oj_ . (3)
Es ist zu bemerken, dass für jedes Datensatzelement ein unterschiedlicher Satz von Knoten Xj beobachtet werden kann, d.h. dass gilt:
Figure imgf000042_0001
Die Indizes für vorhandene Knoten werden mit K bezeichnet, d.h. Xj_ = ^", K = 1, ...,K- , die Indizes für nicht vorhandene Knoten werden mit λ bezeichnet, d.h. Yj_ = jϊ• , λ = 1, ...,Lj_j.
Im Falle eines Bayesianischen Netzes weist das übliche EM- Lernverfahren die folgenden Schritten auf, wie oben schon kurz dargestellt:
1) E-Schritt
Das Verfahren wird mit „leeren" Tabellen SS(H) und Ss(θπ, H| i = 1, ...,M (initialisiert mit „Nullen" gestartet, um darauf basierend die Schätzungen (Sufficient Statistics-
Werte) zu akkumulieren. Für jedes Datensatzelement oi werden 42 die a posteriori Verteilung p(Hxj für den versteckten Knoten
H sowie die a posteriori Verbund-Verteilung PH,
Figure imgf000043_0001
für jeden der nicht vorhandenen Knoten Y_i zusammen mit dem versteckten Knoten H berechnet.
Für jedes Datensatzelement i werden die Schätzungen für das statistische Modell akkumuliert gemäß folgenden Vorschriften:
SS(H) + = p lx , (5)
Ss(x = XJ,H) + = P^X-L), V vorhandenen Knoten xj , (6)
SS(Y^, H) + = P(H, Y^ i) V nicht vorhandenen Knoten Y^ .
(7)
Mit dem Symbol += wird die Aktualisierung, d.h. die Akkumulation der Tabellen für die Schätzungen gemäß den Werten der jeweiligen „rechten Seite" der Gleichung bezeichnet.
2) M-Schritt
In dem M-Schritt werden die Parameter für alle Knoten gemäß folgenden Vorschriften aktualisiert:
P(H) OC SS(H), (8)
p(θπ|HJ oc Ss(θπ, H), (9)
wobei mit dem Symbol oc angegeben wird, dass die
Wahrscheinlichkeits-Tabellen beim Übertragen von SS auf P zu normieren sind.
Gemäß dem EM-Lernverfahren werden die Erwartungswerte für die nicht vorhandenen Knoten Yi berechnet und entsprechend den 43 Sufficient Statistics-Werten für diese Knoten gemäß Vorschrift (7) aktualisiert.
Andererseits ist das Berechnen und Aktualisieren der Verbund- Verteilung P(H,
Figure imgf000044_0001
e Yj_ sehr rechenaufwendig. Ferner ist das Aktualisieren der Verbund- Verteilung P(H, Y. X ) ein Grund für das langsame Konvergieren des EM-Lernverfahrens, wenn ein großer Teil an Information fehlt.
Angenommen, die Tabellen werden mit Zufallszahlen initialisiert, bevor das EM-Lernverfahren gestartet wird.
In diesem Fall entspricht die Verbund-Verteilung P(H,
Figure imgf000044_0002
im Wesentlichen diesen Zufallszahlen im ersten Schritt. Dies bedeutet, dass die initialen Zufallszahlen in den Sufficient Statistics-Werten berücksichtigt werden gemäß dem Verhältnis der fehlenden Information bezogen auf die vorhandenen Information. Dies bedeutet, dass die initialen Zufallszahlen in jeder Tabelle nur gemäß dem Verhältnis der fehlenden Information bezogen auf die vorhandenen Information „gelöscht" werden.
Im Folgenden wird bewiesen, dass für den Fall eines Bayesianischen Netzes als statistisches Modell der Schritt gemäß Vorschrift (7) nicht notwendig ist und somit weggelassen bzw. übersprungen werden kann.
Die Log-Likelihood des Bayesianischen Netzes als statistisches Modell ist gegeben durch:
Figure imgf000044_0003
i=l 44 Für frei vorgegebene Tabellen B(HXi), welche hinsichtlich dem
Knoten H normiert sind, ergibt sich für die Log-Likelihood:
Figure imgf000045_0001
N N
= Σ Σ B(h ) log pfe' h) - Σ Σ B(hk) lo p(h ) i=l h i=l h
Die Summe ∑ bezeichnet die Summe über alle Zustände h des h Knotens H.
Unter Verwendung der folgenden Definitionen für R[P, B] und H[P, B] :
N R[P, B] = ∑ ∑ B(h|xi) log P(xi, h) ( 12 ) i=lh
H[P, B] = ∑ ∑ ß(h|xi) log p(h|xi) ( 13 ) i=lh
ergibt sich für die Log-Likelihood gemäß Vorschrift ( 11 ) :
L[P] = R[P, B] - H[P, B] . ( 14 )
Allgemein gilt:
H[P, B] < H[P, P], (15)
da H[P, P] - H[P, B] die nicht-negative Kreuzentropie zwischen p(h| i) und ßh| ) darstellt. 45 In dem t-ten Schritt wird das aktuelle statistische Modell mit P^ > bezeichnet. Ausgehend von dem aktuellen statistischen Modell P^- des t-ten Schrittes wird ein neues statistisches Modell p't+1 lkonstruiert derart, dass gilt:
Figure imgf000046_0001
Es gilt
Figure imgf000046_0002
Die erste Zeile gilt allgemein für alle B (vergleiche Vorschrift (14) ) . Die zweite Zeile der Vorschrift (171 insbesondere für den Fall, dass gilt:
B >(t) (18)
Die dritte Zeile gilt aufgrund Vorschrift (15) . Die letzte Zeile von Vorschrift (17) entspricht wiederum Vorschrift (14) .
Somit ergibt sich, dass für den Fall R|p(t + 1), p ] > iφv , pft)] sicher gilt:
Figure imgf000046_0003
Es ist auf den Unterschied zu dem Standard-EM-Lernverfahren hinzuweisen [2], bei dem der R-Term definiert ist gemäß folgender Vorschrift: 46 N
R S tan dard^ ß] = ∑ ∑ B^, h|xJ log P^, y^, h) . ( 20 ;
= iι, y±
Es ist anzumerken, dass in dem Argument von P und B in der obigen Vorschrift (20) im Unterschied zu der Definition entsprechend den Vorschriften (12) und (13) auch die fehlenden Größen y auftreten.
Eine Sequenz von EM-Iterationen wird gebildet derart, dass gilt:
Figure imgf000047_0001
Bei dem erfindungsgemäßen Lernverfahren wird für den Fall eines Bayesianischen Netzes eine Sequenz von EM-Iterationen derart gebildet, dass gilt:
Figure imgf000047_0002
Nun wird gezeigt, dass die auf R, definiert gemäß Vorschrift (12), zu dem oben beschriebenen Lernverfahren führt, bei dem Vorschrift (7) übersprungen wird. Bei einem gegebenen aktuellen statistischen Modell P^ ' zu einer Iteration t ist es das Ziel des Verfahrens, ein neues statistisches Modell p(t+l/ in der Iteration t+1 zu berechnen, indem R[P,
Figure imgf000047_0003
bezüglich P optimiert wird. Unter Verwendung der Faktorisierung gemäß Vorschrift (2) ergibt sich:
Rp p(t)J = (t)(h ) iog . )
Figure imgf000047_0004
( 22 ;
Eine Optimierung von R in Bezug auf das Modell P führt zu dem erfindungsgemäßen Verfahren. Der erste Term führt zu der 47 Standard-Aktualisierung der P(H) gemäß den Vorschriften (5) und (7) .
Mit
Figure imgf000048_0001
i=l
ergibt sich der erste Term von Vorschrift (22) zu
Figure imgf000048_0002
∑ SS(h) log P(h) , !24; h i=l
was im Wesentlichen der Kreuzentropie zwischen SS(H) und P(H) entspricht. Somit ist das optimale P(H) durch SS(H) gegeben. Dies entspricht dem M-Schritt gemäß Vorschrift (8) .
Der zweite Term von Vorschrift (22) führt zu einer EM- Aktualisierung für die Tabellen der bedingten Wahrscheinlichkeiten p(θπ|HJ, wie mittels der Vorschriften (6) und (9) beschrieben. Um dies zu veranschaulichen werden alle die Terme in R gesammelt, welche abhängig sind von p(θπ|HJ. Diese Terme sind gegeben gemäß folgender Vorschrift:
Figure imgf000048_0003
OπsXi
N Die Summe ∑ bezeichnet die Summe über alle Datenelemente i =l
OπeXi π l m dem Datensatz, wobei 0 einer der beobachteten Knoten ist, d.h. bei dem gilt:
Figure imgf000049_0001
Zusammenfassend kann der obige Ausdruck (25) als die Kreuzentropie zwischen p(θπH und den Sufficient Statistics- Werten, welche gemäß Vorschrift (6) akkumuliert werden, interpretiert werden. Es ist somit nicht erforderlich, eine
Aktualisierung gemäß Vorschrift (7) vorzusehen. Dies ist auf
N Ki die Summe ∑ in Vorschrift (25) bzw. auf die Summe ∑ i=l κ=l
OπeXi in Vorschrift (22) zurückzuführen. Diese Summe berücksichtigt nur die beobachteten Knoten, im Gegensatz zu der Definition von R Standard gemä..ß„ τVτorsc,hri■f--t. (,20») , m• d•,er auc xh die ni•c■h-.-t_ beobachteten Knoten Y berücksichtigt werden.
Im Folgenden wird in einem allgemeingültigeren Fall die Gültigkeit der Vorgehensweise, nicht beobachtete Knoten im Rahmen der Aktualisierung der Sufficient Statistics Tafeln nicht zu berücksichtigen, dargelegt, womit gezeigt wird, dass die Vorgehensweise nicht auf ein so genanntes Bayesianisches Netz beschränkt ist.
Es wird ein Satz von Variablen Z = γ> ,Z ,...,Z j angenommen. Es wird ferner angenommen, dass das statistische Modell auf folgende Weise faktorisierbar ist:
Figure imgf000049_0002
wobei mit ]^[ |Zσ die „Eltern" -Knoten des Knoten Zσ in dem
Bayesianischen Netz bezeichnet werden. Ferner wird für jeden Knoten Z ein Datensatz {z.i, i = 1, ...,NJ mit N Datensatzelementen angenommen. Wie schon oben angenommen, wird auch in diesem Fall in jedem der N Datensatzelemente ein nur ein Teil der Knoten Z beobachtet. Für das i-te 49 Datensatzelement wird angenommen, dass die Knoten Xi beobachtet werden; die Knoten Xi werden nicht beobachtet und es gilt:
Figure imgf000050_0001
Für jedes der N Datensatzelemente werden die nicht beobachteten Knoten Xi in zwei Untermengen Hi und Y_i aufgeteilt derart, dass keiner der Knoten in den Mengen Xi und Hi ein abhängiger, d.h. nachfolgender Knoten („Kinder" - Knoten) eines Knotens in der Menge Y_ ist. Anschaulich bedeutet das, dass Y_ einem Zweig in einem Bayesianischen Netz entspricht, zu dem es keine Informationen in den Daten gibt.
Somit ergeben sich die Verbund-Verteilungen für die Knoten Xi und Hi gemäß folgender Vorschrift:
p^ ii) = Π P(XIΠ M) Π P(H|Π [H]) - ^
Figure imgf000050_0002
1 ) E-Schritt
Für jeden Knoten Z werden mit Null-Werten initialisierte Tabellen ss(z, ]^[ [z]) gebildet bzw. bereitgestellt. Für jedes Datensatzelement i in dem Datensatz werden die a posteriori Verteilung p(z, TT [z]Xi = i) berechnet und die Sufficient
Statistics-Werte gemäß folgender Vorschrift akkumuliert für j eden Knoten Z e ^ und Z e Hj_:
Figure imgf000050_0003
Die Sufficient Statistics-Werte der Tabellen, welche den Knoten in Xi zugeordnet sind, werden nicht aktualisiert.
2) M-Schritt 50
Die Parameter (Tabellen) aller Knoten werden gemäß folgender Vorschrift aktualisiert:
Figure imgf000051_0001
Anschaulich kann die Erfindung darin gesehen werden, dass ein breiter und einfacher (im Allgemeinen jedoch allerdings approximativer) Zugang zu der Statistik einer Datenbank (bevorzugt über das Internet) durch Bildung statistischer
Modelle für die Inhalte der Datenbank geschaffen wird. Somit werden die statistischen Modelle zur „Remote Diagnose", zur so genannten „Remote Assistance" oder zum „Remote Research" über ein Kommunikationsnetz automatisch versendet. Anders ausgedrückt wird „Wissen" in Form eines statistischen Modells kommuniziert und versendet. Wissen ist häufig Wissen über die Zusammenhänge und wechselseitigen Abhängigkeiten in einer Domäne, beispielsweise über die Abhängigkeiten in einem Prozess. Ein statistisches Modell einer Domäne, welches aus den Daten der Datenbank gebildet wird, ist ein Abbild all dieser Zusammenhänge. Technisch stellen die Modelle eine gemeinsame Wahrscheinlichkeitsverteilung der Dimensionen der Datenbank dar, sind also nicht auf eine spezielle Aufgabenstellung eingeschränkt, sondern stellen beliebige Abhängigkeiten zwischen den Dimensionen dar. Komprimiert zu dem statistischen Modell lässt sich das Wissen über eine Domäne sehr einfach handhaben, versenden, beliebigen Nutzern bereitstellen, etc.
Die Auflösung des Abbildes bzw. des statistischen Modells kann entsprechend den Anforderungen des Datenschutzes oder den Bedürfnissen der Partner gewählt werden. 51 In diesem Dokumenten sind folgende Veröffentlichungen zitiert:
[1] Christopher M. Bishop, Latent Variable Models, M.I. Jordan (Editor) , Learning in Graphical Models, Kulwer, 1998, Seiten 371 - 405
[2] M.A. Tanner, Tools for Statistical Inference, Springer, New York, 3. Auflage, 1996, Seiten 64 - 135
[3] Radford M. Neal und Geoffrey E. Hinton, A View of the EM Algorithm that Justifies Incremental, Sparse and Other Variants, M.I. Jordan (Editor), Learning in Graphical Models, Kulwer, 1998, Seiten 355 - 371
[4] D. Heckermann, Bayesian Networks for Data Mining, Data Mining and Knowledge Discovery, Seiten 79 - 119, 1997
[5] Reimar Hofmann, Lernen der Struktur nichtlinearer Abhängigkeiten mit graphischen Modellen, Dissertation an der Technischen Universität München, Verlag: dissertation.de, ISBN: 3-89825-131-4

Claims

52 Patentansprüche
1. Verfahren zum rechnergestützten Bereitstellen von Datenbankinformation einer ersten Datenbank, • bei dem für die erste Datenbank ein erstes statistisches Modell gebildet wird, welches die statistischen Zusammenhänge der in der ersten Datenbank enthaltenen Datenelemente repräsentiert,
• bei dem das erste statistische Modell in einem Server- Computer gespeichert wird,
• bei dem das erste statistische Modell von dem Server- Computer über ein Kommunikationsnetz zu einem Client- Computer übertragen wird,
• bei dem das empfangene erste statistische Modell von dem Client-Computer weiterverarbeitet wird.
2. Verfahren gemäß Anspruch 1, bei dem unter Verwendung des ersten statistischen Modells und Datenelementen einer in dem Client-Computer gespeicherten zweiten Datenbank ein statistisches Gesamt-Modell gebildet wird, welches zumindest einen Teil der in dem ersten statistischen Modell und in der zweiten Datenbank enthaltenen statistischen Information aufweist.
3. Verfahren gemäß Anspruch 1,
• bei dem für eine zweite Datenbank ein zweites statistisches Modell gebildet wird, welches die statistischen Zusammenhänge der in der zweiten Datenbank enthaltenen Datenelemente repräsentiert, • bei dem das zweite statistische Modell über das
Kommunikationsnetz zu dem Client-Computer übertragen wird ,
• bei dem unter Verwendung des ersten statistischen Modells und des zweiten statistischen Modells von dem Client-Computer ein statistisches Gesamt-Modell gebildet wird, welches zumindest einen Teil der in dem ersten 53 statistischen Modell und in dem zweiten statistischen Modell enthaltenen statistischen Information aufweist.
Verfahren gemäß Anspruch 3, bei dem das zweite statistische Modell in einem zweiten Server-Computer gespeichert wird, bei dem das zweite statistische Modell von dem zweiten Server-Computer über ein Kommunikationsnetz zu dem Client-Computer übertragen wird.
5. Verfahren gemäß einem der Ansprüche 1 bis 4, bei dem mindestens eines der statistischen Modelle mittels eines skalierbaren Verfahrens gebildet wird, mit dem der Kompressionsgrad des statistischen Modells verglichen mit den in der jeweiligen Datenbank enthaltenen Datenelementen einstellbar ist.
6. Verfahren gemäß einem der Ansprüche 1 bis 5, bei dem mindestens eines der statistischen Modelle mittels eines EM-Lernverfahrens oder mittels eines gradientenbasierten Lernverfahrens gebildet wird.
7. Verfahren gemäß einem der Ansprüche 1 bis 6, bei dem die erste Datenbank oder/und die zweite Datenbank Datenelemente aufweist/aufweisen, welche mindestens eine technische Anlage beschreiben.
8. Verfahren gemäß Anspruch 7, bei dem die die mindestens eine technische Anlage beschreibenden Datenelemente zumindest teilweise an der technischen Anlage gemessene Werte darstellen, welche das Betriebsverhalten der technischen Anlage beschreiben.
9. Verfahren zum rechnergestützten Bilden eines statistischen Modells einer Datenbank, welche eine Vielzahl von
Datenelementen aufweist, 54
• bei dem ein EM-Lernverfahren auf die Datenelemente durchgeführt wird, so dass zu einem vorgebbaren gerichteten Graph statistische Zusammenhänge zwischen den Datenelementen ermittelt werden, • wobei der gerichtete Graph Knoten und Kanten aufweist,
• wobei die Knoten vorgebbare beobachtbare Datenbankzustände und nicht beobachtbare Datenbank-Zustände beschreiben,
• bei dem im Rahmen des EM-Lernverfahrens nur die Erwartungswerte ermittelt werden zu den beobachtbaren Datenbank-Zuständen sowie zu den nicht beobachtbaren Datenbank-Zuständen, deren Eltern-Datenbank-Zustände beobachtbare Datenbank-Zustände sind.
10. Computer-Anordnung zum rechnergestützten Bereitstellen von Datenbankinformation einer ersten Datenbank,
• mit einem Server-Computer, in dem ein erstes statistisches Modell, welches für eine erste Datenbank gebildet ist, gespeichert ist, wobei das erste statistische Modell die statistischen Zusammenhänge der in der ersten Datenbank enthaltenen Datenelemente repräsentiert,
• mit einem mit dem Server-Computer mittels eines Kommunikationsnetz gekoppelten Client-Computer, der eingerichtet ist zur Weiterverarbeitung des von dem Server-Computer über das Kommunikationsnetz zu dem Client-Computer übertragenen ersten statistischen Modells .
11. Computer-Anordnung gemäß Anspruch 10,
• bei der in dem Client-Computer eine zweite Datenbank mit Datenelementen gespeichert ist,
• wobei der Client-Computer eine Einheit zum Bilden eines statistischen Gesamt-Modells unter Verwendung des ersten statistischen Modells und den Datenelementen der zweiten Datenbank, aufweist, wobei das statistische Gesamt- Modell zumindest einen Teil der in dem ersten 55 statistischen Modell und in der zweiten Datenbank enthaltenen statistischen Information aufweist.
12. Computer-Anordnung gemäß Anspruch 10, • mit einem zweiten Server-Computer, in dem ein zweites statistisches Modell, welches für eine zweite Datenbank gebildet ist, gespeichert ist, wobei das zweite statistische Modell die statistischen Zusammenhänge der in der zweiten Datenbank enthaltenen Datenelemente repräsentiert,
• wobei der Client-Computer mittels des Kommunikationsnetzes mit dem zweiten Server-Computer gekoppelt ist,
• wobei der Client-Computer eine Einheit zum Bilden eines statistischen Gesamt-Modells unter Verwendung des ersten statistischen Modells und des zweiten statistischen Modells, aufweist, wobei das statistische Gesamt-Modell zumindest einen Teil der in dem ersten statistischen Modell und in dem zweiten statistischen Modell enthaltenen statistischen Information aufweist.
PCT/EP2003/011655 2002-11-12 2003-10-21 Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank WO2004044772A2 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US10/534,510 US20060129580A1 (en) 2002-11-12 2003-10-21 Method and computer configuration for providing database information of a first database and method for carrying out the computer-aided formation of a statistical image of a database
AU2003279305A AU2003279305A1 (en) 2002-11-12 2003-10-21 Method and computer configuration for providing database information of a first database and method for carrying out the computer-aided formation of a statistical image of a database
EP03772243A EP1561173A2 (de) 2002-11-12 2003-10-21 Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank
JP2004550701A JP2006505858A (ja) 2002-11-12 2003-10-21 第1データベースにおけるデータベース情報を提供する提供方法及びコンピュータ構造、並びにデータベースにおける統計イメージのコンピュータ援用形成方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10252445.9 2002-11-12
DE10252445A DE10252445A1 (de) 2002-11-12 2002-11-12 Verfahren und Computer-Anordnung zum Bereitstellen von Datenbankinformation einer ersten Datenbank und Verfahren zum rechnergestützten Bilden eines statistischen Abbildes einer Datenbank

Publications (3)

Publication Number Publication Date
WO2004044772A2 true WO2004044772A2 (de) 2004-05-27
WO2004044772A9 WO2004044772A9 (de) 2004-08-19
WO2004044772A3 WO2004044772A3 (de) 2004-12-16

Family

ID=32185484

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2003/011655 WO2004044772A2 (de) 2002-11-12 2003-10-21 Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank

Country Status (6)

Country Link
US (1) US20060129580A1 (de)
EP (1) EP1561173A2 (de)
JP (1) JP2006505858A (de)
AU (1) AU2003279305A1 (de)
DE (1) DE10252445A1 (de)
WO (1) WO2004044772A2 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7873724B2 (en) * 2003-12-05 2011-01-18 Microsoft Corporation Systems and methods for guiding allocation of computational resources in automated perceptual systems
US7761474B2 (en) * 2004-06-30 2010-07-20 Sap Ag Indexing stored data
US7623651B2 (en) * 2004-09-10 2009-11-24 Microsoft Corporation Context retention across multiple calls in a telephone interaction system
WO2006066556A2 (de) * 2004-12-24 2006-06-29 Panoratio Database Images Gmbh Relationale komprimierte datenbank-abbilder (zur beschleunigten abfrage von datenbanken)
US7512617B2 (en) * 2004-12-29 2009-03-31 Sap Aktiengesellschaft Interval tree for identifying intervals that intersect with a query interval
US20060159339A1 (en) * 2005-01-20 2006-07-20 Motorola, Inc. Method and apparatus as pertains to captured image statistics
JP5510127B2 (ja) * 2010-06-30 2014-06-04 株式会社ニコン 統計情報提供システム、統計情報提供サーバ、移動端末、会員端末及びプログラム
US20150347421A1 (en) * 2014-05-29 2015-12-03 Avaya Inc. Graph database for a contact center
JP7212103B2 (ja) * 2021-05-20 2023-01-24 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7354181B2 (ja) * 2021-05-20 2023-10-02 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000065479A1 (en) * 1999-04-22 2000-11-02 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US623337A (en) * 1899-04-18 Birger isidor rydberg
US6449612B1 (en) * 1998-03-17 2002-09-10 Microsoft Corporation Varying cluster number in a scalable clustering system for use with large databases
US6012058A (en) * 1998-03-17 2000-01-04 Microsoft Corporation Scalable system for K-means clustering of large databases
US6728713B1 (en) * 1999-03-30 2004-04-27 Tivo, Inc. Distributed database management system
US20020129038A1 (en) * 2000-12-18 2002-09-12 Cunningham Scott Woodroofe Gaussian mixture models in a data mining system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000065479A1 (en) * 1999-04-22 2000-11-02 Microsoft Corporation Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHAN P K, STOLFO S J: "Sharing learned models among remote database partitions by local meta-learning" KDD-96 PROCEEDINGS. SECOND INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, PORTLAND, OR, USA, 2-4 AUGUST 1996, 1996, XP002292366 AAAI PRESS, MENLO PARK, CA, USA Gefunden im Internet: URL:http://citeseer.ist.psu.edu/chan96sharing.html> [gefunden am 2004-08-13] *
CHEN R ET AL: "Distributed Web mining using Bayesian networks from multiple data streams" DATA MINING, 2001. ICDM 2001, PROCEEDINGS IEEE INTERNATIONAL CONFERENCE ON SAN JOSE, CA, USA 29 NOV.-2 DEC. 2001, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 29. November 2001 (2001-11-29), Seiten 75-82, XP010583262 ISBN: 0-7695-1119-8 *
KARGUPTA H ET AL: "Collective data mining: A new perspective toward distributed data analysis" IN KARGUPTA H AND CHAN P, EDITORS, ADVANCES IN DISTRIBUTED AND PARALLEL KNOWLEDGE DISCOVERY, 2000, XP002292368 MIT, AAAI PRESS Gefunden im Internet: URL:http://www.cs.umbc.edu/~hillol/PUBS/bc.pdf> [gefunden am 2004-08-13] *
PRODROMIDIS A L, STOLFO S J: "Mining databases with different schemas: integrating incompatible classifers" KDD-98 PROCEEDINGS. FOURTH INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, NEW YORK, NY, USA, 27-31 AUGUST 1998, 1998, XP002292367 AAAI PRESS, MENLO PARK, CA, USA Gefunden im Internet: URL:http://citeseer.ist.psu.edu/106070.html> [gefunden am 2004-08-13] *

Also Published As

Publication number Publication date
WO2004044772A9 (de) 2004-08-19
US20060129580A1 (en) 2006-06-15
JP2006505858A (ja) 2006-02-16
WO2004044772A3 (de) 2004-12-16
EP1561173A2 (de) 2005-08-10
DE10252445A1 (de) 2004-05-27
AU2003279305A1 (en) 2004-06-03
AU2003279305A8 (en) 2004-06-03

Similar Documents

Publication Publication Date Title
DE112021004197T5 (de) Semantisches Lernen in einem System für ein föderiertes Lernen
DE102019129050A1 (de) Systeme und verfahren zur gemeinsamen nutzung von fahrzeugen über peer-to-peer-netzwerke
DE112018005205T5 (de) Komprimierung von vollständig verbundenen / wiederkehrenden Schichten von einem oder mehreren tiefen Netzen durch Durchsetzen von räumlicher Lokalität für Gewichtsmatrizen und erwirken von Frequenzkomprimierung
WO2004044772A2 (de) Verfahren und computer-anordnung zum bereitstellen von datenbankinformation einer ersten datenbank und verfahren zum rechnergestützten bilden eines statistischen abbildes einer datenbank
DE102020215650A1 (de) Ontologiebewusste klangklassifizierung
Goplerud A Multinomial Framework for Ideal Point Estimation
EP1620807A1 (de) Datenbank-abfragesystem unter verwendung eines statistischen modells der datenbank zur approximativen abfragebeantwortung
DE112021005925T5 (de) Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung
DE112018006438T5 (de) Clustering von facetten auf einem zweidimensionalen facettenwürfel für text-mining
EP1264253B1 (de) Verfahren und anordnung zur modellierung eines systems
EP3507943B1 (de) Verfahren zur kommunikation in einem kommunikationsnetzwerk
DE102021127398A1 (de) Beziehungserkennung und -quantifizierung
WO2021190715A1 (de) Computerimplementiertes verfahren und verteiltes speichersystem zum bereitstellen vertrauenswürdiger datenobjekte
DE112021001492T5 (de) Verfahren und systeme zur graphdatenverarbeitung mit hybridem schlussfolgern
DE102015008607A1 (de) Adaptives Anpassen von Netzwerk-Anforderungen auf Client-Anforderungen in digitalen Netzwerken
DE10233609A1 (de) Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung
DE112021005531T5 (de) Verfahren und vorrichtung zur erzeugung von trainingsdaten für ein graphneuronales netzwerk
DE102011077611A1 (de) Verfahren zum rechnergestützten Erkennen von Angriffen auf ein Computernetz
DE112022000630T5 (de) Abgleichen von informationen durch verwenden von untergraphen
DE102014118401A1 (de) Dezentralisiertes Expertensystem für netzwerkbasiertes Crowdfunding
DE102022118244A1 (de) System, Verfahren und Computerprogrammprodukt zur optimierten Testplanung für das Prototypenmanagement einer Entität
DE202022100198U1 (de) Ein wolkenbasiertes System zur Graphenberechnung
WO2023139130A1 (de) Computer-implementierte datenstruktur, verfahren und system zum betrieb eines technischen geräts mit einem modell auf basis föderierten lernens
EP3913567A1 (de) Server-computersystem sowie bewertungsverfahren
CN117952232A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
COP Corrected version of pamphlet

Free format text: PAGE 22, DESCRIPTION, ADDED

WWE Wipo information: entry into national phase

Ref document number: 2003772243

Country of ref document: EP

Ref document number: 2004550701

Country of ref document: JP

WWP Wipo information: published in national office

Ref document number: 2003772243

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2006129580

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10534510

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10534510

Country of ref document: US