WO2020162294A1 - 変換方法、訓練装置及び推論装置 - Google Patents

変換方法、訓練装置及び推論装置 Download PDF

Info

Publication number
WO2020162294A1
WO2020162294A1 PCT/JP2020/003260 JP2020003260W WO2020162294A1 WO 2020162294 A1 WO2020162294 A1 WO 2020162294A1 JP 2020003260 W JP2020003260 W JP 2020003260W WO 2020162294 A1 WO2020162294 A1 WO 2020162294A1
Authority
WO
WIPO (PCT)
Prior art keywords
space
probability distribution
hyperbolic
data
training
Prior art date
Application number
PCT/JP2020/003260
Other languages
English (en)
French (fr)
Inventor
祥大 長野
正一朗 山口
Original Assignee
株式会社Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Preferred Networks filed Critical 株式会社Preferred Networks
Priority to JP2020571126A priority Critical patent/JP7425755B2/ja
Publication of WO2020162294A1 publication Critical patent/WO2020162294A1/ja
Priority to US17/444,301 priority patent/US20210406773A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Definitions

  • the present disclosure relates to a conversion method, a training device, and an inference device.
  • a hyperbolic space is known as a space that can easily handle data having a hierarchical structure such as a tree structure, and has recently attracted attention in the field of machine learning.
  • the hyperbolic space is a non-Euclidean space
  • the probability density could not be calculated
  • the present disclosure has been made in view of the above points, and aims to obtain a probability distribution on a hyperbolic space.
  • a computer executes a step of converting a probability distribution on a space defined for a hyperbolic space into a probability distribution on the hyperbolic space.
  • FIG. 3 is a diagram (part 2) for explaining an example of log-likelihood of a probability distribution on a tangent space and a hyperbolic space. It is a figure for demonstrating the application example to a variational auto encoder. It is a figure showing an example of functional composition of a training device concerning one embodiment. It is a flow chart which shows an example of training processing concerning one embodiment. It is a figure showing an example of functional composition of an inference device concerning one embodiment. It is a flow chart which shows an example of inference processing concerning one embodiment. It is a figure which shows an example of the hardware constitutions of a computer apparatus.
  • Hyperbolic space is a non-Euclidean space with negative Gaussian curvature.
  • the Lorenz model is known as an example of the hyperbolic space (or one of the representation methods of the hyperbolic space).
  • the Lorentz product is expressed as ⁇ z,z'> L .
  • the Lorentz model is an example of a hyperbolic space, and this embodiment can be applied to any hyperbolic space. Also, different types of hyperbolic spaces can be used by mutually converting them.
  • the symbol representing the Lorentz model is an open H as shown in the above formula (1), but is simply expressed as H in the text of the specification. The same applies to the symbol R that represents the set of all real numbers.
  • ⁇ 0 (1,0, ⁇ , ) the ⁇ H n ⁇ R n + 1 as the origin of the Lorentz model of n-dimensional.
  • the tangent space in contact with Myu ⁇ H n Lorentz model H n n-dimensional expressed as T mu H n.
  • the tangent space T ⁇ H n is defined by the following equation (2).
  • FIG. 1A a one-dimensional Lorentz model H 1 and a tangent space T ⁇ H 1 in ⁇ H 1 are shown in FIG. 1A.
  • the tangent space T ⁇ H 1 is a hyperbolic plane tangent to the hyperbolic space H 1 with ⁇ H 1 .
  • the probability distribution on the hyperbolic space H n is calculated by the following (S1) to (S4). Can be obtained. Note that ⁇ is an n ⁇ n matrix.
  • Mapping a point on the tangent space T ⁇ H n on the hyperbolic space H n is “embedded on the hyperbolic space H n ”, “pasted on the hyperbolic space H n ”, or “hyperbolic space H n ”. Convert to a point on H n " and so on.
  • the pseudo-hyperbolic Gaussian distribution G( ⁇ , ⁇ ) for example, by embedding the Gaussian distribution N(0, ⁇ ) on R n in the hyperbolic space H n .
  • the distribution G( ⁇ , ⁇ ) is obtained”, or the pseudo-hyperbolic Gaussian distribution G is obtained by pasting the Gaussian distribution N(0, ⁇ ) on R n on the hyperbolic space H n. May be expressed as “( ⁇ , ⁇ )”, or “convert Gaussian distribution N(0, ⁇ ) on R n to pseudo-hyperbolic Gaussian distribution G ( ⁇ , ⁇ ) on hyperbolic space H n”.
  • a pseudohyperbolic Gaussian distribution G( ⁇ , ⁇ ) To obtain a pseudohyperbolic Gaussian distribution G( ⁇ , ⁇ )”.
  • the Gaussian distribution N(0, ⁇ ) on R n can also be regarded as a probability distribution (Gaussian distribution) on the tangent space T ⁇ 0 H n .
  • the translation PT ⁇ on the Lorentz model H n can be expressed by the following equation (3) for v ⁇ T ⁇ H n .
  • Figure a case of moving the vector v of the tangent space T .mu.0 H 1 in one dimension of the origin mu 0 Lorentz model H 1, the translation PT [nu ⁇ mu vector u on the tangent space T mu H 1 1B.
  • the vector v in the tangent space T ⁇ 0 H 1 becomes a vector u in the tangent space T ⁇ H 1 along the geodesic line of the Lorentz model H 1 by the parallel movement PT ⁇ .
  • the exponential mapping is performed so that the distances of ⁇ and exp ⁇ (u) on H n coincide with
  • L ⁇ ( ⁇ u,u> L ).
  • a vector u on the tangent space T mu H 1 in a one-dimensional Lorentz model H 1 mu a case of mapping onto Lorentz model H 1 by an exponential mapping exp mu Figure 1C.
  • the probability density function of the pseudo-hyperbolic Gaussian distribution G( ⁇ , ⁇ ) obtained by S1 to S4 can be calculated by z ⁇ H n .
  • f is a continuous mapping in which an inverse mapping exists.
  • the probability distribution on the Euclidean space it is possible to obtain the probability distribution on the hyperbolic space in which the probability density can be explicitly calculated and the sampling can be differentiated. Therefore, for example, the probability density of the probability distribution is obtained exactly, which facilitates sampling. Further, for example, since the value of the probability density function can be calculated, the probability that a certain specific sample appears can be calculated. Further, for example, it is possible to reduce the occurrence of an error caused by the existence of a term that is difficult to calculate and the necessity of using an approximate value, and it is possible to improve the accuracy of training and inference in machine learning.
  • the tangent space T ⁇ 0 H n is described as being in contact with the hyperbolic space H n at ⁇ 0.
  • the hyperbolic space is defined. It may not be in strict contact with H n (that is, in exact mathematical relation). That is, in the present disclosure, the term “contact” includes the case where the tangent space T ⁇ 0 H n is not exactly in contact with the hyperbolic space H n due to, for example, the number of significant digits of a computer or calculation error.
  • the probability distribution on the hyperbolic space may be defined in a space based on a space in contact with the hyperbolic space. For example, it may include a case where a space that is not strictly in contact with the hyperbolic space, a space obtained by performing a predetermined operation on the hyperbolic space or a space that is in contact with the hyperbolic space, or the like is used.
  • Example As one example, a case where the present embodiment is applied to a variational auto encoder (VAE) will be described.
  • the output of the encoder included in the variational auto encoder is used to obtain a pseudo-hyperbolic Gaussian distribution from the Gaussian distribution, and points sampled from this pseudo-hyperbolic Gaussian distribution are input to the decoder as latent variables. That is, as shown in FIG. 3, data x is input to the encoder 110 included in the variational auto encoder to obtain ⁇ and ⁇ .
  • the vector v ⁇ T ⁇ 0 H n is obtained from the Gaussian distribution determined by ⁇ .
  • the vector v is moved by the parallel movement PT ⁇ 0 ⁇ using ⁇ to obtain the vector u, and then the vector is calculated by the exponential map exp ⁇ as described in S4 above. obtaining a latent variable Z ⁇ H n by mapping u on hyperbolic space H n.
  • the latent variable z is input to the decoder 120 included in the variational auto encoder, and the data ⁇ x is output.
  • " ⁇ x" represents the inference result of x.
  • the data x is, for example, data sampled from a data set having a hierarchical structure such as a tree structure.
  • the encoder 110 can use any machine learning model that can be used as an encoder of a variational auto encoder, for example, a neural network including an input layer, at least one hidden layer including a plurality of nodes, and an output layer. be able to.
  • the decoder 120 can use any machine learning model available as a decoder for a variational auto-encoder, for example, a neural network including an input layer, at least one hidden layer including a plurality of nodes, and an output layer.
  • a network can be used.
  • Each x (i) is training data and N is the number of training data.
  • the training data set may have some hierarchical structure.
  • FIG. 4 is a diagram illustrating an example of a functional configuration of the training device 10 according to the embodiment.
  • the training device 10 shown in FIG. 4 has an encoding unit 201, a conversion unit 202, a decoding unit 203, and a training unit 204.
  • the encoding unit 201 is realized by the encoder 110 of the variational auto encoder.
  • the encoding unit 201 inputs the training data x (i) and outputs ⁇ H n and ⁇ R n .
  • the encoding unit 201 encodes (encodes) the input training data into ⁇ and ⁇ .
  • the conversion unit 202 inputs ⁇ and ⁇ and obtains z sampled from the probability distribution on the hyperbolic space as a latent variable. That is, the conversion unit 202 creates, for example, an n ⁇ n matrix ⁇ having each element of ⁇ as a diagonal component, and then samples from the pseudo-hyperbolic Gaussian distribution G( ⁇ , ⁇ ) by S1 to S4 described above. Z ⁇ H n .
  • the decoding unit 203 is realized by the decoder 120 of the variational auto encoder.
  • the decoding unit 203 inputs the latent variable z and obtains data ⁇ x (i) which is the inference result of the training data x (i) .
  • the decoding unit 203 decodes (decodes) the input latent variable z into data ⁇ x (i) .
  • the training unit 204 inputs the training data x (i) and the data ⁇ x (i) which is the inference result, and trains (learns) the encoder 110 and the decoder 120 included in the variational auto encoder. For example, when the encoder 110 and the decoder 120 included in the variational auto encoder are realized by a neural network, the training unit 204 maximizes the variational lower limit by the stochastic gradient descent method and the error back propagation method. , Train encoder 110 and decoder 120 simultaneously.
  • FIG. 5 is a flowchart showing an example of the training process according to the embodiment.
  • the encoding unit 201 inputs the training data x (i) and outputs ⁇ H n and ⁇ R n (step S11).
  • the noise v is v ⁇ T ⁇ 0 H n .
  • the decoding unit 203 inputs the latent variable z obtained in the above step S14 and outputs the data ⁇ x (i) which is the inference result of the training data x (i) (step S15).
  • the training unit 204 inputs the training data x (i) and the data ⁇ x (i) which is the inference result, and trains (learns) the encoder 110 and the decoder 120 included in the variational auto encoder ( Step S16).
  • a known training method can be used as a training method for the encoder 110 and the decoder 120 included in the variational auto encoder.
  • the parameters of the encoder 110 and the decoder 120 may be updated by mini-batch learning, batch learning, online learning, or the like. This trains the variational auto encoder.
  • the variational auto-encoder trained in this way can explicitly calculate the probability distribution of the probability distribution.
  • the trained variational auto-encoder can be used for various purposes such as generation of new data similar to training data, complementation of existing data points, interpretation of data relationships, etc. Is.
  • FIG. 6 is a diagram showing an example of a functional configuration of the inference apparatus 20 according to the embodiment.
  • the inference device 20 shown in FIG. 6 has an encoding unit 201, a conversion unit 202, a decoding unit 203, and a training unit 204. These are the same as the encoding unit 201, the converting unit 202, and the decoding unit 203 of the training device 10. However, the encoding unit 201 and the decoding unit 203 of the inference apparatus 20 are realized by the trained encoder 110 and decoder 120, respectively.
  • FIG. 7 shows the flow of the inference processing according to the embodiment.
  • FIG. 7 is a flowchart showing an example of the inference process according to the embodiment.
  • the encoding unit 201 inputs the data x and outputs ⁇ H n and ⁇ R n (step S21).
  • the conversion unit 202 uses the variance ⁇ to generate the noise v, as in step S12 of FIG. 5 (step S22).
  • the conversion unit 202 maps u onto the hyperbolic space by the exponential map exp ⁇ shown in the above equation (5), as in step S14 of FIG. 5, to obtain the latent variable z (step S24). ..
  • the decoding unit 203 inputs the latent variable z obtained in the above step S24 and outputs the data ⁇ x which is the inference result of the data x (step S25).
  • This data ⁇ x is the result of inferring the data x with a predetermined accuracy.
  • the latent variable z at this time is obtained by extracting the latent structure of the input data x. Therefore, as the data input to the trained variational auto encoder, any data may be input as long as the potential structure can be extracted. Examples of such data include data representing handwritten characters, handwritten sketches, music, chemical substances, and the like. Further, in particular, it is possible to preferably extract the potential structure of data of a type having a tree structure (tree structure).
  • As data having a tree structure, for example, natural language (more specifically, for example, natural language for which the Zipf rule is found).
  • a network having a scale-free property for example, a social network or a semantic network
  • the hyperbolic space is a curved space having a constant negative curvature, according to the present embodiment, a structure in which its volume (the number of data) increases exponentially like a tree structure is efficiently expressed. can do.
  • the distribution in which the Gaussian distribution is embedded in the hyperbolic space is the distribution of the latent variable z (latent distribution).
  • the distribution embedded in the hyperbolic space can be used as the latent distribution.
  • a Gaussian distribution is often used as the latent distribution, but depending on the characteristics of the data input to the variational auto encoder, for example, if there is a time-based characteristic, if there is a Poisson distribution, and if there is a space-based characteristic, For example, Rayleigh distribution is used. Therefore, a distribution obtained by embedding these distributions in a hyperbolic space may be used as the latent distribution.
  • the application example to the variational O-encoding using the pseudo-hyperbolic Gaussian distribution has been described, but it can also be applied to the word embedding, for example.
  • word embedding even if a latent space such as word embedding is a stochastic generation model, the representation of each entry (word) in the latent space can be treated as a distribution instead of a point. it can. Therefore, it is possible to model the uncertainty and inclusion relation of each entry, and to embed a richer structure in the latent space.
  • the training device 10 and the inference device 20 are realized by devices or systems, and these devices and systems can be realized by the hardware configuration of the computer device 500 shown in FIG. 8, for example.
  • FIG. 8 is a diagram illustrating an example of the hardware configuration of the computer device 500.
  • the computer device 500 shown in FIG. 8 includes a processor 501, a main storage device 502, an auxiliary storage device 503, a network interface 504, and a device interface 505, which are connected via a bus 506.
  • the computer device 500 shown in FIG. 8 includes each of the constituent elements one by one, it may include a plurality of identical constituent elements.
  • the software may be installed in a plurality of computer devices, and each of the plurality of computer devices may execute a part of processing that is a term of software.
  • the processor 501 is an electronic circuit (processing circuit, processing circuit, processing circuit) including a control device and a computing device of the computer device 500.
  • the processor 501 performs arithmetic processing based on data and programs input from each device of the internal configuration of the computer device 500, and outputs an arithmetic result and a control signal to each device.
  • the processor 501 controls each constituent element of the computer device 500 by executing an OS (Operating System) of the computer device 500, an application program, and the like.
  • OS Operating System
  • any processor can be used as long as it can perform the above processing.
  • the device, the system, and the like and their respective constituent elements are realized by the processor 501.
  • the processing circuit may refer to one or a plurality of electric circuits arranged on one chip, or one or a plurality of electric circuits arranged on two or more chips or devices. Good.
  • the main storage device 502 is a storage device that stores instructions executed by the processor 501 and various data, and the information stored in the main storage device 502 is directly read by the processor 501.
  • the auxiliary storage device 503 is a storage device other than the main storage device 502. Note that these storage devices mean arbitrary electronic components capable of storing electronic information, and may be a memory or a storage.
  • the memory includes a volatile memory and a non-volatile memory, but any of them may be used.
  • a memory for the device, system, etc. to store various data may be realized by the main storage device 502 or the auxiliary storage device 503.
  • the memory for storing various data may be realized by the memory provided in the accelerator.
  • the network interface 504 is an interface for connecting to the communication network 600 wirelessly or by wire. As the network interface 504, one that conforms to the existing communication standard may be used. Information may be exchanged with the external device 700A communicatively connected via the communication network 600 by the network interface 504.
  • the external device 700A includes, for example, a camera, motion capture, output destination device, external sensor, input source device, and the like. Further, the external device 700A may be a device having a function of a part of the constituent elements of the training device 10 or the inference device 20. Then, the computer device 500 may receive a part of the processing result of the training device 10 or the inference device 20 via the communication network 600 like a cloud service.
  • a server may be connected to the communication network 600 as the external device 700A, and the trained model may be stored in the external device 700A. In this case, the inference device 20 may access the external device 700A via the communication network 600 and perform inference using the trained model.
  • the device interface 505 is an interface such as a USB (Universal Serial Bus) that is directly connected to the external device 700B.
  • the external device 700B may be an external recording medium or a storage device.
  • a memory for the device, system, etc. to store various data may be realized by the external device 700B.
  • the external device 700B may be an output device.
  • the output device may be, for example, a display device for displaying an image, a device for outputting sound, or the like.
  • a display device for displaying an image for example, there are an LCD (Liquid Crystal Display), a CRT (Cathode Ray Tube), a PDP (Plasma Display Panel), a speaker, etc., but not limited to these.
  • the external device 700B may be an input device.
  • the input device is, for example, a device such as a keyboard, a mouse, or a touch panel, and the information input by these devices is given to the computer device 500.
  • the signal from the input device is output to the processor 501.
  • training device 20 inference device 201 encoding unit 202 conversion unit 203 decoding unit 204 training unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

一実施形態に係る変換方法は、双曲空間に対して定義された空間上の確率分布を、前記双曲空間上の確率分布に変換するステップをコンピュータが実行する。

Description

変換方法、訓練装置及び推論装置
 本開示は、変換方法、訓練装置及び推論装置に関する。
 木構造等の階層構造を有するデータを容易に取り扱うことができる空間として双曲空間が知られており、近年、機械学習の分野等で注目されている。
 しかしながら、双曲空間は非ユークリッド空間であるため、双曲空間上で一般的な確率分布を定義した場合、その取り扱いが困難(例えば、確率密度が計算できない等)であった。
Nickel, M. and Kiela, D. Poincar´e embeddings for learning hierarchical representations. In Advances in Neural Information Processing Systems 30, pp. 6338-6347. 2017.
 本開示は、上記の点に鑑みてなされたもので、双曲空間上の確率分布を得ることを目的とする。
 上記目的を達成するため、一実施形態に係る変換方法は、双曲空間に対して定義された空間上の確率分布を、前記双曲空間上の確率分布に変換するステップをコンピュータが実行する。
双曲空間及び接空間の一例を説明するための図である。 平行移動の一例を説明するための図である。 指数写像の一例を説明するための図である。 接空間及び双曲空間上の確率分布の対数尤度の一例を説明するための図(その1)である。 接空間及び双曲空間上の確率分布の対数尤度の一例を説明するための図(その2)である。 変分オートエンコーダへの応用例を説明するための図である。 一実施形態に係る訓練装置の機能構成の一例を示す図である。 一実施形態に係る訓練処理の一例を示すフローチャートである。 一実施形態に係る推論装置の機能構成の一例を示す図である。 一実施形態に係る推論処理の一例を示すフローチャートである。 コンピュータ装置のハードウェア構成の一例を示す図である。
 以下、本発明の一実施形態について説明する。本実施形態では、双曲空間に接する接空間上で定義された確率分布を変換することで、当該双曲空間上の確率分布を得る場合について説明する。
 <理論構成>
 まず、本実施形態の理論的構成について説明する。
 双曲空間とは負のガウス曲率を持つ非ユークリッド空間のことである。双曲空間の一例(又は、双曲空間の表現方法の1つ)としてローレンツモデルが知られている。n次元のローレンツモデルは、z=(z,z,・・・,z)∈Rn+1として、以下の式(1)で表される。なお、Rは実数全体の集合を表す。
Figure JPOXMLDOC01-appb-M000001
 ここで、
Figure JPOXMLDOC01-appb-M000002
はローレンツ積である。なお、明細書のテキスト中ではローレンツ積を<z,z’>と表記する。
 本実施形態では、双曲空間の一例としてローレンツモデルを想定し、ローレンツモデルに対して定義された空間、具体的にはローレンツモデルに接する接空間上で定義された確率分布を変換することで、当該ローレンツモデル上の確率分布を得るものとする。ただし、ローレンツモデルは双曲空間の一例であって、本実施形態は任意の双曲空間に対して適用可能である。また、異なる種類の双曲空間を相互に変換して用いることもできる。なお、ローレンツモデルを表す記号は、上記の式(1)に示す通り、白抜きのHであるが、明細書のテキスト中では単にHと表記する。このことは、実数全体の集合を表す記号Rについても同様である。
 μ=(1,0,・・・,)∈H⊂Rn+1をn次元のローレンツモデルの原点とする。また、n次元のローレンツモデルHにμ∈Hで接する接空間をTμと表記する。ここで、接空間Tμは以下の式(2)で定義される。
Figure JPOXMLDOC01-appb-M000003
 一例として、1次元のローレンツモデルHとμ∈Hにおける接空間Tμを図1Aに示す。図1Aに示されるように、接空間Tμは、μ∈Hで双曲空間Hに接する双曲平面である。
 このとき、本実施形態では、確率分布の一例であるガウス分布を決定するパラメータμとΣが与えられた場合に、以下の(S1)~(S4)により、双曲空間H上の確率分布を得ることができる。なお、Σはn×nの行列である。
 (S1)R上のガウス分布N(0,Σ)からベクトルv’∈Rをサンプリングする。
 (S2)上記のS1でサンプリングしたベクトルv’からベクトルv=(0,v’)∈Rn+1を作成する。これは、ベクトルv’を接空間Tμ0⊂Rn+1上の点と見做すことを意味する。
 (S3)後述する平行移動PTμ0→μにより、このベクトルvを接空間Tμ上に移動させる。この移動後のベクトルをuと表す。
 (S4)後述する指数写像expμにより、上記のS2で接空間Tμ上に平行移動させたベクトルuを双曲空間H上に写像する。これにより、双曲空間H上の確率分布が得られる。このようにして得られた確率分布を本実施形態では、擬双曲ガウス分布G(μ,Σ)とも称する。
 なお、接空間Tμ上の点を双曲空間H上に写像することを「双曲空間H上に埋め込む」、「双曲空間H上に貼り付ける」又は「双曲空間H上の点に変換する」等と称されてもよい。このため、擬双曲ガウス分布G(μ,Σ)を得ることは、例えば、「R上のガウス分布N(0,Σ)を双曲空間H上に埋め込むことで、擬双曲ガウス分布G(μ,Σ)を得る」と表現してもよいし、「R上のガウス分布N(0,Σ)を双曲空間H上に貼り付けることで、擬双曲ガウス分布G(μ,Σ)を得る」と表現してもよいし、「R上のガウス分布N(0,Σ)を双曲空間H上の擬双曲ガウス分布G(μ,Σ)に変換することで、擬双曲ガウス分布G(μ,Σ)を得る」と表現してもよい。
 また、上記のS2により、R上のガウス分布N(0,Σ)は、接空間Tμ0上の確率分布(ガウス分布)と見做すこともできる。
  ≪平行移動≫
 任意のμ,ν∈Hに対して、平行移動PTν→μは、接空間Tν上のベクトルを測地線に沿って、かつ、計量テンソルを変えずに、接空間Tνから接空間Tμに移動させる写像と定義される。したがって、PTν→μを平行移動とすれば、任意のv,v’∈Tνに対して、<PTν→μ(v),PTν→μ(v’)>=<v,v’>が成り立つ。
 ローレンツモデルH上の平行移動PTν→μは、v∈Tνに対して、以下の式(3)で表すことができる。
Figure JPOXMLDOC01-appb-M000004
 ここで、α=-<ν,μ>である。
 また、上記の式(3)に示す平行移動PTν→μの逆写像PTμ→ν -1は、以下の式(4)で表すことができる。
Figure JPOXMLDOC01-appb-M000005
 一例として、1次元のローレンツモデルHの原点μにおける接空間Tμ0上のベクトルvを、平行移動PTν→μにより接空間Tμ上のベクトルuに移動させる場合を図1Bに示す。図1Bに示されるように、接空間Tμ0上のベクトルvは、平行移動PTν→μによりローレンツモデルHの測地線に沿って、接空間Tμの上のベクトルuに移動する。
  ≪指数写像≫
 任意のu∈Tμに対して、γμ(0)=μ、かつ、
Figure JPOXMLDOC01-appb-M000006
となる極大測地線γμ:[0,1]→Hが一意に定義できることが一般に知られている。このとき、指数写像expμ:Tμ→Hは、expμ(u)=γμ(1)で定義される。
 これに対して、本実施形態では、H上のμ及びexpμ(u)の距離が||u||=√(<u,u>)と一致するように、上記の指数写像expμ:Tμ→Hを構成する。すなわち、u∈Tμに対して、指数写像expμ:Tμ→Hは、以下の式(5)で表すことができる。
Figure JPOXMLDOC01-appb-M000007
 また、上記の式(5)をuに関して解くことで、指数写像expμの逆写像を得ることができる。すなわち、以下の式(6)で表される逆写像expμ -1が得られる。
Figure JPOXMLDOC01-appb-M000008
 ここで、α=-<μ,z>である。
 一例として、1次元のローレンツモデルHのμにおける接空間Tμ上のベクトルuを、指数写像expμによりローレンツモデルH上に写像する場合を図1Cに示す。図1Cに示されるように、接空間Tμ上のベクトルuは、指数写像expμによりローレンツモデルH上のベクトルz=expμ(u)に写像される。
  ≪確率密度関数≫
 上記で説明した平行移動PTμ0→μ及び指数写像expμは共に微分可能であるため、その合成写像も微分可能である。つまり、
Figure JPOXMLDOC01-appb-M000009
は微分可能である。このため、上記のS1~S4により得られた擬双曲ガウス分布G(μ,Σ)は、z∈Hで確率密度関数を計算することができる。
 一般には、確率密度関数f(x)に与えられた確率変数をXとして、yにおけるY=f(X)の対数尤度は、
Figure JPOXMLDOC01-appb-M000010
と表すことができる。ここで、fは、逆写像が存在する連続な写像である。
 したがって、z=projμにおける擬双曲ガウス分布G(μ,Σ)の対数尤度は、以下の式(7)で表すことができる。
Figure JPOXMLDOC01-appb-M000011
 ここで、上記の式(7)の右辺の第2項中の行列式は、連鎖律により以下の式(8)のように表すことができる。
Figure JPOXMLDOC01-appb-M000012
 上記の式(8)の右辺の第1項及び第2項は、それぞれ
Figure JPOXMLDOC01-appb-M000013
と計算することができる。したがって、上記の式(7)の右辺の第2項中の行列式は、
Figure JPOXMLDOC01-appb-M000014
と計算することができる。
 以上により、上記の式(7)によって擬双曲ガウス分布G(μ,Σ)の確率密度を陽に計算することが可能となる。ここで、接空間上のガウス分布の対数尤度と、この確率分布をprojμにより双曲空間上に写像して得られた擬双曲ガウス分布G(μ,Σ)の対数尤度とをヒートマップで表現した例を図2A及び図2Bに示す。図2A及び図2Bに示されるように、平行移動PTμ0→μ及び指数写像expμの性質(つまり、計量テンソルを変えないことや、μとexpμ(u)の距離が||u||と一致すること等)から、接空間上の確率分布が双曲空間上に適切に埋め込まれていることがわかる。なお、図2A及び図2B中で×印は原点(つまり、μ)を示している。
 このように、本実施形態では、ユークリッド空間上の確率分布を用いて、確率密度が陽に計算可能であり、かつ、サンプリングが微分可能な、双曲空間上の確率分布を得ることができる。このため、例えば、確率分布の持つ確率密度が厳密に求まるため、サンプリングが容易となる。また、例えば、確率密度関数の値が計算可能であるため、或る特定のサンプルが出現する確率を計算することができる。また、例えば、計算が困難な項が存在することに起因する誤差の発生や近似値の利用の必要性を低減することができ、機械学習における訓練や推論等の精度を向上させることができる。
 なお、上記においては、接空間Tμ0は双曲空間Hにμで接するものとして説明したが、コンピュータが実行する処理により接空間Tμ0を定義する場合には双曲空間Hに厳密に(つまり、数学的に厳密に)接していない場合がある。すなわち、本開示において「接する」という用語は、例えば、コンピュータの有効桁数や計算誤差等によって接空間Tμ0が双曲空間Hに厳密に接していない場合も含む。また、双曲空間上の確率分布を適切に得ることができれば、双曲空間に接する空間に基づいた空間に確率分布が定義されてもよい。例えば、双曲空間と厳密に接していない空間や、双曲空間または双曲空間に接する空間等に対し所定の操作を行って得られた空間を利用する場合も含んでよい。
 [実施例]
 一実施例として、本実施形態を変分オートエンコーダ(VAE:Variational Autoencoder)に応用する場合について説明する。本実施例では、変分オートエンコーダに含まれるエンコーダの出力を用いてガウス分布から擬双曲ガウス分布を得て、この擬双曲ガウス分布からサンプリングされる点を潜在変数としてデコーダに入力する。すなわち、図3に示されるように、変分オートエンコーダに含まれるエンコーダ110にデータx入力して、μ及びσを得る。次に、上記のS1及びS2で説明したように、このσで決定されるガウス分布からベクトルv∈Tμ0を得る。そして、上記のS3で説明したように、μを用いた平行移動PTμ0→μによりベクトルvを移動させてベクトルuを得た後、上記のS4で説明したように、指数写像expμによりベクトルuを双曲空間H上に写像して潜在変数z∈Hを得る。この潜在変数zは、変分オートエンコーダに含まれるデコーダ120に入力され、データ^xが出力される。なお、「^x」は、xの推論結果を表す。
 なお、データxは、例えば、木構造等の階層構造を有するデータセットからサンプリングされたデータである。エンコーダ110は変分オートエンコーダのエンコーダとして利用可能な任意の機械学習モデルを用いることができるが、例えば、入力層と複数のノードを含む少なくとも1つの隠れ層と出力層とを含むニューラルネットワークを用いることができる。同様に、デコーダ120は変分オートエンコーダのデコーダとして利用可能な任意の機械学習モデルを用いることができるが、例えば、入力層と複数のノードを含む少なくとも1つの隠れ層と出力層とを含むニューラルネットワークを用いることができる。
 <訓練装置10>
 以降では、訓練データセットを用いて変分オートエンコーダを訓練(学習)する訓練装置10について説明する。なお、訓練データセットをD={x(1),x(2),・・・,x(N)}と表す。各x(i)は訓練データ、Nは訓練データ数である。上述したように、訓練データセットは何等かの階層構造を有していてもよい。
  ≪機能構成≫
 一実施形態に係る訓練装置10の機能構成を図4に示す。図4は、一実施形態に係る訓練装置10の機能構成の一例を示す図である。
 図4に示す訓練装置10は、エンコード部201と、変換部202と、デコード部203と、訓練部204とを有する。
 エンコード部201は、変分オートエンコーダのエンコーダ110により実現される。エンコード部201は、訓練データx(i)を入力して、σ∈Hとμ∈Rを出力する。言い換えれば、エンコード部201は、入力された訓練データをσ及びμに符号化(エンコード)する。
 変換部202は、σ及びμを入力して、双曲空間上の確率分布からサンプリングされたzを潜在変数として得る。すなわち、変換部202は、例えば、σの各要素を対角成分に持つn×n行列Σを作成した上で、上記のS1~S4により擬双曲ガウス分布G(μ,Σ)からサンプリングされたz∈Hを得る。
 デコード部203は、変分オートエンコーダのデコーダ120により実現される。デコード部203は、潜在変数zを入力して、訓練データx(i)の推論結果であるデータ^x(i)を得る。言い換えれば、デコード部203は、入力された潜在変数zをデータ^x(i)に復号(デコード)する。
 訓練部204は、訓練データx(i)とその推論結果であるデータ^x(i)とを入力して、変分オートエンコーダに含まれるエンコーダ110及びデコーダ120を訓練(学習)する。例えば、変分オートエンコーダに含まれるエンコーダ110及びデコーダ120がニューラルネットワークで実現されている場合、訓練部204は、確率的勾配降下法と誤差逆伝播法等により変分下限を最大化することで、エンコーダ110及びデコーダ120を同時に訓練する。
  ≪訓練処理≫
 一実施形態に係る訓練処理の流れを図5に示す。図5は、一実施形態に係る訓練処理の一例を示すフローチャートである。
 エンコード部201は、訓練データx(i)を入力して、σ∈Hとμ∈Rを出力する(ステップS11)。
 次に、変換部202は、分散σを用いて、ノイズvを生成する(ステップS12)。すなわち、変換部202は、例えば、分散σの各要素を対角成分に持つn×n行列Σを作成した上で、R上のガウス分布N(0,Σ)からベクトルv’∈Rをサンプリングし、このベクトルv’からノイズv=(0,v’)∈Rn+1を生成する。なお、このノイズvは、v∈Tμ0である。
 次に、変換部202は、ν=μとして、上記の式(4)に示す平行移動PTμ0→μ(v)によりノイズvをu=PTμ0→μ(v)∈Tμに移動させる(ステップS13)。言い換えれば、変換部202は、ノイズv∈Tμ0をu=PTμ0→μ(v)∈Tμに変換する。
 次に、変換部202は、上記の式(5)に示す指数写像expμによりuを双曲空間上に写像して、潜在変数zを得る(ステップS14)。すなわち、変換部202は、z=expμ(u)により双曲空間上の点z∈Hを得る。これは、双曲空間上の擬双曲ガウス分布G(μ,Σ)から潜在変数zをサンプリングすることと等価である。
 次に、デコード部203は、上記のステップS14で得られた潜在変数zを入力して、訓練データx(i)の推論結果であるデータ^x(i)を出力する(ステップS15)。
 そして、訓練部204は、訓練データx(i)とその推論結果であるデータ^x(i)とを入力して、変分オートエンコーダに含まれるエンコーダ110及びデコーダ120を訓練(学習)する(ステップS16)。なお、変分オートエンコーダに含まれるエンコーダ110及びデコーダ120の訓練方法は既知の訓練方法を用いることが可能である。例えば、ミニバッチ学習、バッチ学習、オンライン学習等によりエンコーダ110及びデコーダ120のパラメータを更新すればよい。これにより、変分オートエンコーダが訓練される。このように訓練された変分オートエンコーダは確率分布の確率蜜が陽に計算可能である。このため、従来の双曲空間を潜在変数空間に用いた場合と異なり、サンプリングにあたって誤差や近似値を用いる必要がなく、所定の精度の変分オートエンコーダを得るまでの時間(つまり、訓練完了までの時間)やコストを削減させることが可能となる。また、精度の高い変分オートエンコーダのモデルを得ることが可能となる。
 なお、このように訓練された変分オートエンコーダは、例えば、訓練データに類似する新規データの生成、既存のデータ点間の補完、データ間の関係の解釈等の様々なことに用いることが可能である。
 <推論装置20>
 以降では、訓練済みの変分オートエンコーダを用いて推論を行う推論装置20について説明する。
  ≪機能構成≫
 一実施形態に係る推論装置20の機能構成を図6に示す。図6は、一実施形態に係る推論装置20の機能構成の一例を示す図である。
 図6に示す推論装置20は、エンコード部201と、変換部202と、デコード部203と、訓練部204とを有する。これらは、訓練装置10のエンコード部201、変換部202及びデコード部203と同様である。ただし、推論装置20のエンコード部201及びデコード部203は、訓練済みのエンコーダ110及びデコーダ120でそれぞれ実現される。
  ≪推論処理≫
 一実施形態に係る推論処理の流れを図7に示す。図7は、一実施形態に係る推論処理の一例を示すフローチャートである。
 エンコード部201は、データxを入力して、σ∈Hとμ∈Rを出力する(ステップS21)。
 次に、変換部202は、図5のステップS12と同様に、分散σを用いて、ノイズvを生成する(ステップS22)。
 次に、変換部202は、図5のステップS13と同様に、ν=μとして、上記の式(4)に示す平行移動PTμ0→μ(v)によりノイズvをu=PTμ0→μ(v)∈Tμに移動させる(ステップS23)。
 次に、変換部202は、図5のステップS14と同様に、上記の式(5)に示す指数写像expμによりuを双曲空間上に写像して、潜在変数zを得る(ステップS24)。
 そして、デコード部203は、上記のステップS24で得られた潜在変数zを入力して、データxの推論結果であるデータ^xを出力する(ステップS25)。このデータ^xは、所定の精度でデータxを推論した結果である。また、このときの潜在変数zは、入力されたデータxの潜在的な構造を抽出したものである。このため、訓練済みの変分オートエンコーダに入力されるデータとしては、潜在的な構造を抽出可能なものであればどのようなデータが入力されてもよい。このようなデータとしては、例えば、手書きの文字、手書きのスケッチ、音楽、化学物質等を表すデータ等が挙げられる。また、特に、木構造(ツリー構造)を有する種類のデータの潜在的な構造を好適に抽出することができる。
 木構造を有するデータとしては、例えば、自然言語(より詳細には、例えば、Zipf則が見られる自然言語)。スケールフリー性を持つネットワーク(例えば、ソーシャルネットワークや意味ネットワーク等)が挙げられる。双曲空間は一定の負の曲率を持つ曲がった空間であるため、本実施形態によれば、木構造のようにそのボリューム(データ数)が指数的に増加するような構造を効率的に表現することができる。
 本実施例では、ガウス分布を双曲空間に埋め込んだ分布を潜在変数zの分布(潜在分布)としたが、変分下限を最大化することができる確率分布であれば、任意の確率分布を双曲空間に埋め込んだ分布を潜在分布として使用することができる。通常、潜在分布としてはガウス分布が良く用いられるが、変分オートエンコーダに入力されるデータの特徴に応じて、例えば、時間ベースの特徴がある場合はポアソン分布、空間ベースの特徴がある場合にはレイリー分布等が用いられる。したがって、これらの分布を双曲空間に埋め込んだ分布が潜在分布として用いられてもよい。
 なお、本実施例では、擬双曲ガウス分布を用いた変分オーエンコードへの応用例を説明したが、例えば、単語埋め込みに対しても応用可能である。本実施形態を単語埋め込みに応用することで、単語埋め込みのような潜在空間が確率的な生成モデルであっても、各エントリー(単語)の潜在空間での表現を点ではなく分布として扱うことができる。このため、各エントリーの不確実性や包含関係をモデル化でき、より豊かな構造を潜在空間に埋め込むことが可能になる。
 <ハードウェア構成>
 上記の実施例に係る訓練装置10及び推論装置20は装置又はシステムで実現され、これらの装置、システムは、例えば、図8に示すコンピュータ装置500のハードウェア構成で実現可能である。図8は、コンピュータ装置500のハードウェア構成の一例を示す図である。
 図8に示すコンピュータ装置500は、プロセッサ501と、主記憶装置502と、補助記憶装置503と、ネットワークインタフェース504と、デバイスインタフェース505とを備え、これらがバス506を介して接続されている。なお、図8に示すコンピュータ装置500は、各構成要素を1つずつ備えているが、同一の構成要素を複数備えていてもよい。また、1台のコンピュータ装置500が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの項となる一部の処理を実行してもよい。
 プロセッサ501は、コンピュータ装置500の制御装置及び演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ501は、コンピュータ装置500の内部構成の各装置等から入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置等に出力する。具体的には、プロセッサ501は、コンピュータ装置500のOS(Operating System)や、アプリケーションプログラム等を実行することにより、コンピュータ装置500を構成する各構成要素を制御する。プロセッサ501は、上記の処理を行うことができればどのようなものも用いることができる。装置、システム等及びそれらの各構成要素は、プロセッサ501により実現される。ここで、処理回路とは、1チップ上に配置された1又は複数の電気回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電気回路を指してもよい。
 主記憶装置502は、プロセッサ501が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置502に記憶された情報がプロセッサ501により直接読み出される。補助記憶装置503は、主記憶装置502以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと不揮発性メモリとがあるが、いずれでもよい。装置、システム等が各種データを保存するためのメモリは主記憶装置502又は補助記憶装置503により実現されてもよい。別の例として、装置、システム等にアクセラレータが備えられている場合には、各種データを保存するためのメモリは、当該アクセラレータに備えられているメモリにより実現されてもよい。
 ネットワークインタフェース504は、無線又は有線により、通信ネットワーク600に接続するためのインタフェースである。ネットワークインタフェース504は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース504により、通信ネットワーク600を介して通信接続された外部装置700Aと情報のやり取りが行なわれてもよい。
 外部装置700Aには、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、入力元デバイス等が含まれる。また、外部装置700Aは、訓練装置10又は推論装置20の構成要素の一部の機能を有する装置であってもよい。そして、コンピュータ装置500は、訓練装置10又は推論装置20の処理結果の一部を、クラウドサービスのように通信ネットワーク600を介して受け取ってもよい。また、外部装置700Aとしてサーバを通信ネットワーク600に接続し、訓練済みモデルを外部装置700Aに記憶させるようにしてもよい。この場合には、推論装置20は、通信ネットワーク600を介して外部装置700Aにアクセスし、訓練済みモデルを用いた推論を行ってもよい。
 デバイスインタフェース505は、外部装置700Bと直接接続するUSB(Universal Serial Bus)等のインタフェースである。外部装置700Bは、外部記録媒体でもよいし、ストレージ装置でもよい。装置、システム等が各種データを保存するためのメモリは外部装置700Bにより実現されていてもよい。
 外部装置700Bは、出力装置であってもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声等を出力する装置等でもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、スピーカ等があるが、これらに限られるものではない。
 なお、外部装置700Bは、入力装置であってもよい。入力装置は、例えば、キーボード、マウス、タッチパネル等のデバイスであり、これらのデバイスにより入力された情報がコンピュータ装置500に与えられる。入力装置からの信号はプロセッサ501に出力される。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既存の技術との組み合わせ等が可能である。
 本願は、アメリカ合衆国に2019年2月7日に出願された仮出願62/802,317号に基づくものであり、その全内容はここに参照をもって援用される。
 10    訓練装置
 20    推論装置
 201   エンコード部
 202   変換部
 203   デコード部
 204   訓練部

Claims (13)

  1.  双曲空間に対して定義された空間上の確率分布を、前記双曲空間上の確率分布に変換するステップをコンピュータが実行する変換方法。
  2.  前記空間は前記双曲空間に接するよう定義された、請求項1に記載の変換方法。
  3.  前記変換するステップは、指数写像を用いて、前記空間上の確率分布を、前記双曲空間上の確率分布に変換することを含む、請求項1又は2に記載の変換方法。
  4.  前記変換するステップは、前記空間上の確率分布の平行移動を含む、請求項1から3のいずれか一項に記載の変換方法。
  5.  前記確率分布に関するデータの種類はツリー構造を有するものである、請求項1から4のいずれか1項に記載の変換方法。
  6.  第1のニューラルネットワークで実現され、入力データを符号化するエンコーダと、
     前記エンコーダによって符号化された入力データによって定義される、双曲空間に対して定義された空間上の確率分布を、前記双曲空間上の確率分布に変換する変換部と、
     第2のニューラルネットワークで実現され、変換された前記双曲空間上の確率分布に基づいて出力データを得るデコーダと、
     前記入力データと前記出力データに基づいて、前記第1のニューラルネットワークと前記第2のニューラルネットワークのパラメータを更新する訓練部と、
     を備える訓練装置。
  7.  前記変換部は、指数写像を用いて、前記空間上の確率分布を、前記双曲空間上の確率分布に変換する、請求項6に記載の訓練装置。
  8.  前記変換部は、前記空間上の確率分布を平行移動させる、請求項6又は7に記載の訓練装置。
  9.  前記デコーダは、前記双曲空間上の確率分布からサンプリングされたデータを入力して、前記出力データを得る、請求項6から8のいずれか1項に記載の訓練装置。
  10.  第1の機械学習で実現され、入力データを入力するエンコーダと、
     前記エンコーダの出力によって定義される、双曲空間に対して定義された空間上の確率分布を、前記双曲空間上の確率分布に変換する変換部と、
     第2の機械学習で実現され、変換された前記双曲空間上の確率分布に基づいて出力データを得るデコーダと、
     を備える推論装置。
  11.  前記変換部は、指数写像を用いて、前記空間上の確率分布を、前記双曲空間上の確率分布に変換する、請求項10に記載の推論装置。
  12.  前記変換部は、前記空間上の確率分布を平行移動させる、請求項10又は11に記載の推論装置。
  13.  前記デコーダは、前記双曲空間上の確率分布からサンプリングされたデータを入力して、前記出力データを得る、請求項10から12のいずれか1項に記載の推論装置。
PCT/JP2020/003260 2019-02-07 2020-01-29 変換方法、訓練装置及び推論装置 WO2020162294A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020571126A JP7425755B2 (ja) 2019-02-07 2020-01-29 変換方法、訓練装置及び推論装置
US17/444,301 US20210406773A1 (en) 2019-02-07 2021-08-03 Transforming method, training device, and inference device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962802317P 2019-02-07 2019-02-07
US62/802,317 2019-02-07

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/444,301 Continuation US20210406773A1 (en) 2019-02-07 2021-08-03 Transforming method, training device, and inference device

Publications (1)

Publication Number Publication Date
WO2020162294A1 true WO2020162294A1 (ja) 2020-08-13

Family

ID=71948111

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003260 WO2020162294A1 (ja) 2019-02-07 2020-01-29 変換方法、訓練装置及び推論装置

Country Status (3)

Country Link
US (1) US20210406773A1 (ja)
JP (1) JP7425755B2 (ja)
WO (1) WO2020162294A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185529A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 学習装置、学習方法、推論装置、推論方法、及び、記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
US7724961B2 (en) * 2006-09-08 2010-05-25 Mitsubishi Electric Research Laboratories, Inc. Method for classifying data using an analytic manifold
US9665791B2 (en) * 2014-04-04 2017-05-30 Massachusetts Institute Of Technology System and method for extracting dominant orientations from a scene
EP3292466A4 (en) * 2015-05-05 2019-01-02 Kyndi, Inc. Quanton representation for emulating quantum-like computation on classical processors
US10977565B2 (en) * 2017-04-28 2021-04-13 At&T Intellectual Property I, L.P. Bridging heterogeneous domains with parallel transport and sparse coding for machine learning models
CN108489395B (zh) * 2018-04-27 2019-03-22 中国农业大学 视觉测量系统结构参数标定和仿射坐标系构建方法与系统
JP7058556B2 (ja) 2018-05-24 2022-04-22 ヤフー株式会社 判定装置、判定方法、および判定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OVINNIKOV, IVAN: "Poincare Wasserstein Autoencoder", ARXIV:1901.01427VL, 5 January 2019 (2019-01-05), pages 1 - 8, XP081011667, Retrieved from the Internet <URL:https://arxiv.org/abs/1901.01427vl> [retrieved on 20200403] *
TIFREA, ALEXANDRU ET AL.: "POINCARE GLOVE: HYPERBOLIC WORD EMBEDDINGS", ARXIV:1810.06546V2, 22 November 2018 (2018-11-22), pages 1 - 24, XP055730609, Retrieved from the Internet <URL:https://arxiv.org/abs/1810.06546v2> [retrieved on 20200403] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022185529A1 (ja) * 2021-03-05 2022-09-09 日本電気株式会社 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
JP7568054B2 (ja) 2021-03-05 2024-10-16 日本電気株式会社 学習装置、学習方法、推論装置、推論方法、及び、プログラム

Also Published As

Publication number Publication date
US20210406773A1 (en) 2021-12-30
JP7425755B2 (ja) 2024-01-31
JPWO2020162294A1 (ja) 2021-12-16

Similar Documents

Publication Publication Date Title
US11455473B2 (en) Vector representation based on context
CN113887701B (zh) 生成用于神经网络输出层的输出的方法、系统和存储介质
JP6790286B2 (ja) 強化学習を用いたデバイス配置最適化
JP6671515B2 (ja) 比較セットを使用する入力例の分類
US20210089936A1 (en) Opinion snippet detection for aspect-based sentiment analysis
EP4006909B1 (en) Method, apparatus and device for quality control and storage medium
US11915123B2 (en) Fusing multimodal data using recurrent neural networks
CN111046027B (zh) 时间序列数据的缺失值填充方法和装置
CN110019471A (zh) 从结构化数据生成文本
CN109408834B (zh) 辅助机器翻译方法、装置、设备及存储介质
US20220358594A1 (en) Counterfactual e-net learning for contextual enhanced earnings call analysis
CN108475346B (zh) 神经随机访问机器
CN112740200A (zh) 用于基于共指消解的端到端深度强化学习的系统和方法
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN109034199A (zh) 数据处理方法及装置、存储介质和电子设备
WO2020162294A1 (ja) 変換方法、訓練装置及び推論装置
CN113474795A (zh) 从传感器输入信号回答认知查询
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN112732896A (zh) 目标信息显示方法、装置、电子设备和介质
JP7211103B2 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
US20230244907A1 (en) Generating sequences of data elements using cross-attention operations
US20230186072A1 (en) Extracting explanations from attention-based models
US11763082B2 (en) Accelerating inference of transformer-based models
CN111782979B (zh) 兴趣点的品牌分类方法、装置、设备以及存储介质
CN113935338A (zh) 基于层预测的语言翻译的方法、设备、装置和介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20753085

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020571126

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20753085

Country of ref document: EP

Kind code of ref document: A1