WO2019159995A1 - 学習装置、識別装置、それらの方法、およびプログラム - Google Patents

学習装置、識別装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2019159995A1
WO2019159995A1 PCT/JP2019/005194 JP2019005194W WO2019159995A1 WO 2019159995 A1 WO2019159995 A1 WO 2019159995A1 JP 2019005194 W JP2019005194 W JP 2019005194W WO 2019159995 A1 WO2019159995 A1 WO 2019159995A1
Authority
WO
WIPO (PCT)
Prior art keywords
inter
language
task
shared conversion
text
Prior art date
Application number
PCT/JP2019/005194
Other languages
English (en)
French (fr)
Inventor
亮 増村
智大 田中
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/969,283 priority Critical patent/US20210012158A1/en
Priority to JP2020500533A priority patent/JP7017176B2/ja
Publication of WO2019159995A1 publication Critical patent/WO2019159995A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the present invention relates to a text label identification technique for identifying a text label for a specific task from text, and more particularly to a text label identification technique for supporting a plurality of tasks in a plurality of languages.
  • Text label identification technology that identifies labels for specific tasks from text is known. For example, in a dialogue system including a chatbot, text label identification is performed for a plurality of tasks such as utterance intention identification, utterance action identification, topic identification, and the like based on the identification result, and the system action is determined based on the user input text. It is common.
  • a text label identifier is provided for each target task, and the text label is identified for each task.
  • a text label discriminator that identifies a label corresponding to the input text is constructed for a label representing a predetermined number of speech acts (for example, 30 labels). Was done.
  • a text label discriminator plays a role of giving a label “Question” to an input text “Do you sell juice to this store?”. It is important to improve the performance of such a text label discriminator, and the smoothness of the dialogue is influenced by the performance of the dialogue system described above.
  • Such a text label discriminator is generally constructed by machine learning by preparing a large amount of learning data including a set of a text and its correct answer label. That is, the text label discriminator is automatically learned by preparing a large amount of data with a label for each text (word series).
  • Various machine learning techniques can be applied to this learning. For example, machine learning techniques such as deep learning can be used. Examples of typical deep learning methods include Recurrent Neural Network (RNN) and Convolutional Neural NetworkC (CNN) (see Non-Patent Documents 1 and 2).
  • w t represents one word
  • t 1,..., T
  • T is the number of words included in the input text w.
  • the superscript “ ⁇ ” of “L ⁇ ” should be described directly above “L”, but may be expressed as “L ⁇ ” due to the limitation of description.
  • the role of DISCRIMINATE () can be divided into two compotes.
  • INPUTtoHIDDEN () for converting the input text w into a latent vector h
  • HIDDENtoOUTPUT () for converting the latent vector h into an output label L ⁇ .
  • h a latent vector in which input text information is embedded.
  • ⁇ IN , ⁇ OUT ⁇
  • ⁇ IN is a parameter that defines the processing of INPUTtoHIDDEN ()
  • ⁇ OUT is a parameter that defines the processing of HIDDENtoOUTPUT ().
  • learning data specialized for a specific task identification task, such as speech intention identification, speech act identification, topic identification, etc.
  • a specific language for example, Japanese, Chinese, English, etc.
  • learning data completely different from each other is used for learning parameters of a text label discriminator having at least one of a language and a task.
  • the present invention has been made in view of these points, and is to perform high-performance text label identification for a plurality of tasks in a plurality of languages.
  • An optimization parameter group that defines the shared conversion function ⁇ (1),..., ⁇ (M) is obtained and output.
  • N and M are integers of 2 or more.
  • Each inter-task shared conversion function ⁇ (n) takes input text in a certain language n as input, and converts latent vectors corresponding to the contents of the input text but independent of the language n into M number of inter-language shared conversions.
  • Each inter-language shared conversion function ⁇ (m) receives a latent vector output from any of the N inter-task shared conversion functions ⁇ (1),. An output label corresponding to the latent vector is output for m.
  • FIG. 1 is a block diagram illustrating a functional configuration of the identification system according to the embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration of the learning apparatus according to the embodiment.
  • FIG. 3 is a block diagram illustrating a functional configuration of the identification device according to the embodiment.
  • FIG. 4 is a flowchart for explaining the identification processing of the embodiment.
  • a parameter is set between different languages and between different tasks for a text label discriminator composed of two components: a function that converts a word sequence into a latent vector and a function that converts a latent vector into an output label. Make it shareable.
  • the identification device described in the embodiment is a device in which a text label discriminator is mounted, and handles N types of languages and M types of tasks (identification tasks).
  • the “task” handled in the present embodiment is an “identification task”, which identifies a classification (class) corresponding to the input text and outputs a label corresponding to the classification as an output label.
  • “Classification” is a classification of a plurality of (predetermined) events for a specific category. For example, events related to the category “speech act” are classified into “classifications” such as “question”, “answer”, “thank you”, and “apology”.
  • Examples of “task” include utterance intention identification for identifying an utterance intention corresponding to an input text, utterance action identification for identifying an utterance action corresponding to the input text, topic identification for identifying a topic corresponding to the input text, and the like.
  • N inter-task shared conversion functions inter-task shared conversion models
  • ⁇ (1),..., ⁇ (N) and M corresponding to N languages n 1,.
  • M inter-language shared conversion functions (inter-language shared conversion model) ⁇ (1),..., ⁇ (M) corresponding to the types of tasks m 1,.
  • Each inter-task shared conversion unit A (n) applies the inter-task shared conversion function ⁇ (n) to an input text in a certain language n, and corresponds to the contents of the input text but does not depend on the language n.
  • the vector is output to the M inter-language shared conversion units B (1),..., B (M).
  • Each of the inter-language shared conversion units B (m) converts the inter-language shared conversion into a latent vector output from any of the N inter-task shared conversion units A (1),..., A (N).
  • the function ⁇ (m) is applied (acted), and an output label corresponding to the latent vector is output for a certain task m.
  • the inter-task shared conversion unit A (n) is a part shared by text label estimators that handle the same language n.
  • a text label discriminator that handles both Japanese topic identification and Japanese speech act identification uses the same inter-task shared conversion using the inter-task shared conversion function ⁇ (n) defined by the same parameters.
  • Part A (n) is used.
  • the “latent vector” is a vector (for example, a fixed-length vector) in which information about the contents of the input text is embedded.
  • the “latent vector” corresponds to the content of the input text, but does not depend on the language of the input text. That is, the same “latent vector” corresponds to the input text having the same content regardless of the language.
  • the inter-language shared conversion unit B (m) is a part shared by text label discriminators that handle the same task m.
  • the text label discriminator that performs English topic estimation and the text label discriminator of both Japanese topic estimations use the same inter-language shared conversion function ⁇ (m) defined by the same parameters.
  • the inter-language shared conversion unit B (m) is used.
  • N * M “functions for converting input text into latent vectors” and N * M “functions for converting latent vectors into output labels” are required.
  • a text label discriminator that handles N kinds of languages and M kinds of tasks can be constructed. Furthermore, in the method of the present embodiment, machine learning can be performed using a set of learning data for all combinations of N languages and M tasks (details will be described later). Even if there is little learning data, a high-performance text label estimator can be constructed. In addition, when sufficient learning data can be obtained, more generalized parameters can be obtained, so compared to the case of constructing a text label estimator for each language task as in the past, A high-performance text label estimator can be constructed.
  • the number of inter-task shared conversion units A (n) matches the number of languages that can be handled by the text label estimator installed in the identification device.
  • an identification device equipped with a text label estimator that handles three languages, Japanese, English, and Chinese has three inter-task shared conversion units A (1), corresponding to Japanese, English, and Chinese, respectively.
  • the number of inter-language shared conversion units B (m) matches the number of tasks that can be handled by the text label estimator installed in the identification device.
  • an identification device in which a text label estimator that handles two tasks of topic identification and speech act identification has two inter-language shared conversion units B (1) and B (2).
  • Intertask sharing type conversion unit A (n) ⁇ Input: Language n text (word series)
  • Potential vector h is a universal latent vectors, it does not depend on the language n of the input text w n.
  • INPUTtoHIDDEN (parameter theta n IN defined between tasks shared type conversion functions by ⁇ (n)) input text w applied to n, to obtain a latent vectors h corresponding to the input text w n outputs (equation (1)).
  • An arbitrary function having this function can be used for INPUTtoHIDDEN (), for example, a function for realizing the function of the RNN of Non-Patent Document 1 or the CNN of Non-Patent Document 2 can be used.
  • this parameter may be referred to as “ ⁇ m OUT ” due to restrictions on regulation notation.
  • the output label may be expressed as “L ⁇ m ” due to restrictions on the regulation notation.
  • the parameter ⁇ m OUT defines the processing of the function HIDDENtoOUTPUT () that converts the latent vector h into the output label L ⁇ m .
  • HIDDENtoOUTPUT (parameter theta m Language between shared defined by OUT transform function ⁇ (n)) to the latent vectors h
  • an output label L ⁇ m corresponding to the latent vector h (formula (2)).
  • An arbitrary function having this function can be used for HIDDENtoOUTPUT (), for example, a function for realizing the function of the RNN of Non-Patent Document 1 or the CNN of Non-Patent Document 2 can be used.
  • Each inter-task shared conversion function ⁇ (n) takes an input text of a certain language n as an input, and latent vectors that do not depend on the language n corresponding to the contents of the input text are converted into M inter-language shared conversion functions.
  • Each inter-language shared conversion function ⁇ (m) receives a latent vector output from any of the N inter-task shared conversion functions ⁇ (1),.
  • An output label corresponding to the latent vector is output for task m.
  • the learning data D (n, m) is learning data for task m in language n.
  • a set of 1000 texts and correct labels is prepared for one task in one language
  • the learning device of the present embodiment includes N inter-task shared conversion functions ⁇ (1),..., ⁇ (N) defined by the parameter group ⁇ and M inter-language shared conversion functions ⁇ (1), ..., when the text label discriminator including ⁇ (M) is input as the text included in the learning data D, the probability that the correct label of the text input as the input text is output is maximized
  • the parameter group ⁇ to be converted is obtained as an optimization parameter group ⁇ ⁇ and output. Note that the superscript “ ⁇ ” of “ ⁇ ⁇ ” should be described directly above “ ⁇ ”, but it is described at the upper right of ⁇ due to the limitation of description. For example, the learning device uses the optimization parameter group as And output.
  • argmax ⁇ ⁇ represents a parameter group ⁇ that maximizes ⁇
  • D represents learning data
  • D ⁇ D (1,1),..., D (N, M) ⁇
  • represents the number of texts included in D (n, m).
  • w represents the text included in the learning data
  • L represents the correct answer label included in the learning data
  • w) represents the correct answer probability
  • W) 1 and P ⁇ (L
  • w) 0 if L is not the correct answer label for w.
  • w) is Represents.
  • w, ⁇ ) is defined as N inter-task shared conversion functions ⁇ (1),..., ⁇ (N) defined by the parameter group ⁇ and M inter-language shared conversion functions ⁇ (1 ),..., ⁇ (M) represents a prediction probability value that outputs L as an output label when w is input as input text.
  • logX represents the logarithm of X. The bottom of the log can be anything. Examples of the bottom of the log are “number of napiers” “10” “2” and the like.
  • the parameter that defines the inter-task shared conversion function ⁇ (n) is denoted as “ ⁇ n IN ”, and the parameter that defines the inter-language shared conversion function ⁇ (m) is denoted as “ ⁇ m OUT ”.
  • ⁇ 1 IN ,..., ⁇ N IN , ⁇ 1 OUT ,..., ⁇ M OUT ⁇ .
  • an error back propagation method can be used. Since the error back propagation method is a known technique, the description thereof is omitted here.
  • the identification system 1 of the present embodiment includes a learning device 11 and an identification device 12.
  • the learning device 11 according to the present embodiment includes a storage unit 111, a learning unit 112, and an output unit 113.
  • the learning unit 112 includes an update unit 112a and a calculation unit 112b.
  • the identification device 12 includes an input unit 121, a selection unit 122, an inter-task shared conversion unit 123-n (“A (n)”), an inter-language shared conversion unit 124-m (“B (m)”), and an output unit. 125.
  • ⁇ Learning process> A learning process by the learning device 11 will be described.
  • ⁇ 1 IN ,..., ⁇ N IN , ⁇ 1 OUT ,..., ⁇ M OUT ⁇ are obtained and output.
  • the update process for updating the parameter group based on (value) is repeated.
  • Various known methods can be used for this learning processing, for example, an error back-propagation method can be used.
  • the output unit 113 outputs the optimization parameter group ⁇ output from the learning unit 112.
  • M inter-language shared conversion functions ⁇ (1),..., ⁇ (M) are defined. That is, the inter-task shared conversion function ⁇ (n) used in the inter-task shared conversion unit 123-n is determined by the parameter ⁇ n IN (Equation (1)), and the inter-language shared conversion unit 124-m
  • the inter-language shared conversion function ⁇ (m) to be used is determined by the parameter ⁇ m OUT (Equation (2)).
  • Inter-task sharing type conversion unit 123-n are applied inter-task sharing type conversion function ⁇ (n) to the input text w n, to obtain a potential vector h is corresponding to the contents of the input text w n language independent n (Calculate h in the equation (1)), and output the latent vector h to the M inter-language shared conversion units 124-1,..., 124-M (step S123-n).
  • the latent vector h is input to the M inter-language shared conversion units 124-1,..., 124-M.
  • Each inter-language shared conversion unit 124-m (where m ⁇ ⁇ 1,..., M ⁇ ) includes an inter-task shared conversion unit 123-n (N inter-task shared conversion units 123-1,.
  • an output label L ⁇ m corresponding to the latent vector h is obtained for the task m (formula (2 ) To obtain an output label L ⁇ m ) and output the output label L ⁇ m .
  • M output labels L ⁇ 1 , ..., L ⁇ M are output from the identification device 12 (step S125).
  • this invention is not limited to the above-mentioned embodiment.
  • the learning device 11 and the identification device 12 are separate devices, but these devices may be integrated.
  • machine learning is performed using the learning data stored in the storage unit 111 of the learning device 11, but the learning device 11 uses machine learning using the learning data stored in the external storage unit. May be performed.
  • the learning data in the storage unit 111 of the learning device 11 may be updated, and the learning device 11 may perform machine learning using the updated learning data.
  • step S125 M output labels L ⁇ 1 ,..., L ⁇ M are output from the discriminating apparatus 12, and correspond to the task m selected from the output labels L ⁇ 1 , ..., L ⁇ M. Only the output label may be output.
  • the processing of the inter-language shared conversion unit 124-m corresponding to the unselected task is performed. It may be omitted.
  • Each of the above devices is a general-purpose or dedicated computer including a processor (hardware processor) such as a CPU (central processing unit) and a memory such as a random-access memory (RAM) and a read-only memory (ROM). Is configured by executing a predetermined program.
  • the computer may include a single processor and memory, or may include a plurality of processors and memory.
  • This program may be installed in a computer, or may be recorded in a ROM or the like in advance.
  • some or all of the processing units are configured using an electronic circuit that realizes a processing function without using a program, instead of an electronic circuit (circuitry) that realizes a functional configuration by reading a program like a CPU. May be.
  • An electronic circuit constituting one device may include a plurality of CPUs.
  • a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
  • This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads a program stored in its own storage device, and executes a process according to the read program.
  • the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer.
  • the processing according to the received program may be executed sequentially.
  • the above-described processing may be executed by a so-called ASP (Application Service Provider) type service that does not transfer a program from the server computer to the computer but implements a processing function only by the execution instruction and result acquisition. Good.
  • ASP Application Service Provider
  • the processing functions of this apparatus are not realized by executing a predetermined program on a computer, but at least a part of these processing functions may be realized by hardware.
  • the present invention can be used for, for example, a dialogue system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)

Abstract

N種類の言語におけるM種類のタスクについてのテキストと当該テキストの正解ラベルとの組を含む学習データを入力とし、N種類の言語nに対応するN個のタスク間共有型変換関数α(n)およびM種類のタスクmに対応するM個の言語間共有型変換関数β(m)を規定する最適化パラメータ群を得る。NおよびMの少なくとも一方が2以上の整数であり、α(n)のそれぞれは、或る言語nの入力テキストの内容に対応するが言語nに依存しない潜在ベクトルを、β(1),…,β(M)に対して出力するものであり、β(m)のそれぞれは、α(1),…,α(N)の何れかから出力された潜在ベクトルを入力とし、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力するものである。

Description

学習装置、識別装置、それらの方法、およびプログラム
 本発明は、テキストから特定のタスクについてテキストラベル識別を行うテキストラベル識別技術に関し、特に複数の言語の複数のタスクをサポートするテキストラベル識別技術に関する。
 テキストから特定のタスクについてラベル識別を行うテキストラベル識別技術が知られている。例えば、チャットボットを含む対話システムでは、ユーザの入力テキストから、発話意図識別、発話行為識別、話題識別などの複数のタスクについてテキストラベル識別を行い、その識別結果に基づいてシステムのアクションを決定することが一般的である。従来のテキストラベル識別技術では、対象のタスクごとにテキストラベル識別器を設け、各タスクについてテキストラベル識別を行っていた。例えば、発話行為識別のタスクでは、あらかじめ規定された数の発話行為を表すラベル(例えば30個のラベル)について、入力さテキストに対応するラベルを識別するテキストラベル識別器が構築され、テキストラベル識別が行われていた。例えば「ジュースはこのお店に売っていますか?」という入力テキストに対して、「質問」というラベルを与える役割を、テキストラベル識別器が担っている。このようなテキストラベル識別器の性能を向上させることは重要であり、前述の対話システムではその性能により、対話の円滑さが左右される。
 このようなテキストラベル識別器は、テキストとその正解ラベルとの組を含む学習データを大量に準備して機械学習によって構築することが一般的である。すなわち、テキスト(単語系列)ごとにラベルが付与されたデータを大量に準備しておくことで、テキストラベル識別器を自動で学習する。この学習には様々な機械学習技術を適用可能であり、例えば、深層学習などの機械学習技術を用いることができる。代表的な深層学習方法としては、Recurrent Neural Network(RNN)やConvolutional Neural Network (CNN)などを例示できる(非特許文献1,2等参照)。
 RNNやCNNなどの従来のテキストラベル識別器は以下のように定式化される。
Figure JPOXMLDOC01-appb-M000005

ここで、DISCRIMINATE()は、テキストラベル識別器を規定するパラメータθに従い、入力テキストw=(w,…,w)に対して、当該入力テキストwに対応する出力ラベルL^を推定して出力する関数である。ただし、wは1つの単語を表し、t=1,…,Tであり、Tは入力テキストwに含まれる単語数である。なお、本来「L^」の上付き添え字の「^」は「L」の真上に記載すべきであるが、記載表記の制約上「L^」と表記する場合がある。DISCRIMINATE()の役割は2つのコンポートに分けることができる。一つは入力テキストwを潜在ベクトルhに変換する関数INPUTtoHIDDEN()であり、他方は潜在ベクトルhを出力ラベルL^に変換する関数HIDDENtoOUTPUT()である。これらの関数で従来のテキストラベル識別器を定式化すると以下のようになる。
Figure JPOXMLDOC01-appb-M000006

Figure JPOXMLDOC01-appb-M000007

ここで、hは入力テキストの情報が埋め込まれた潜在ベクトルである。θ={θINOUT}であり、θINはINPUTtoHIDDEN()の処理を規定するパラメータであり、θOUTはHIDDENtoOUTPUT()の処理を規定するパラメータである。
 従来技術では、特定の言語(例えば、日本語、中国語、英語など)における特定のタスク(識別タスク、例えば、発話意図識別、発話行為識別、話題識別など)に特化した学習データを用い、特定の言語における特定のタスクに特化したテキストラベル識別器を学習していた。つまり、言語およびタスクの少なくとも一方が異なるテキストラベル識別器のパラメータの学習には、互いに完全に相違する学習データが用いられていた。
Suman Ravuri, Andreas Stolcke,"Recurrent Neural Network and LSTM Models for Lexical Utterance Classification," In Proc. INTERSPEECH, pp. 135-139, 2015. Yoon Kim,"Convolutional Neural Networks for Sentence Classification," In Proc. EMNLP, pp. 1746-1751, 2014.
 しかし、特定の言語の特定のタスクに特化した学習データを十分に準備することは難しい。そのため、パラメータを十分に学習することができず、性能の低いテキストラベル識別器が構築されてしまう場合があった。これは、言語およびタスクの少なくとも一方が異なるテキストラベル識別器を規定するパラメータが互いに完全に相違していたことに起因する。
 本発明はこのような点に鑑みてなされたものであり、複数の言語の複数のタスクについて性能の高いテキストラベル識別を行うことである。
 N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する。ここで、NおよびMは2以上の整数である。タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルを、M個の言語間共有型変換関数β(1),…,β(M)に対して出力するものである。言語間共有型変換関数β(m)のそれぞれは、N個のタスク間共有型変換関数α(1),…,α(N)の何れかから出力された潜在ベクトルを入力とし、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力するものである。
 これにより、複数の言語の複数のタスクについて性能の高いテキストラベル識別を行うことができる。
図1は実施形態の識別システムの機能構成を示すブロック図である。 図2は実施形態の学習装置の機能構成を示すブロック図である。 図3は実施形態の識別装置の機能構成を示すブロック図である。 図4は実施形態の識別処理を説明するためのフロー図である。
 以下、本発明の実施形態を説明する。
 [原理]
 まず原理を説明する。実施形態の方式では、単語系列を潜在ベクトルに変換する関数と潜在ベクトルを出力ラベルに変換する関数の2つのコンポートにより構成されるテキストラベル識別器について、異なる言語間、および異なるタスク間でパラメータを共有可能とする。実施形態で説明する識別装置はテキストラベル識別器が実装された装置であり、N種類の言語とM種類のタスク(識別タスク)を扱う。なお、本実施形態で取り扱う「タスク」は「識別タスク」であり、入力テキストに対応する分類(クラス)を識別し、その分類に対応するラベルを出力ラベルとして出力するものである。「分類」は特定のカテゴリについて事象を複数個(所定個)に区分けしたものである。例えば、「発話行為」というカテゴリについての事象は、「質問」「回答」「お礼」「謝罪」などの「分類」に区分けされる。「タスク」の例は、入力テキストに対応する発話意図を識別する発話意図識別、入力テキストに対応する発話行為を識別する発話行為識別、入力テキストに対応する話題を識別する話題識別などである。「言語」は入力テキストの言語である。「言語」の例は日本語、中国語、英語などである。NおよびMの少なくとも一方が2以上の整数である。例えば、NおよびMがともに2以上の整数である。識別装置が日本語、英語、中国語の3言語を扱う場合にはN=3であり、話題推定識別、発話行為推定識別の2タスクを扱う場合はM=2である。
 実施形態で説明する識別装置は、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部(タスク間共有型単語系列潜在ベクトル変換部)A(n)と、M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部(言語間共有型潜在変数出力ラベル変換部)B(m)とを含む。後述する機械学習によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数(タスク間共有型変換モデル)α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数(言語間共有型変換モデル)β(1),…,β(M)が規定されている。タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストにタスク間共有型変換関数α(n)を適用し、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルを、M個の言語間共有型変換部B(1),…,B(M)に対して出力する。言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された潜在ベクトルに言語間共有型変換関数β(m)を適用し(作用させ)、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力する。タスク間共有型変換部A(n)は、同一の言語nを扱うテキストラベル推定器が共用する部位である。例えば、日本語の話題識別と日本語の発話行為識別の両方を扱うテキストラベル識別器は、同一のパラメータによって規定されたタスク間共有型変換関数α(n)を用いる同一のタスク間共有型変換部A(n)を使用する。「潜在ベクトル」は、入力テキストの内容についての情報が埋め込まれたベクトル(例えば、固定長のベクトル)である。「潜在ベクトル」は入力テキストの内容に対応するが、入力テキストの言語には依存しない。すなわち、言語にかかわらず、同じ内容の入力テキストには同じ「潜在ベクトル」が対応する。言語間共有型変換部B(m)は、同一のタスクmを取り扱うテキストラベル識別器が共用する部位である。つまり、英語の話題推定を行うテキストラベル識別器と、日本語の話題推定の両者のテキストラベル識別器とは、互いに同一のパラメータによって規定される言語間共有型変換関数β(m)を用いる同一の言語間共有型変換部B(m)を使用する。N種類の言語とM種類のタスクを扱う場合、従来方式では、言語とタスクの組ごとにテキストラベル識別器を準備する必要があった。すなわち、N*M個の「入力テキストを潜在ベクトルに変換する関数」とN*M個の「潜在ベクトルを出力ラベルに変換する関数」とが必要があった。これに対し、本実施形態の方式では、N個のタスク間共有型変換関数α(1),…,α(N)とM個の言語間共有型変換関数β(1),…,β(M)によって、N種類の言語とM種類のタスクを扱うテキストラベル識別器を構築できる。さらに本実施形態の方式では、N種類の言語とM種類のタスクとのすべての組み合わせについての学習データの集合を用いて機械学習を行うことができるため(詳細は後述)、各言語による各タスクの学習データが少ない場合でも、高い性能のテキストラベル推定器を構築できる。また、十分な学習データが得られる場合には、より一般化されたパラメータを獲得することができるため、従来のように各言語のタスクごとにテキストラベル推定器を構築する場合と比較して、性能の高いテキストラベル推定器を構築できる。
 <識別装置>
 本実施形態の識別装置は、N個のタスク間共有型変換部A(n)(ただし、n=1,…,N)と、M個の言語間共有型変換部B(m)(ただし、m=1,…,M)を有する。タスク間共有型変換部A(n)の数は、識別装置に実装されたテキストラベル推定器が扱える言語の数と一致する。例えば、日本語、英語、中国語の3言語を扱うテキストラベル推定器が実装された識別装置は、日本語、英語、中国語にそれぞれ対応する3つのタスク間共有型変換部A(1),A(2),A(3)を有する。言語間共有型変換部B(m)の数は、識別装置に実装されたテキストラベル推定器が扱えるタスクの数と一致する。例えば、話題識別、発話行為識別の2つのタスクを扱うテキストラベル推定器が実装された識別装置は、2つの言語間共有型変換部B(1),B(2)を有する。
 ≪タスク間共有型変換部A(n)≫
入力:言語nのテキスト(単語系列)
出力:潜在ベクトル(ユニバーサル潜在ベクトル)
 タスク間共有型変換部A(n)(ただし、n=1,…,N)は、どのタスクmのテキストラベル識別を行うかにかかわらず、或る言語nの入力テキスト
Figure JPOXMLDOC01-appb-M000008

を潜在ベクトルhに変換する。ただし、
Figure JPOXMLDOC01-appb-M000009

は1つの単語を表し、t=1,…,Tであり、Tは入力テキストwに含まれる単語数である。つまり、タスク間共有型変換部A(n)は言語nごとに構成される。タスク間共有型変換部A(n)では以下の変換を行う。
Figure JPOXMLDOC01-appb-M000010

潜在ベクトルhはユニバーサル潜在ベクトルであり、入力テキストwの言語nによらない。ここで
Figure JPOXMLDOC01-appb-M000011

は言語nの入力テキストwを扱うテキストラベル識別を行う場合に利用されるパラメータ(モデルパラメータ)であり、対象のタスクmにかかわらず利用されるものである(すなわち、このパラメータは、或る言語nの入力テキストに対する全てのタスクm=1,…,Mのテキストラベル識別において共用される)。規制表記の制約上、以下ではこのパラメータを「θ IN」と表記する場合がある。パラメータθ INは入力テキストwを潜在ベクトルhに変換する関数INPUTtoHIDDEN()の処理を規定するものである。タスク間共有型変換部A(n)は、パラメータθ INによって処理が規定された関数INPUTtoHIDDEN()(パラメータθ INによって規定されたタスク間共有型変換関数α(n))を入力テキストwに適用し、入力テキストwに対応する潜在ベクトルhを得て出力する(式(1))。INPUTtoHIDDEN()にはこの機能を持つ任意の関数を利用でき、例えば非特許文献1のRNNや非特許文献2のCNNの機能を実現するための関数を利用できる。パラメータθ INの学習には、言語nにおけるM種類のタスクm=1,…,Mについてのテキストと当該テキストの正解ラベルとの組を含む学習データが用いられる。すなわち、言語nの全てのタスクm=1,…,Mに対応する学習データを用いてパラメータθ INが学習される。つまり、言語nの入力テキストに対する全てのタスクm=1,…,Mのテキストラベル識別が可能なようにパラメータθ INが学習される。例えば、学習データに含まれる言語nのテキストに対する全てのタスクm=1,…,Mのテキストラベル識別について誤りが最小となるようなパラメータθ INが学習される。例えば、日本語の入力テキストに対する話題識別のタスクも対話行為推定のタスクも適切に行うことができるようなパラメータθ INが学習される。例えば、話題識別のタスクについても対話行為推定のタスクについても誤りが最小となるように学習される。
 ≪言語間共有型変換部B(m)≫
入力:潜在ベクトル(ユニバーサル潜在ベクトル)
出力:タスクmについての出力ラベル
 言語間共有型変換部B(m)(ただし、m=1,…,M)は、潜在ベクトルhを入力とし、すべてのタスクm=1,…,Mについて、当該潜在ベクトルhに対応する出力ラベル
Figure JPOXMLDOC01-appb-M000012

を得て出力する。規制表記の制約上、以下ではこの出力ラベルを「L^」と表記する場合がある。前述のとおり、潜在ベクトルhは入力テキストの言語nに非依存である。言語間共有型変換部B(m)は次式に従い出力ラベルL^を推定する。
Figure JPOXMLDOC01-appb-M000013

ここで
Figure JPOXMLDOC01-appb-M000014

はタスクmのテキストタスク識別を行う場合に利用されるパラメータ(モデルパラメータ)であり、入力テキストwの言語nにかかわらず利用されるものである(すなわち、このパラメータは、すべての言語n=1,…,Nの入力テキストに対する或るタスクmのテキストラベル識別において共用される)。規制表記の制約上、以下ではこのパラメータを「θ OUT」と表記する場合がある。
Figure JPOXMLDOC01-appb-M000015

はタスクmのテキストタスク識別で得られた出力ラベルである。規制表記の制約上、以下では出力ラベルを「L^」と表記する場合がある。パラメータθ OUTは潜在ベクトルhを出力ラベルL^に変換する関数HIDDENtoOUTPUT()の処理を規定するものである。言語間共有型変換部B(m)は、パラメータθ OUTによって処理が規定された関数HIDDENtoOUTPUT()(パラメータθ OUTによって規定された言語間共有型変換関数β(n))に潜在ベクトルhを適用し、潜在ベクトルhに対応する出力ラベルL^を得て出力する(式(2))。HIDDENtoOUTPUT()にはこの機能を持つ任意の関数を利用でき、例えば非特許文献1のRNNや非特許文献2のCNNの機能を実現するための関数を利用できる。パラメータθ OUTの学習には、すべての言語n=1,…,Nにおけるタスクmについてのテキストと当該テキストの正解ラベルとの組を含む学習データが用いられる。すなわち、すべての言語n=1,…,Nのタスクmに対応する学習データを用いてパラメータθ OUTが学習される。つまり、すべての言語n=1,…,Nの入力テキストに対するタスクmのテキストラベル識別が可能なようにパラメータθ OUTが学習される。例えば、学習データに含まれるすべての言語n=1,…,Nのテキストに対するタスクmのテキストラベル識別について誤りが最小となるようなパラメータθ OUTが学習される。例えば、日本語の入力テキストに対する話題識別のタスクも英語の入力テキストに対する話題識別のタスクも適切に行うことができるようなパラメータθ OUTが学習される。例えば、日本語の入力テキストに対しても英語の入力テキストに対しても話題識別の誤りが最小となるように学習される。
 <学習装置>
 本実施形態の学習装置は、N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組を含む学習データDを入力とし、学習処理(機械学習)によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て(推定して)出力する。タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、入力テキストの内容に対応するが言語nに依存しない潜在ベクトルをM個の言語間共有型変換関数β(1),…,β(M)に対して出力するものである。また言語間共有型変換関数β(m)のそれぞれは、N個のタスク間共有型変換関数α(1),…,α(N)の何れかから出力された潜在ベクトルを入力とし、或るタスクmについて潜在ベクトルに対応する出力ラベルを出力するものである。
入力:N種類の言語とM種類のタスクに関するテキストとその正解ラベルとの組を含むデータ群(学習データD)
出力:最適的化されたパラメータ(最適化パラメータ群)
 学習データDは学習データD(n,m)(ただし、n=1,…,N,m=1,…,M)の集合{D(1,1),…,D(N,M)}である。なお、学習データD(n,m)は言語nにおけるタスクmの学習データである。すなわち、学習データD(n,m)は、言語nのテキストと当該言語nのテキストに対するタスクmのテキストラベル識別の正解ラベルとの組を含むデータ群である。すなわち、N種類の言語n=1,…,NとM種類のタスクm=1,…,Mとのすべての組み合わせについての学習データD(n,m)の集合を学習データDとして用いることができる。例えば、1つの言語の1つのタスクについて1000個のテキストと正解ラベルとの組が準備されている場合、2種類の言語と3種類のタスクとの任意の組み合わせに対応する最適化パラメータ群の学習に1000×2×3=6000個の組からなる学習データDを用いることができる。なお、各学習データD(n,m)におけるテキストと正解ラベルとの組の個数は必ずしも同一でなくてもよい。
 本実施形態の学習装置は、パラメータ群θによって規定されるN個のタスク間共有型変換関数α(1),…,α(N)およびM個の言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、学習データDに含まれたテキストを入力テキストとして入力した際に、当該入力テキストとして入力されたテキストの正解ラベルが出力される確率を最大化するパラメータ群θを最適化パラメータ群θ^として得て出力する。なお、「θ^」の上付き添え字「^」は本来「θ」の真上に記載すべきであるが、記載表記の制限上θの右上に記載している。例えば、学習装置は、最適化パラメータ群として
Figure JPOXMLDOC01-appb-M000016

を得て出力する。ここで、argmaxθγはγを最大にするパラメータ群θを表し、Dは学習データD={D(1,1),…,D(N,M)}を表し、D(n,m)は学習データDに含まれる言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれるテキストの個数を表す。wは学習データに含まれるテキストを表し、Lは学習データに含まれる正解ラベルを表し、P^(L|w)が正解確率を表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0である。ただし、P^(L|w)は
Figure JPOXMLDOC01-appb-M000017

を表す。P(L|w,θ)は、パラメータ群θによって規定されるN個のタスク間共有型変換関数α(1),…,α(N)およびM個の言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、入力テキストとしてwを入力した際に出力ラベルとしてLが出力される予測確率値を表す。logXはXの対数を表す。logの底はどのようなものもよい。logの底の例は「ネイピア数」「10」「2」などである。パラメータ群θは、タスク間共有型変換関数α(n)(ただし、n=1,…,N)を規定するパラメータ
Figure JPOXMLDOC01-appb-M000018

および言語間共有型変換関数β(m)(ただし、m=1,…,M)を規定するパラメータ
Figure JPOXMLDOC01-appb-M000019

を含む。記載表記の制約上、タスク間共有型変換関数α(n)を規定するパラメータを「θ IN」と表記し、言語間共有型変換関数β(m)を規定するパラメータを「θ OUT」と表記するとθ={θ IN,…,θ IN,θ OUT,…,θ OUT}となる。この最適化を解くためには、様々な手法を利用できるが、例えば誤差逆伝搬法などを利用できる。誤差逆伝搬法は公知の技術であるため、ここでは説明を省略する。
 [実施形態]
 次に、図面を用いて実施形態を説明する。
 <構成>
 図1に例示するように、本実施形態の識別システム1は学習装置11および識別装置12を有する。図2に例示するように、本実施形態の学習装置11は記憶部111と学習部112と出力部113とを有する。学習部112は更新部112aと演算部112bとを含む。識別装置12は入力部121と選択部122とタスク間共有型変換部123-n(「A(n)」)と言語間共有型変換部124-m(「B(m)」)と出力部125とを有する。
 <学習処理>
 学習装置11による学習処理を説明する。学習処理に先立って、学習装置11の記憶部111に学習データD={D(1,1),…,D(N,M)}(N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストとテキストの正解ラベルとの組D(n,m)を含む学習データ)が格納される。学習部112は記憶部111から学習データDを読み込み、学習処理(機械学習)によって、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群θ={θ IN,…,θ IN,θ OUT,…,θ OUT}を得て出力する。この学習処理では、例えば、演算部112bがパラメータ群を更新するための演算(例えば、損失関数の計算)を行う演算処理と、更新部112aが演算部112bの演算結果(例えば、損失関数の関数値)に基づいてパラメータ群を更新するための更新処理とが繰り返される。この学習処理には様々な公知の手法を利用でき、例えば誤差逆伝搬法などを利用できる。出力部113は学習部112から出力された最適化パラメータ群θを出力する。最適化パラメータ群θは識別装置12に入力され、これによってN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定される。すなわち、タスク間共有型変換部123-nで使用されるタスク間共有型変換関数α(n)がパラメータθ INによって定められ(式(1))、言語間共有型変換部124-mで使用される言語間共有型変換関数β(m)がパラメータθ OUTによって定められる(式(2))。
 <識別処理>
 図4を用い、識別装置12による識別処理を説明する。
 まず或る言語n∈{1,…,N}の入力テキストwが入力部121に入力される。入力テキストwは、学習データDに含まれたものであってもよいし、学習データDに含まれないものであってもよい(ステップS121)。入力テキストwは選択部122に送られ、選択部122は入力テキストwを言語nに対応するタスク間共有型変換部123-nに送る(ステップS122)。タスク間共有型変換部123-nは、入力テキストwにタスク間共有型変換関数α(n)を適用し、入力テキストwの内容に対応するが言語nに依存しない潜在ベクトルhを得(式(1)の演算を行ってhを得)、当該潜在ベクトルhをM個の言語間共有型変換部124-1,…,124-Mに対して出力する(ステップS123-n)。M個の言語間共有型変換部124-1,…,124-Mには当該潜在ベクトルhが入力される。各言語間共有型変換部124-m(ただし、m∈{1,…,M})は、タスク間共有型変換部123-n(N個のタスク間共有型変換部123-1,…,123-Nの何れか)から出力された潜在ベクトルhに言語間共有型変換関数β(m)を適用して、タスクmについて潜在ベクトルhに対応する出力ラベルL^を得(式(2)の演算を行って出力ラベルL^を得)、当該出力ラベルL^を出力する。これにより、識別装置12からM個の出力ラベルL^,…,L^が出力される(ステップS125)。
 [変形例等]
 なお、本発明は上述の実施形態に限定されない。例えば、上述の実施形態では学習装置11と識別装置12とが互いに別の装置であったが、これらの装置が一体であってもよい。また上述の実施形態では学習装置11の記憶部111に格納された学習データを用いて機械学習が行われたが、学習装置11がその外部の記憶部に格納された学習データを用いて機械学習を行ってもよい。あるいは、学習装置11の記憶部111の学習データが更新され、学習装置11が更新後の学習データを用いて機械学習を行ってもよい。また、ステップS125ではM個の出力ラベルL^,…,L^が識別装置12から出力されたが、出力ラベルL^,…,L^のうち選択されたタスクmに対応する出力ラベルのみが出力されてもよい。出力ラベルL^,…,L^のうち選択されたタスクmに対応する出力ラベルのみが出力される場合、選択されていないタスクに対応する言語間共有型変換部124-mの処理が省略されてもよい。
 上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
 上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
 コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
 本発明は、例えば、対話システム等に利用できる。
1 識別システム
11 学習装置
112 学習部
12 識別装置
123-n タスク間共有型変換部
124-m 言語間共有型変換部

Claims (8)

  1.  N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)および前記M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する学習部を有し、
     NおよびMの少なくとも一方が2以上の整数であり、
     前記タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換関数β(1),…,β(M)に対して出力するものであり、
     前記言語間共有型変換関数β(m)のそれぞれは、N個の前記タスク間共有型変換関数α(1),…,α(N)の何れかから出力された前記潜在ベクトルを入力とし、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習装置。
  2.  請求項1の学習装置であって、
     前記学習部は、パラメータ群によって規定されるN個の前記タスク間共有型変換関数α(1),…,α(N)およびM個の前記言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、前記学習データに含まれた前記テキストを前記入力テキストとして入力した際に、前記入力テキストとして入力された前記テキストの正解ラベルが出力される確率を最大化する前記パラメータ群を前記最適化パラメータ群として得て出力する、学習装置。
  3.  請求項1または2の学習装置であって、
     前記学習部は、前記最適化パラメータ群として
    Figure JPOXMLDOC01-appb-M000001

    を得て出力するものであり、
     argmaxθγはγを最大にするパラメータ群θを表し、D={D(1,1),…,D(N,M)}は前記学習データを表し、D(n,m)は言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれる前記テキストの個数を表し、wは前記テキストを表し、Lは前記正解ラベルを表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0であり、P^(L|w)が
    Figure JPOXMLDOC01-appb-M000002

    であり、P(L|w,θ)は、前記パラメータ群θによって規定されるN個の前記タスク間共有型変換関数α(1),…,α(N)およびM個の前記言語間共有型変換関数β(1),…,β(M)を含むテキストラベル識別器に対し、前記入力テキストとしてwを入力した際に前記出力ラベルとしてLが出力される予測確率値を表す、学習装置。
  4.  N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換部A(n)と、
     M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換部B(m)と、
    を有し、
     NおよびMの少なくとも一方が2以上の整数であり、
     N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定されており、
     前記タスク間共有型変換部A(n)のそれぞれは、或る言語nの入力テキストに前記タスク間共有型変換関数α(n)を適用し、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換部B(1),…,B(M)に対して出力するものであり、
     前記言語間共有型変換部B(m)のそれぞれは、N個の前記タスク間共有型変換部A(1),…,A(N)の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β(m)を適用し、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、識別装置。
  5.  学習装置の学習方法であって、
     N種類の言語n=1,…,NにおけるM種類のタスクm=1,…,Mについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)および前記M種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)を規定する最適化パラメータ群を得て出力する学習ステップを有し、
     NおよびMの少なくとも一方が2以上の整数であり、
     前記タスク間共有型変換関数α(n)のそれぞれは、或る言語nの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルを、M個の前記言語間共有型変換関数β(1),…,β(M)に対して出力するものであり、
     前記言語間共有型変換関数β(m)のそれぞれは、N個の前記タスク間共有型変換関数α(1),…,α(N)の何れかから出力された前記潜在ベクトルを入力とし、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習方法。
  6.  請求項5の学習方法であって、
     前記学習ステップは、前記最適化パラメータ群として
    Figure JPOXMLDOC01-appb-M000003

    を得て出力するものであり、
     argmaxθγはγを最大にするパラメータ群θを表し、D={D(1,1),…,D(N,M)}は前記学習データを表し、D(n,m)は言語nにおけるタスクmの学習データを表し、|D(n,m)|はD(n,m)に含まれる前記テキストの個数を表し、wは前記テキストを表し、Lは前記正解ラベルを表し、Lがwの正解ラベルである場合にP^(L|w)=1であり、Lがwの正解ラベルでない場合にP^(L|w)=0であり、P^(L|w)が
    Figure JPOXMLDOC01-appb-M000004

    であり、P(L|w,θ)は、前記パラメータ群θによって規定される前記タスク間共有型変換関数α(n)および前記言語間共有型変換関数β(m)を含むテキストラベル識別器に対し、前記入力テキストとしてwを入力した際に前記出力ラベルとしてLが出力される予測確率値を表す、学習方法。
  7.  識別装置の識別方法であって、
     NおよびMの少なくとも一方が2以上の整数であり、N種類の言語n=1,…,Nに対応するN個のタスク間共有型変換関数α(1),…,α(N)およびM種類のタスクm=1,…,Mに対応するM個の言語間共有型変換関数β(1),…,β(M)が規定されており、
     タスク間共有型変換部A(n)において、或る言語nの入力テキストに前記タスク間共有型変換関数α(n)を適用し、前記入力テキストの内容に対応するが前記言語nに依存しない潜在ベクトルをM個の言語間共有型変換部B(1),…,B(M)に対して出力するタスク間共有型変換ステップと、
     言語間共有型変換部B(m)において、N個のタスク間共有型変換部A(1),…,A(N)の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β(m)を適用し、或るタスクmについて前記潜在ベクトルに対応する出力ラベルを出力する言語間共有型変換ステップと、
    を有する識別方法。
  8.  請求項1から3の何れかの学習装置または請求項4の識別装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/005194 2018-02-16 2019-02-14 学習装置、識別装置、それらの方法、およびプログラム WO2019159995A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/969,283 US20210012158A1 (en) 2018-02-16 2019-02-14 Learning apparatus, identification apparatus, methods thereof, and program
JP2020500533A JP7017176B2 (ja) 2018-02-16 2019-02-14 学習装置、識別装置、それらの方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-026105 2018-02-16
JP2018026105 2018-02-16

Publications (1)

Publication Number Publication Date
WO2019159995A1 true WO2019159995A1 (ja) 2019-08-22

Family

ID=67618617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/005194 WO2019159995A1 (ja) 2018-02-16 2019-02-14 学習装置、識別装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20210012158A1 (ja)
JP (1) JP7017176B2 (ja)
WO (1) WO2019159995A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122336A (ja) * 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
JP2018026098A (ja) * 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 識別制御方法及び識別制御装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5885499A (ja) * 1981-11-18 1983-05-21 株式会社デンソー 連続音声認識装置
US7512273B2 (en) * 2004-10-21 2009-03-31 Microsoft Corporation Digital ink labeling
US7711747B2 (en) * 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US9189472B2 (en) * 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
JP6230987B2 (ja) * 2014-12-01 2017-11-15 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
US10387430B2 (en) * 2015-02-26 2019-08-20 International Business Machines Corporation Geometry-directed active question selection for question answering systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122336A (ja) * 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
JP2018026098A (ja) * 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 識別制御方法及び識別制御装置

Also Published As

Publication number Publication date
JPWO2019159995A1 (ja) 2021-02-04
US20210012158A1 (en) 2021-01-14
JP7017176B2 (ja) 2022-02-08

Similar Documents

Publication Publication Date Title
US20230077515A1 (en) Creating a knowledge graph based on text-based knowledge corpora
US10417350B1 (en) Artificial intelligence system for automated adaptation of text-based classification models for multiple languages
US10387430B2 (en) Geometry-directed active question selection for question answering systems
Rodrigues et al. Sequence labeling with multiple annotators
US11915104B2 (en) Normalizing text attributes for machine learning models
CN110298035B (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
US20200159832A1 (en) Device and text representation method applied to sentence embedding
Pentina et al. Multi-task learning with labeled and unlabeled tasks
US20150254327A1 (en) System and method for rectifying a typographical error in a text file
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
JPWO2019163718A1 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
Ding et al. Pactran: Pac-bayesian metrics for estimating the transferability of pretrained models to classification tasks
Lyubinets et al. Automated labeling of bugs and tickets using attention-based mechanisms in recurrent neural networks
KR20220024990A (ko) L2TL(Learning to Transfer Learn)을 위한 프레임워크
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
JP2020135689A (ja) モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム
WO2019159995A1 (ja) 学習装置、識別装置、それらの方法、およびプログラム
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
WO2023061107A1 (zh) 基于层预测的语言翻译的方法、设备、装置和介质
CN114818979A (zh) 一种基于最大化间隔机制的含噪多标记分类方法
US20220215287A1 (en) Self-supervised pretraining through text alignment
Zhang et al. Word embedding-based web service representations for classification and clustering
CN116508035A (zh) 将经训练的人工智能模型转换为可信赖的人工智能模型
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19755180

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020500533

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19755180

Country of ref document: EP

Kind code of ref document: A1