WO2019159995A1

WO2019159995A1 - 学習装置、識別装置、それらの方法、およびプログラム

Info

Publication number: WO2019159995A1
Application number: PCT/JP2019/005194
Authority: WO
Inventors: 亮増村; 智大田中
Original assignee: 日本電信電話株式会社
Priority date: 2018-02-16
Filing date: 2019-02-14
Publication date: 2019-08-22
Also published as: JPWO2019159995A1; US20210012158A1; JP7017176B2

Abstract

Ｎ種類の言語におけるＭ種類のタスクについてのテキストと当該テキストの正解ラベルとの組を含む学習データを入力とし、Ｎ種類の言語ｎに対応するＮ個のタスク間共有型変換関数α（ｎ）およびＭ種類のタスクｍに対応するＭ個の言語間共有型変換関数β（ｍ）を規定する最適化パラメータ群を得る。ＮおよびＭの少なくとも一方が２以上の整数であり、α（ｎ）のそれぞれは、或る言語ｎの入力テキストの内容に対応するが言語ｎに依存しない潜在ベクトルを、β（１），…，β（Ｍ）に対して出力するものであり、β（ｍ）のそれぞれは、α（１），…，α（Ｎ）の何れかから出力された潜在ベクトルを入力とし、或るタスクｍについて潜在ベクトルに対応する出力ラベルを出力するものである。

Description

学習装置、識別装置、それらの方法、およびプログラム

　本発明は、テキストから特定のタスクについてテキストラベル識別を行うテキストラベル識別技術に関し、特に複数の言語の複数のタスクをサポートするテキストラベル識別技術に関する。

　テキストから特定のタスクについてラベル識別を行うテキストラベル識別技術が知られている。例えば、チャットボットを含む対話システムでは、ユーザの入力テキストから、発話意図識別、発話行為識別、話題識別などの複数のタスクについてテキストラベル識別を行い、その識別結果に基づいてシステムのアクションを決定することが一般的である。従来のテキストラベル識別技術では、対象のタスクごとにテキストラベル識別器を設け、各タスクについてテキストラベル識別を行っていた。例えば、発話行為識別のタスクでは、あらかじめ規定された数の発話行為を表すラベル（例えば３０個のラベル）について、入力さテキストに対応するラベルを識別するテキストラベル識別器が構築され、テキストラベル識別が行われていた。例えば「ジュースはこのお店に売っていますか？」という入力テキストに対して、「質問」というラベルを与える役割を、テキストラベル識別器が担っている。このようなテキストラベル識別器の性能を向上させることは重要であり、前述の対話システムではその性能により、対話の円滑さが左右される。

　このようなテキストラベル識別器は、テキストとその正解ラベルとの組を含む学習データを大量に準備して機械学習によって構築することが一般的である。すなわち、テキスト（単語系列）ごとにラベルが付与されたデータを大量に準備しておくことで、テキストラベル識別器を自動で学習する。この学習には様々な機械学習技術を適用可能であり、例えば、深層学習などの機械学習技術を用いることができる。代表的な深層学習方法としては、Recurrent Neural Network(RNN)やConvolutional Neural Network (CNN)などを例示できる（非特許文献１，２等参照）。

　RNNやCNNなどの従来のテキストラベル識別器は以下のように定式化される。

ここで、DISCRIMINATE()は、テキストラベル識別器を規定するパラメータθに従い、入力テキストｗ＝（ｗ_１，…，ｗ_Ｔ）に対して、当該入力テキストｗに対応する出力ラベルＬ＾を推定して出力する関数である。ただし、ｗ_ｔは１つの単語を表し、ｔ＝１，…，Ｔであり、Ｔは入力テキストｗに含まれる単語数である。なお、本来「Ｌ＾」の上付き添え字の「＾」は「Ｌ」の真上に記載すべきであるが、記載表記の制約上「Ｌ＾」と表記する場合がある。DISCRIMINATE()の役割は２つのコンポートに分けることができる。一つは入力テキストｗを潜在ベクトルｈに変換する関数INPUTtoHIDDEN()であり、他方は潜在ベクトルｈを出力ラベルＬ＾に変換する関数HIDDENtoOUTPUT()である。これらの関数で従来のテキストラベル識別器を定式化すると以下のようになる。

ここで、ｈは入力テキストの情報が埋め込まれた潜在ベクトルである。θ={θ_IN,θ_OUT}であり、θ_INはINPUTtoHIDDEN()の処理を規定するパラメータであり、θ_OUTはHIDDENtoOUTPUT()の処理を規定するパラメータである。

　従来技術では、特定の言語（例えば、日本語、中国語、英語など）における特定のタスク（識別タスク、例えば、発話意図識別、発話行為識別、話題識別など）に特化した学習データを用い、特定の言語における特定のタスクに特化したテキストラベル識別器を学習していた。つまり、言語およびタスクの少なくとも一方が異なるテキストラベル識別器のパラメータの学習には、互いに完全に相違する学習データが用いられていた。

Suman Ravuri, Andreas Stolcke,"Recurrent Neural Network and LSTM Models for Lexical Utterance Classification," In Proc. INTERSPEECH, pp. 135-139, 2015. Yoon Kim,"Convolutional Neural Networks for Sentence Classification," In Proc. EMNLP, pp. 1746-1751, 2014.

　しかし、特定の言語の特定のタスクに特化した学習データを十分に準備することは難しい。そのため、パラメータを十分に学習することができず、性能の低いテキストラベル識別器が構築されてしまう場合があった。これは、言語およびタスクの少なくとも一方が異なるテキストラベル識別器を規定するパラメータが互いに完全に相違していたことに起因する。

　本発明はこのような点に鑑みてなされたものであり、複数の言語の複数のタスクについて性能の高いテキストラベル識別を行うことである。

　Ｎ種類の言語ｎ＝１，…，ＮにおけるＭ種類のタスクｍ＝１，…，Ｍについてのテキストとテキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を規定する最適化パラメータ群を得て出力する。ここで、ＮおよびＭは２以上の整数である。タスク間共有型変換関数α（ｎ）のそれぞれは、或る言語ｎの入力テキストを入力とし、入力テキストの内容に対応するが言語ｎに依存しない潜在ベクトルを、Ｍ個の言語間共有型変換関数β（１），…，β（Ｍ）に対して出力するものである。言語間共有型変換関数β（ｍ）のそれぞれは、Ｎ個のタスク間共有型変換関数α（１），…，α（Ｎ）の何れかから出力された潜在ベクトルを入力とし、或るタスクｍについて潜在ベクトルに対応する出力ラベルを出力するものである。

　これにより、複数の言語の複数のタスクについて性能の高いテキストラベル識別を行うことができる。

図１は実施形態の識別システムの機能構成を示すブロック図である。図２は実施形態の学習装置の機能構成を示すブロック図である。図３は実施形態の識別装置の機能構成を示すブロック図である。図４は実施形態の識別処理を説明するためのフロー図である。

　以下、本発明の実施形態を説明する。
　［原理］
　まず原理を説明する。実施形態の方式では、単語系列を潜在ベクトルに変換する関数と潜在ベクトルを出力ラベルに変換する関数の２つのコンポートにより構成されるテキストラベル識別器について、異なる言語間、および異なるタスク間でパラメータを共有可能とする。実施形態で説明する識別装置はテキストラベル識別器が実装された装置であり、Ｎ種類の言語とＭ種類のタスク（識別タスク）を扱う。なお、本実施形態で取り扱う「タスク」は「識別タスク」であり、入力テキストに対応する分類（クラス）を識別し、その分類に対応するラベルを出力ラベルとして出力するものである。「分類」は特定のカテゴリについて事象を複数個（所定個）に区分けしたものである。例えば、「発話行為」というカテゴリについての事象は、「質問」「回答」「お礼」「謝罪」などの「分類」に区分けされる。「タスク」の例は、入力テキストに対応する発話意図を識別する発話意図識別、入力テキストに対応する発話行為を識別する発話行為識別、入力テキストに対応する話題を識別する話題識別などである。「言語」は入力テキストの言語である。「言語」の例は日本語、中国語、英語などである。ＮおよびＭの少なくとも一方が２以上の整数である。例えば、ＮおよびＭがともに２以上の整数である。識別装置が日本語、英語、中国語の３言語を扱う場合にはＮ＝３であり、話題推定識別、発話行為推定識別の２タスクを扱う場合はＭ＝２である。

　実施形態で説明する識別装置は、Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換部（タスク間共有型単語系列潜在ベクトル変換部）Ａ（ｎ）と、Ｍ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換部（言語間共有型潜在変数出力ラベル変換部）Ｂ（ｍ）とを含む。後述する機械学習によって、Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数（タスク間共有型変換モデル）α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数（言語間共有型変換モデル）β（１），…，β（Ｍ）が規定されている。タスク間共有型変換部Ａ（ｎ）のそれぞれは、或る言語ｎの入力テキストにタスク間共有型変換関数α（ｎ）を適用し、入力テキストの内容に対応するが言語ｎに依存しない潜在ベクトルを、Ｍ個の言語間共有型変換部Ｂ（１），…，Ｂ（Ｍ）に対して出力する。言語間共有型変換部Ｂ（ｍ）のそれぞれは、Ｎ個の前記タスク間共有型変換部Ａ（１），…，Ａ（Ｎ）の何れかから出力された潜在ベクトルに言語間共有型変換関数β（ｍ）を適用し（作用させ）、或るタスクｍについて潜在ベクトルに対応する出力ラベルを出力する。タスク間共有型変換部Ａ（ｎ）は、同一の言語ｎを扱うテキストラベル推定器が共用する部位である。例えば、日本語の話題識別と日本語の発話行為識別の両方を扱うテキストラベル識別器は、同一のパラメータによって規定されたタスク間共有型変換関数α（ｎ）を用いる同一のタスク間共有型変換部Ａ（ｎ）を使用する。「潜在ベクトル」は、入力テキストの内容についての情報が埋め込まれたベクトル（例えば、固定長のベクトル）である。「潜在ベクトル」は入力テキストの内容に対応するが、入力テキストの言語には依存しない。すなわち、言語にかかわらず、同じ内容の入力テキストには同じ「潜在ベクトル」が対応する。言語間共有型変換部Ｂ（ｍ）は、同一のタスクｍを取り扱うテキストラベル識別器が共用する部位である。つまり、英語の話題推定を行うテキストラベル識別器と、日本語の話題推定の両者のテキストラベル識別器とは、互いに同一のパラメータによって規定される言語間共有型変換関数β（ｍ）を用いる同一の言語間共有型変換部Ｂ（ｍ）を使用する。Ｎ種類の言語とＭ種類のタスクを扱う場合、従来方式では、言語とタスクの組ごとにテキストラベル識別器を準備する必要があった。すなわち、Ｎ＊Ｍ個の「入力テキストを潜在ベクトルに変換する関数」とＮ＊Ｍ個の「潜在ベクトルを出力ラベルに変換する関数」とが必要があった。これに対し、本実施形態の方式では、Ｎ個のタスク間共有型変換関数α（１），…，α（Ｎ）とＭ個の言語間共有型変換関数β（１），…，β（Ｍ）によって、Ｎ種類の言語とＭ種類のタスクを扱うテキストラベル識別器を構築できる。さらに本実施形態の方式では、Ｎ種類の言語とＭ種類のタスクとのすべての組み合わせについての学習データの集合を用いて機械学習を行うことができるため（詳細は後述）、各言語による各タスクの学習データが少ない場合でも、高い性能のテキストラベル推定器を構築できる。また、十分な学習データが得られる場合には、より一般化されたパラメータを獲得することができるため、従来のように各言語のタスクごとにテキストラベル推定器を構築する場合と比較して、性能の高いテキストラベル推定器を構築できる。

　＜識別装置＞
　本実施形態の識別装置は、Ｎ個のタスク間共有型変換部Ａ（ｎ）（ただし、ｎ＝１，…，Ｎ）と、Ｍ個の言語間共有型変換部Ｂ（ｍ）（ただし、ｍ＝１，…，Ｍ）を有する。タスク間共有型変換部Ａ（ｎ）の数は、識別装置に実装されたテキストラベル推定器が扱える言語の数と一致する。例えば、日本語、英語、中国語の３言語を扱うテキストラベル推定器が実装された識別装置は、日本語、英語、中国語にそれぞれ対応する３つのタスク間共有型変換部Ａ（１），Ａ（２），Ａ（３）を有する。言語間共有型変換部Ｂ（ｍ）の数は、識別装置に実装されたテキストラベル推定器が扱えるタスクの数と一致する。例えば、話題識別、発話行為識別の２つのタスクを扱うテキストラベル推定器が実装された識別装置は、２つの言語間共有型変換部Ｂ（１），Ｂ（２）を有する。

　≪タスク間共有型変換部Ａ（ｎ）≫
入力：言語ｎのテキスト（単語系列）
出力：潜在ベクトル（ユニバーサル潜在ベクトル）
　タスク間共有型変換部Ａ（ｎ）（ただし、ｎ＝１，…，Ｎ）は、どのタスクｍのテキストラベル識別を行うかにかかわらず、或る言語ｎの入力テキスト

を潜在ベクトルｈに変換する。ただし、

は１つの単語を表し、ｔ＝１，…，Ｔであり、Ｔは入力テキストｗ^ｎに含まれる単語数である。つまり、タスク間共有型変換部Ａ（ｎ）は言語ｎごとに構成される。タスク間共有型変換部Ａ（ｎ）では以下の変換を行う。

潜在ベクトルｈはユニバーサル潜在ベクトルであり、入力テキストｗ^ｎの言語ｎによらない。ここで

は言語ｎの入力テキストｗ^ｎを扱うテキストラベル識別を行う場合に利用されるパラメータ（モデルパラメータ）であり、対象のタスクｍにかかわらず利用されるものである（すなわち、このパラメータは、或る言語ｎの入力テキストに対する全てのタスクｍ＝１，…，Ｍのテキストラベル識別において共用される）。規制表記の制約上、以下ではこのパラメータを「θ^ｎ _ＩＮ」と表記する場合がある。パラメータθ^ｎ _ＩＮは入力テキストｗ^ｎを潜在ベクトルｈに変換する関数INPUTtoHIDDEN()の処理を規定するものである。タスク間共有型変換部Ａ（ｎ）は、パラメータθ^ｎ _ＩＮによって処理が規定された関数INPUTtoHIDDEN()（パラメータθ^ｎ _ＩＮによって規定されたタスク間共有型変換関数α（ｎ））を入力テキストｗ^ｎに適用し、入力テキストｗ^ｎに対応する潜在ベクトルｈを得て出力する（式（１））。INPUTtoHIDDEN()にはこの機能を持つ任意の関数を利用でき、例えば非特許文献１のRNNや非特許文献２のCNNの機能を実現するための関数を利用できる。パラメータθ^ｎ _ＩＮの学習には、言語ｎにおけるＭ種類のタスクｍ＝１，…，Ｍについてのテキストと当該テキストの正解ラベルとの組を含む学習データが用いられる。すなわち、言語ｎの全てのタスクｍ＝１，…，Ｍに対応する学習データを用いてパラメータθ^ｎ _ＩＮが学習される。つまり、言語ｎの入力テキストに対する全てのタスクｍ＝１，…，Ｍのテキストラベル識別が可能なようにパラメータθ^ｎ _ＩＮが学習される。例えば、学習データに含まれる言語ｎのテキストに対する全てのタスクｍ＝１，…，Ｍのテキストラベル識別について誤りが最小となるようなパラメータθ^ｎ _ＩＮが学習される。例えば、日本語の入力テキストに対する話題識別のタスクも対話行為推定のタスクも適切に行うことができるようなパラメータθ^ｎ _ＩＮが学習される。例えば、話題識別のタスクについても対話行為推定のタスクについても誤りが最小となるように学習される。

　≪言語間共有型変換部Ｂ（ｍ）≫
入力：潜在ベクトル（ユニバーサル潜在ベクトル）
出力：タスクｍについての出力ラベル
　言語間共有型変換部Ｂ（ｍ）（ただし、ｍ＝１，…，Ｍ）は、潜在ベクトルｈを入力とし、すべてのタスクｍ＝１，…，Ｍについて、当該潜在ベクトルｈに対応する出力ラベル

を得て出力する。規制表記の制約上、以下ではこの出力ラベルを「Ｌ＾^ｍ」と表記する場合がある。前述のとおり、潜在ベクトルｈは入力テキストの言語ｎに非依存である。言語間共有型変換部Ｂ（ｍ）は次式に従い出力ラベルＬ＾^ｍを推定する。

ここで

はタスクｍのテキストタスク識別を行う場合に利用されるパラメータ（モデルパラメータ）であり、入力テキストｗ^ｎの言語ｎにかかわらず利用されるものである（すなわち、このパラメータは、すべての言語ｎ＝１，…，Ｎの入力テキストに対する或るタスクｍのテキストラベル識別において共用される）。規制表記の制約上、以下ではこのパラメータを「θ^ｍ _ＯＵＴ」と表記する場合がある。

はタスクｍのテキストタスク識別で得られた出力ラベルである。規制表記の制約上、以下では出力ラベルを「Ｌ＾^ｍ」と表記する場合がある。パラメータθ^ｍ _ＯＵＴは潜在ベクトルｈを出力ラベルＬ＾^ｍに変換する関数HIDDENtoOUTPUT()の処理を規定するものである。言語間共有型変換部Ｂ（ｍ）は、パラメータθ^ｍ _ＯＵＴによって処理が規定された関数HIDDENtoOUTPUT()（パラメータθ^ｍ _ＯＵＴによって規定された言語間共有型変換関数β（ｎ））に潜在ベクトルｈを適用し、潜在ベクトルｈに対応する出力ラベルＬ＾^ｍを得て出力する（式（２））。HIDDENtoOUTPUT()にはこの機能を持つ任意の関数を利用でき、例えば非特許文献１のRNNや非特許文献２のCNNの機能を実現するための関数を利用できる。パラメータθ^ｍ _ＯＵＴの学習には、すべての言語ｎ＝１，…，Ｎにおけるタスクｍについてのテキストと当該テキストの正解ラベルとの組を含む学習データが用いられる。すなわち、すべての言語ｎ＝１，…，Ｎのタスクｍに対応する学習データを用いてパラメータθ^ｍ _ＯＵＴが学習される。つまり、すべての言語ｎ＝１，…，Ｎの入力テキストに対するタスクｍのテキストラベル識別が可能なようにパラメータθ^ｍ _ＯＵＴが学習される。例えば、学習データに含まれるすべての言語ｎ＝１，…，Ｎのテキストに対するタスクｍのテキストラベル識別について誤りが最小となるようなパラメータθ^ｍ _ＯＵＴが学習される。例えば、日本語の入力テキストに対する話題識別のタスクも英語の入力テキストに対する話題識別のタスクも適切に行うことができるようなパラメータθ^ｍ _ＯＵＴが学習される。例えば、日本語の入力テキストに対しても英語の入力テキストに対しても話題識別の誤りが最小となるように学習される。

　＜学習装置＞
　本実施形態の学習装置は、Ｎ種類の言語ｎ＝１，…，ＮにおけるＭ種類のタスクｍ＝１，…，Ｍについてのテキストとテキストの正解ラベルとの組を含む学習データＤを入力とし、学習処理（機械学習）によって、Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を規定する最適化パラメータ群を得て（推定して）出力する。タスク間共有型変換関数α（ｎ）のそれぞれは、或る言語ｎの入力テキストを入力とし、入力テキストの内容に対応するが言語ｎに依存しない潜在ベクトルをＭ個の言語間共有型変換関数β（１），…，β（Ｍ）に対して出力するものである。また言語間共有型変換関数β（ｍ）のそれぞれは、Ｎ個のタスク間共有型変換関数α（１），…，α（Ｎ）の何れかから出力された潜在ベクトルを入力とし、或るタスクｍについて潜在ベクトルに対応する出力ラベルを出力するものである。
入力：Ｎ種類の言語とＭ種類のタスクに関するテキストとその正解ラベルとの組を含むデータ群（学習データＤ）
出力：最適的化されたパラメータ（最適化パラメータ群）
　学習データＤは学習データＤ（ｎ，ｍ）（ただし、ｎ＝１，…，Ｎ，ｍ＝１，…，Ｍ）の集合｛Ｄ（１，１），…，Ｄ（Ｎ，Ｍ）｝である。なお、学習データＤ（ｎ，ｍ）は言語ｎにおけるタスクｍの学習データである。すなわち、学習データＤ（ｎ，ｍ）は、言語ｎのテキストと当該言語ｎのテキストに対するタスクｍのテキストラベル識別の正解ラベルとの組を含むデータ群である。すなわち、Ｎ種類の言語ｎ＝１，…，ＮとＭ種類のタスクｍ＝１，…，Ｍとのすべての組み合わせについての学習データＤ（ｎ，ｍ）の集合を学習データＤとして用いることができる。例えば、１つの言語の１つのタスクについて１０００個のテキストと正解ラベルとの組が準備されている場合、２種類の言語と３種類のタスクとの任意の組み合わせに対応する最適化パラメータ群の学習に１０００×２×３＝６０００個の組からなる学習データＤを用いることができる。なお、各学習データＤ（ｎ，ｍ）におけるテキストと正解ラベルとの組の個数は必ずしも同一でなくてもよい。

　本実施形態の学習装置は、パラメータ群θによって規定されるＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を含むテキストラベル識別器に対し、学習データＤに含まれたテキストを入力テキストとして入力した際に、当該入力テキストとして入力されたテキストの正解ラベルが出力される確率を最大化するパラメータ群θを最適化パラメータ群θ＾として得て出力する。なお、「θ＾」の上付き添え字「＾」は本来「θ」の真上に記載すべきであるが、記載表記の制限上θの右上に記載している。例えば、学習装置は、最適化パラメータ群として

を得て出力する。ここで、ａｒｇｍａｘ_θγはγを最大にするパラメータ群θを表し、Ｄは学習データＤ＝｛Ｄ（１，１），…，Ｄ（Ｎ，Ｍ）｝を表し、Ｄ（ｎ，ｍ）は学習データＤに含まれる言語ｎにおけるタスクｍの学習データを表し、｜Ｄ（ｎ，ｍ）｜はＤ（ｎ，ｍ）に含まれるテキストの個数を表す。ｗは学習データに含まれるテキストを表し、Ｌは学習データに含まれる正解ラベルを表し、Ｐ＾（Ｌ｜ｗ）が正解確率を表し、Ｌがｗの正解ラベルである場合にＰ＾（Ｌ｜ｗ）＝１であり、Ｌがｗの正解ラベルでない場合にＰ＾（Ｌ｜ｗ）＝０である。ただし、Ｐ＾（Ｌ｜ｗ）は

を表す。Ｐ（Ｌ｜ｗ，θ）は、パラメータ群θによって規定されるＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を含むテキストラベル識別器に対し、入力テキストとしてｗを入力した際に出力ラベルとしてＬが出力される予測確率値を表す。ｌｏｇＸはＸの対数を表す。ｌｏｇの底はどのようなものもよい。ｌｏｇの底の例は「ネイピア数」「１０」「２」などである。パラメータ群θは、タスク間共有型変換関数α（ｎ）（ただし、ｎ＝１，…，Ｎ）を規定するパラメータ

および言語間共有型変換関数β（ｍ）（ただし、ｍ＝１，…，Ｍ）を規定するパラメータ

を含む。記載表記の制約上、タスク間共有型変換関数α（ｎ）を規定するパラメータを「θ^ｎ _ＩＮ」と表記し、言語間共有型変換関数β（ｍ）を規定するパラメータを「θ^ｍ _ＯＵＴ」と表記するとθ＝｛θ^１ _ＩＮ，…，θ^Ｎ _ＩＮ，θ^１ _ＯＵＴ，…，θ^Ｍ _ＯＵＴ｝となる。この最適化を解くためには、様々な手法を利用できるが、例えば誤差逆伝搬法などを利用できる。誤差逆伝搬法は公知の技術であるため、ここでは説明を省略する。

　［実施形態］
　次に、図面を用いて実施形態を説明する。
　＜構成＞
　図１に例示するように、本実施形態の識別システム１は学習装置１１および識別装置１２を有する。図２に例示するように、本実施形態の学習装置１１は記憶部１１１と学習部１１２と出力部１１３とを有する。学習部１１２は更新部１１２ａと演算部１１２ｂとを含む。識別装置１２は入力部１２１と選択部１２２とタスク間共有型変換部１２３－ｎ（「Ａ（ｎ）」）と言語間共有型変換部１２４－ｍ（「Ｂ（ｍ）」）と出力部１２５とを有する。

　＜学習処理＞
　学習装置１１による学習処理を説明する。学習処理に先立って、学習装置１１の記憶部１１１に学習データＤ＝｛Ｄ（１，１），…，Ｄ（Ｎ，Ｍ）｝（Ｎ種類の言語ｎ＝１，…，ＮにおけるＭ種類のタスクｍ＝１，…，Ｍについてのテキストとテキストの正解ラベルとの組Ｄ（ｎ，ｍ）を含む学習データ）が格納される。学習部１１２は記憶部１１１から学習データＤを読み込み、学習処理（機械学習）によって、Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を規定する最適化パラメータ群θ＝｛θ^１ _ＩＮ，…，θ^Ｎ _ＩＮ，θ^１ _ＯＵＴ，…，θ^Ｍ _ＯＵＴ｝を得て出力する。この学習処理では、例えば、演算部１１２ｂがパラメータ群を更新するための演算（例えば、損失関数の計算）を行う演算処理と、更新部１１２ａが演算部１１２ｂの演算結果（例えば、損失関数の関数値）に基づいてパラメータ群を更新するための更新処理とが繰り返される。この学習処理には様々な公知の手法を利用でき、例えば誤差逆伝搬法などを利用できる。出力部１１３は学習部１１２から出力された最適化パラメータ群θを出力する。最適化パラメータ群θは識別装置１２に入力され、これによってＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）が規定される。すなわち、タスク間共有型変換部１２３－ｎで使用されるタスク間共有型変換関数α（ｎ）がパラメータθ^ｎ _ＩＮによって定められ（式（１））、言語間共有型変換部１２４－ｍで使用される言語間共有型変換関数β（ｍ）がパラメータθ^ｍ _ＯＵＴによって定められる（式（２））。

　＜識別処理＞
　図４を用い、識別装置１２による識別処理を説明する。
　まず或る言語ｎ∈｛１，…，Ｎ｝の入力テキストｗ^ｎが入力部１２１に入力される。入力テキストｗ^ｎは、学習データＤに含まれたものであってもよいし、学習データＤに含まれないものであってもよい（ステップＳ１２１）。入力テキストｗ^ｎは選択部１２２に送られ、選択部１２２は入力テキストｗ^ｎを言語ｎに対応するタスク間共有型変換部１２３－ｎに送る（ステップＳ１２２）。タスク間共有型変換部１２３－ｎは、入力テキストｗ^ｎにタスク間共有型変換関数α（ｎ）を適用し、入力テキストｗ^ｎの内容に対応するが言語ｎに依存しない潜在ベクトルｈを得（式（１）の演算を行ってｈを得）、当該潜在ベクトルｈをＭ個の言語間共有型変換部１２４－１，…，１２４－Ｍに対して出力する（ステップＳ１２３－ｎ）。Ｍ個の言語間共有型変換部１２４－１，…，１２４－Ｍには当該潜在ベクトルｈが入力される。各言語間共有型変換部１２４－ｍ（ただし、ｍ∈｛１，…，Ｍ｝）は、タスク間共有型変換部１２３－ｎ（Ｎ個のタスク間共有型変換部１２３－１，…，１２３－Ｎの何れか）から出力された潜在ベクトルｈに言語間共有型変換関数β（ｍ）を適用して、タスクｍについて潜在ベクトルｈに対応する出力ラベルＬ＾^ｍを得（式（２）の演算を行って出力ラベルＬ＾^ｍを得）、当該出力ラベルＬ＾^ｍを出力する。これにより、識別装置１２からＭ個の出力ラベルＬ＾^１，…，Ｌ＾^Ｍが出力される（ステップＳ１２５）。

　［変形例等］
　なお、本発明は上述の実施形態に限定されない。例えば、上述の実施形態では学習装置１１と識別装置１２とが互いに別の装置であったが、これらの装置が一体であってもよい。また上述の実施形態では学習装置１１の記憶部１１１に格納された学習データを用いて機械学習が行われたが、学習装置１１がその外部の記憶部に格納された学習データを用いて機械学習を行ってもよい。あるいは、学習装置１１の記憶部１１１の学習データが更新され、学習装置１１が更新後の学習データを用いて機械学習を行ってもよい。また、ステップＳ１２５ではＭ個の出力ラベルＬ＾^１，…，Ｌ＾^Ｍが識別装置１２から出力されたが、出力ラベルＬ＾^１，…，Ｌ＾^Ｍのうち選択されたタスクｍに対応する出力ラベルのみが出力されてもよい。出力ラベルＬ＾^１，…，Ｌ＾^Ｍのうち選択されたタスクｍに対応する出力ラベルのみが出力される場合、選択されていないタスクに対応する言語間共有型変換部１２４－ｍの処理が省略されてもよい。

　上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

　上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

　コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

　本発明は、例えば、対話システム等に利用できる。

１　識別システム
１１　学習装置
１１２　学習部
１２　識別装置
１２３－ｎ　タスク間共有型変換部
１２４－ｍ　言語間共有型変換部

Claims

　Ｎ種類の言語ｎ＝１，…，ＮにおけるＭ種類のタスクｍ＝１，…，Ｍについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）および前記Ｍ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を規定する最適化パラメータ群を得て出力する学習部を有し、
　ＮおよびＭの少なくとも一方が２以上の整数であり、
　前記タスク間共有型変換関数α（ｎ）のそれぞれは、或る言語ｎの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語ｎに依存しない潜在ベクトルを、Ｍ個の前記言語間共有型変換関数β（１），…，β（Ｍ）に対して出力するものであり、
　前記言語間共有型変換関数β（ｍ）のそれぞれは、Ｎ個の前記タスク間共有型変換関数α（１），…，α（Ｎ）の何れかから出力された前記潜在ベクトルを入力とし、或るタスクｍについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習装置。
　請求項１の学習装置であって、
　前記学習部は、パラメータ群によって規定されるＮ個の前記タスク間共有型変換関数α（１），…，α（Ｎ）およびＭ個の前記言語間共有型変換関数β（１），…，β（Ｍ）を含むテキストラベル識別器に対し、前記学習データに含まれた前記テキストを前記入力テキストとして入力した際に、前記入力テキストとして入力された前記テキストの正解ラベルが出力される確率を最大化する前記パラメータ群を前記最適化パラメータ群として得て出力する、学習装置。
　請求項１または２の学習装置であって、
　前記学習部は、前記最適化パラメータ群として

を得て出力するものであり、
　ａｒｇｍａｘ_θγはγを最大にするパラメータ群θを表し、Ｄ＝｛Ｄ（１，１），…，Ｄ（Ｎ，Ｍ）｝は前記学習データを表し、Ｄ（ｎ，ｍ）は言語ｎにおけるタスクｍの学習データを表し、｜Ｄ（ｎ，ｍ）｜はＤ（ｎ，ｍ）に含まれる前記テキストの個数を表し、ｗは前記テキストを表し、Ｌは前記正解ラベルを表し、Ｌがｗの正解ラベルである場合にＰ＾（Ｌ｜ｗ）＝１であり、Ｌがｗの正解ラベルでない場合にＰ＾（Ｌ｜ｗ）＝０であり、Ｐ＾（Ｌ｜ｗ）が

であり、Ｐ（Ｌ｜ｗ，θ）は、前記パラメータ群θによって規定されるＮ個の前記タスク間共有型変換関数α（１），…，α（Ｎ）およびＭ個の前記言語間共有型変換関数β（１），…，β（Ｍ）を含むテキストラベル識別器に対し、前記入力テキストとしてｗを入力した際に前記出力ラベルとしてＬが出力される予測確率値を表す、学習装置。
　Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換部Ａ（ｎ）と、
　Ｍ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換部Ｂ（ｍ）と、
を有し、
　ＮおよびＭの少なくとも一方が２以上の整数であり、
　Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）が規定されており、
　前記タスク間共有型変換部Ａ（ｎ）のそれぞれは、或る言語ｎの入力テキストに前記タスク間共有型変換関数α（ｎ）を適用し、前記入力テキストの内容に対応するが前記言語ｎに依存しない潜在ベクトルを、Ｍ個の前記言語間共有型変換部Ｂ（１），…，Ｂ（Ｍ）に対して出力するものであり、
　前記言語間共有型変換部Ｂ（ｍ）のそれぞれは、Ｎ個の前記タスク間共有型変換部Ａ（１），…，Ａ（Ｎ）の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β（ｍ）を適用し、或るタスクｍについて前記潜在ベクトルに対応する出力ラベルを出力するものである、識別装置。
　学習装置の学習方法であって、
　Ｎ種類の言語ｎ＝１，…，ＮにおけるＭ種類のタスクｍ＝１，…，Ｍについてのテキストと前記テキストの正解ラベルとの組を含む学習データを入力とし、学習処理によって、前記Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）および前記Ｍ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）を規定する最適化パラメータ群を得て出力する学習ステップを有し、
　ＮおよびＭの少なくとも一方が２以上の整数であり、
　前記タスク間共有型変換関数α（ｎ）のそれぞれは、或る言語ｎの入力テキストを入力とし、前記入力テキストの内容に対応するが前記言語ｎに依存しない潜在ベクトルを、Ｍ個の前記言語間共有型変換関数β（１），…，β（Ｍ）に対して出力するものであり、
　前記言語間共有型変換関数β（ｍ）のそれぞれは、Ｎ個の前記タスク間共有型変換関数α（１），…，α（Ｎ）の何れかから出力された前記潜在ベクトルを入力とし、或るタスクｍについて前記潜在ベクトルに対応する出力ラベルを出力するものである、学習方法。
　請求項５の学習方法であって、
　前記学習ステップは、前記最適化パラメータ群として

を得て出力するものであり、
　ａｒｇｍａｘ_θγはγを最大にするパラメータ群θを表し、Ｄ＝｛Ｄ（１，１），…，Ｄ（Ｎ，Ｍ）｝は前記学習データを表し、Ｄ（ｎ，ｍ）は言語ｎにおけるタスクｍの学習データを表し、｜Ｄ（ｎ，ｍ）｜はＤ（ｎ，ｍ）に含まれる前記テキストの個数を表し、ｗは前記テキストを表し、Ｌは前記正解ラベルを表し、Ｌがｗの正解ラベルである場合にＰ＾（Ｌ｜ｗ）＝１であり、Ｌがｗの正解ラベルでない場合にＰ＾（Ｌ｜ｗ）＝０であり、Ｐ＾（Ｌ｜ｗ）が

であり、Ｐ（Ｌ｜ｗ，θ）は、前記パラメータ群θによって規定される前記タスク間共有型変換関数α（ｎ）および前記言語間共有型変換関数β（ｍ）を含むテキストラベル識別器に対し、前記入力テキストとしてｗを入力した際に前記出力ラベルとしてＬが出力される予測確率値を表す、学習方法。
　識別装置の識別方法であって、
　ＮおよびＭの少なくとも一方が２以上の整数であり、Ｎ種類の言語ｎ＝１，…，Ｎに対応するＮ個のタスク間共有型変換関数α（１），…，α（Ｎ）およびＭ種類のタスクｍ＝１，…，Ｍに対応するＭ個の言語間共有型変換関数β（１），…，β（Ｍ）が規定されており、
　タスク間共有型変換部Ａ（ｎ）において、或る言語ｎの入力テキストに前記タスク間共有型変換関数α（ｎ）を適用し、前記入力テキストの内容に対応するが前記言語ｎに依存しない潜在ベクトルをＭ個の言語間共有型変換部Ｂ（１），…，Ｂ（Ｍ）に対して出力するタスク間共有型変換ステップと、
　言語間共有型変換部Ｂ（ｍ）において、Ｎ個のタスク間共有型変換部Ａ（１），…，Ａ（Ｎ）の何れかから出力された前記潜在ベクトルに前記言語間共有型変換関数β（ｍ）を適用し、或るタスクｍについて前記潜在ベクトルに対応する出力ラベルを出力する言語間共有型変換ステップと、
を有する識別方法。
　請求項１から３の何れかの学習装置または請求項４の識別装置としてコンピュータを機能させるためのプログラム。