JPWO2019208222A1 - 回答選択装置、回答選択方法、回答選択プログラム - Google Patents
回答選択装置、回答選択方法、回答選択プログラム Download PDFInfo
- Publication number
- JPWO2019208222A1 JPWO2019208222A1 JP2020516203A JP2020516203A JPWO2019208222A1 JP WO2019208222 A1 JPWO2019208222 A1 JP WO2019208222A1 JP 2020516203 A JP2020516203 A JP 2020516203A JP 2020516203 A JP2020516203 A JP 2020516203A JP WO2019208222 A1 JPWO2019208222 A1 JP WO2019208222A1
- Authority
- JP
- Japan
- Prior art keywords
- question
- unit
- pair
- search result
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
1.0-(r−1)/max_rank (1)
ただし、max_rankは検索結果質問応答ペアの数
のように検索方式に基づく適切さを示す数値を求めればよい。max_rankは文書検索部110が検索し得る最大の数Nとしてもよい。例えば、max_rank=10でr=5の場合、検索方式に基づく適切さを示す数値は、0.6となる。以下では、検索方式に基づく適切さを示す数値を、検索スコア(search_score)とする。
質問タイプ推定部120は、入力質問の質問タイプおよび検索結果質問応答ペアの質問タイプを特定する情報を推定する(S120)。この場合、スコア算出部160は、入力質問の質問タイプと検索結果質問応答ペアの質問タイプを特定する情報に基づいて、質問タイプが一致するほど、より適切であることを示すようにスコアを算出する(S160)。質問タイプを特定する情報とは、質問タイプ自体でもよいし、応答に含まれる拡張固有表現のタイプなどでもよい。
・ 詳細質問タイプ(一階層目): Location
・ 詳細質問タイプ(二階層目): Spa
・ 詳細質問タイプ(三階層目): Spa
二階層目・三階層目がともにSpaとなっているのは、Spaについては二階層目・三階層目がともにSpaであるためである。
焦点抽出部130は、入力質問および検索結果質問応答ペアの質問について、話題となる単語列を焦点語として抽出する(S130)。この場合、スコア算出部160は、入力質問の焦点語と検索結果質問応答ペアの質問の焦点語が一致するほど、より適切であることを示すようにスコアを算出する(S160)。焦点語とは、発話文の話題を表す単語列(基本的に名詞句)のことである。例えば、「先日イギリスに行きました。」という文であれば、「イギリス」が焦点語である。焦点語を抽出するには、機械学習による系列ラベリングの手法を用いればよい。具体的には、大量の文について、焦点語となる単語列をラベル付けし、どのような単語列の場合にその単語列が焦点語となるかの条件を学習すればよい。例えば、条件付き確率場(conditional random fields; CRF)と呼ばれる機械学習の手法を用いて、焦点箇所がラベル付けされたデータから焦点抽出を行う焦点抽出器を構築すればよい。文章中の重要な箇所にラベル付けを行い、系列ラベリングの手法により、未知の文章における重要な箇所をCRFによって抽出することは、言語処理において一般的に用いられている技術である。焦点抽出部130では、この焦点抽出器を用いて、質問から焦点語を抽出し、これらを出力する。なお、焦点語は複数出力される場合もあるし、焦点語が含まれない場合は、出力は空リストとなる。例えば、「今は一人暮らしですか?」という質問であれば、「一人暮らし」が出力となる。
翻訳モデル適用部140は、入力質問および検索結果質問応答ペアの応答を入力とし、入力質問から応答が得られる確率に基づく数値を翻訳尤度として出力する(S140)。この場合、スコア算出部160は、翻訳尤度が高いほど、より適切であることを示すように前記スコアを算出する(S160)。また、翻訳モデル適用部140は、さらに、応答から入力質問が得られる確率に基づく数値を逆翻訳尤度として出力してもよい(S140)。この場合、スコア算出部160は、逆翻訳尤度が高いほど、より適切であることを示すようにスコアを算出する(S160)。
発話ベクトル抽出部150は、入力質問および検索結果質問応答ペアの質問について、意味内容を表す発話ベクトルを求める(S150)。この場合は、スコア算出部160は、入力質問の発話ベクトルと検索結果質問応答ペアの質問の発話ベクトルが類似するほど、より適切であることを示すようにスコアを算出する(S160)。
=w1・search_score
+w2・qtypes_match_score
+w3・center-word_score
+w4・translation_score
+w5・rev_translation_score
+w6・semantic_similarity_score (2)
ただし、w1,…,w6は、どの数値を重視するかを決める重みである。すべて1.0のように設定してもよいし、想定される入力質問や記録部190に記録されている質問応答ペアに応じて最適な性能が出るようにチューニングしてもよい。なお、情報取得部121が、質問タイプ推定部120、焦点抽出部130、翻訳モデル適用部140、発話ベクトル抽出部150の中の一部しか備えていない場合は、存在しない数値化用情報に基づく数値は式(2)に含めなければよい。スコア算出部160は、検索結果質問応答ペアについて上記スコアを付与したものを出力する。ランキング部170には、上記スコアが付与された検索結果質問応答ペアが入力される。
なお、回答選択装置100は1つの筐体で構成する必要はなく、各構成部が通信回線で接続された別々の筐体に配置され、1つの装置のように動作する構成としてもよい。例えば、クライアント装置からの要求に応じて、サーバ装置がランキング結果を返す構成となるように、各構成部がサーバ装置とクライアント装置に分れて配置されていてもよい。
実施例1では、質問応答ペアを記録しているのは記録部190だけだったが、実施例2の回答選択装置200は、記録部190に加え、拡張記録部290も備える。なお、本実施例の中では、記録部190を基本記録部190と呼ぶこともある。拡張記録部290には、後述する「拡張なりきり発話組生成装置及び方法」によって生成された質問応答ペアが記録されている。
(例1)スコア算出部260で求める6つのスコアのうち、検索スコアは、記録部190に記録されていたN1個の検索結果質問応答ペアをランキングした逆数、及び、拡張記録部290に記録されていたN2個の検索結果質問応答ペアをランキングした逆数をそれぞれ用いる。つまり、検索スコアは、記録部ごとに独立に求める。翻訳スコアと逆翻訳スコアは、どちらの記録部から選ばれているか区別せずに、N個をまとめてランキングした逆数を用いる。
(例2)拡張記録部290からの検索結果質問応答ペアの翻訳尤度(翻訳スコア)と逆翻訳尤度(逆翻訳スコア)を定数倍(例えば0.8倍)する。
(例3)質問応答の教師データとなるような特定のデータセットに対して、スコア算出部260で求める6つのスコアのグリッドサーチ(例えば、0.1〜1.0まで0.1刻みの10段階)+(記録部190からの検索結果質問応答ペアであるか、拡張記録部290からの検索結果質問応答ペアであるか)の組み合わせ、に対して適宜重みを決定してもよい。
まず、拡張なりきり発話組生成装置及び方法の一般的な例について説明する。拡張なりきり発話組生成装置は、図3に示すように、第一記録部1、第二記録部2、なりきり発話組選択部3、拡張なりきり発話組生成部4及び記録部5を例えば備えている。
第一記録部1には、I個のなりきり発話組i=(ti(1),ti(2))(i=1,…,I)が記録されている。
第二記録部2には、J個の非なりきり発話組j=(t'j(1),t'j(2))(j=1,…,J)が記録されている。
非なりきり発話組選択部3には、第一記録部1から読み込まれたなりきり発話組iの第二発話ti(2)と、第二記録部2から読み込まれた非なりきり発話組jとが入力される。
↓“m”を削除
“ice crea”
↓“a”を削除
“ice cre”
↓“e”を削除
“ice cr"
↓“r”を削除
“ice c”
↓“c”を削除
“ice ”
↓“e”の後ろの空白を削除
“ice”
↓“d”を1文字目前に挿入
“dice”
↓“r”を2文字目前に挿入
“drice”
↓“y”を3文字目前に挿入
“dryice”
↓空白を4文字目前に挿入
“dry ice”
「食えれば何でもよいわ!」という文字列は、8文字目の「よ」の削除、8文字目前に「い」の挿入という2回の操作により、又は、8文字目の「よ」を「い」にする置換という1回の操作により、「食えれば何でもいいわ!」という文字列にすることができる。このため、「食えれば何でもよいわ!」という文字列と「食えれば何でもいいわ!」という文字列のレーベンシュタイン距離は、2となる。また、「食えれば何でもいいわ!」という文字列の文字数及び「食えれば何でもよいわ!」という文字列の文字数は、11である。このため、「食えれば何でもよいわ!」という文字列と「食えれば何でもいいわ!」という文字列の正規化レーベンシュタイン距離は2/11≒0.18となる。0.18<0.2であるため、非なりきり発話組選択部3は、第二発話ti(2)=「食えれば何でもよいわ!」との正規化レーベンシュタイン距離が、所定の基準値0.2よりも小さい第二発話t'j(2)に対応する非なりきり発話組jとして、(t'j(1),t'j(2))=(「今日の晩御飯何がいい?」,「食えれば何でもいいわ!」)という非なりきり発話組jを選択する。
次に、英語の場合について説明する。
「I'd eat anything as long as it's edible !」という文字列は、3文字目の「d」の削除、3文字目前に「l」の挿入、3文字目前に「l」の挿入という3回の操作により、「I'll eat anything as long as it's edible !」という文字列にすることができる。このため、「I'd eat anything as long as it's edible !」という文字列と「I'll eat anything as long as it's edible !」という文字列のレーベンシュタイン距離は、3となる。また、「I'll eat anything as long as it's edible !」という文字列の文字数は42であり、「I'd eat anything as long as it's edible !」という文字列の文字数は、41である。このため、「I'd eat anything as long as it's edible !」という文字列と「I'll eat anything as long as it's edible !」という文字列の正規化レーベンシュタイン距離は3/42≒0.071となる。0.071<0.2であるため、非なりきり発話組選択部3は、第二発話ti(2)=「I'd eat anything as long as it's edible !」との正規化レーベンシュタイン距離が、所定の基準値0.2よりも小さい第二発話t'j(2)に対応する非なりきり発話組jとして、(t'j(1),t'j(2))=(「今日の晩御飯何がいい?」,「I'll eat anything as long as it's edible !」)という非なりきり発話組jを選択する。
拡張なりきり発話組生成部4には、非なりきり発話組選択部3で選択された1個以上の非なりきり発話組が入力される。
[変形例1]
拡張なりきり発話組生成部4は、第一記録部1に記録されている第二発話ti(2)の中で同一の第二発話ti(2)の数が多いほど、その同一の第二発話ti(2)を含む拡張なりきり発話組に大きな重みを付与する重み付与部41を備えていてもよい。
拡張なりきり発話組生成部4は、拡張なりきり発話組生成部4により生成される拡張なりきり発話組の中の同一の拡張なりきり発話組の数が多いほど、その同一の拡張なりきり発話組に大きな重みを付与する重み付与部41を備えていてもよい。
変形例1及び2を組み合わせてもよい。
上述の説明では、拡張なりきり発話組生成装置及び方法の一般的な例について説明した。ここでは、どのように回答選択装置200の拡張記録部290が記録する質問応答ペアを生成するのかを説明する。なお、記録部190に記録されている質問応答ペアが上述の第一記録部1が記録している「なりきり発話組」、拡張記録部290に記録されている質問応答ペアが上述の記録部5に記録される「拡張なりきり発話組」に相当する。記録部190に記録されている質問応答ペアを、第一記録部1に記録させる(記録部190を第一記録部1としてもよい。)。そして、第二記録部2にはあらかじめ収集した質問応答ペアを記録させておく。例えばTwitter(登録商標)等の対話のやり取りがテキストで表されているwebサイトから質問応答ペアの情報を収集し、第二記録部2に記録させればよい。
なお、回答選択装置200は1つの筐体で構成する必要はなく、各構成部が通信回線で接続された別々の筐体に配置され、1つの装置のように動作する構成としてもよい。例えば、拡張記録部290は、記録部190及び文書検索部210とは異なる筐体に備えられ、通信回線などで繋がった構成でもよい。
図7に実施例3の回答選択装置の機能構成例を示す。図8に実施例3の回答選択装置の処理フロー例を示す。実施例3の回答選択装置300は、入力された質問である入力質問に対して、あらかじめ定めたキャラクタらしい1つまたは複数の回答を出力する。例えば、M個の回答を出力するようにあらかじめ定めておけばよい。Mは1以上の整数である。例えばM=5のように定めてもよいし、チャットボットのように回答を1つだけにしたい場合はM=1とすればよい。回答選択装置300は、記録部390、文書検索部310、情報取得部121、スコア算出部160、ランキング部170を備える。
1.0-(r−1)/max_rank (3)
ただし、max_rankは検索結果質問応答ペアの数
のように求めることで、0〜1の間の値を求めてもよい。max_rankは文書検索部310が検索し得る最大の数Nとしてもよい。例えば、max_rank=10でr=5の場合、翻訳尤度に基づく数値である翻訳スコア(translation_score)は、0.6となる。翻訳モデル適用部140は、同様に逆翻訳尤度に基づく数値である逆翻訳スコア(rev_translation_score)ついても、逆翻訳尤度(逆翻訳スコア)が大きいもの順にソートし、式(3)を適用することで求めればよい。そして、入力質問Q、検索結果質問応答ペアの質問Q’、応答A’とするときに、スコアscore(Q,(Q’,A’))を例えば以下のように求めればよい。
score(Q,(Q’,A’))
=w1・translation_score
+w2・rev_translation_score (4)
ただし、w1w2は、どちらの数値を重視するかを決める重みである。どちらも1.0としてもよいし、翻訳モデルと逆翻訳モデルの特性を考慮してチューニングしてもよい。スコアscore(Q,(Q’,A’))がスコア算出部160の出力となる。
図9に実施例3のモデル学習装置に機能構成例を示す。図10に実施例3のモデル学習装置の処理フロー例を示す。実施例3のモデル学習装置400は、質問から応答を求めるための学習済みの翻訳モデル、応答から質問を求めるための学習済み逆翻訳モデルの少なくとも一方を生成する。モデル学習装置400は、記録部490、質問応答ペア拡張部420、翻訳モデル学習部440を備える。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
3 なりきり発話組選択部 4 拡張なりきり発話組生成部
41 重み付与部
100,200,300 回答選択装置
110,210,310 文書検索部
120 質問タイプ推定部 121 情報取得部
130 焦点抽出部 140 翻訳モデル適用部
150 発話ベクトル抽出部
160,260 スコア算出部
170 ランキング部
5,190,390 記録部
290 拡張記録部
400 モデル学習装置
410 質問応答ペアの集合 420 質問応答ペア拡張部
430 拡張質問応答ペアの集合 440 翻訳モデル学習部
461 翻訳モデル 462 逆翻訳モデル
まず、拡張なりきり発話組生成装置及び方法の一般的な例について説明する。拡張なりきり発話組生成装置は、図3に示すように、第一記録部1、第二記録部2、非なりきり発話組選択部3、拡張なりきり発話組生成部4及び記録部5を例えば備えている。
3 非なりきり発話組選択部 4 拡張なりきり発話組生成部
41 重み付与部
100,200,300 回答選択装置
110,210,310 文書検索部
120 質問タイプ推定部 121 情報取得部
130 焦点抽出部 140 翻訳モデル適用部
150 発話ベクトル抽出部
160,260 スコア算出部
170 ランキング部
5,190,390 記録部
290 拡張記録部
400 モデル学習装置
410 質問応答ペアの集合 420 質問応答ペア拡張部
430 拡張質問応答ペアの集合 440 翻訳モデル学習部
461 翻訳モデル 462 逆翻訳モデル
Claims (21)
- 入力された質問である入力質問に対する1つまたは複数の回答を出力する回答選択装置であって、
質問と応答のペアである質問応答ペアを複数記録した記録部と、
前記入力質問を入力とし、あらかじめ定めた検索方式で、前記記録部に記録された質問応答ペアから質問応答ペアを検索し、検索結果質問応答ペアとして出力する文書検索部と、
前記入力質問と前記検索結果質問応答ペアを入力とし、前記入力質問に対する前記検索結果質問応答ペアの適切さを数値化するための情報を取得し、数値化用情報として出力する情報取得部と、
前記検索方式に基づく適切さを示す数値と前記数値化用情報に基づく数値から、前記検索結果質問応答ペアごとの前記入力質問に対するスコアを算出するスコア算出部と、
前記スコアがより適切であることを示す順番に、あらかじめ定めた数の前記検索結果質問応答ペアを選択し、選択された検索結果質問応答ペアの応答を、回答として出力するランキング部と
を備える回答選択装置。 - 請求項1記載の回答選択装置であって、
前記情報取得部は、前記入力質問の質問タイプおよび前記検索結果質問応答ペアの質問タイプを特定する情報を推定する質問タイプ推定部を有し、
前記スコア算出部は、前記入力質問の質問タイプと前記検索結果質問応答ペアの質問タイプを特定する情報に基づいて、質問タイプが一致するほど、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項1または2に記載の回答選択装置であって、
前記情報取得部は、前記入力質問および前記検索結果質問応答ペアの質問について、話題となる単語列を焦点語として抽出する焦点抽出部を有し、
前記スコア算出部は、前記入力質問の焦点語と前記検索結果質問応答ペアの質問の焦点語が一致するほど、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項1〜3のいずれかに記載の回答選択装置であって、
前記情報取得部は、前記入力質問および前記検索結果質問応答ペアの応答を入力とし、前記入力質問から前記応答が得られる確率に基づく数値を翻訳尤度として出力する翻訳モデル適用部を有し、
前記スコア算出部は、前記翻訳尤度が高いほど、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項4記載の回答選択装置であって、
前記翻訳モデル適用部は、さらに、前記応答から前記入力質問が得られる確率に基づく数値を逆翻訳尤度として出力し、
前記スコア算出部は、前記逆翻訳尤度が高いほど、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項1〜5のいずれかに記載の回答選択装置であって、
前記情報取得部は、前記入力質問および前記検索結果質問応答ペアの質問について、意味内容を表す発話ベクトルを求める発話ベクトル抽出部を有し、
前記スコア算出部は、前記入力質問の発話ベクトルと前記検索結果質問応答ペアの質問の発話ベクトルが類似するほど、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項1記載の回答選択装置であって、
質問と所定の人格になりきった応答のペアを質問応答ペアとして複数記録した拡張記録部も備え、
前記文書検索部は、前記拡張記録部に記録された質問応答ペアからも質問応答ペアを検索し、検索結果質問応答ペアとして出力する
ことを特徴とする回答選択装置。 - 請求項4記載の回答選択装置であって、
質問と所定の人格になりきった応答のペアを質問応答ペアとして複数記録した拡張記録部も備え、
前記文書検索部は、前記拡張記録部に記録された質問応答ペアからも質問応答ペアを検索し、検索結果質問応答ペアとして出力し、
前記スコア算出部は、前記記録部に記録されていた検索結果質問応答ペアの方が、前記拡張記録部に記録されていた検索結果質問応答ペアよりも、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項5記載の回答選択装置であって、
質問と所定の人格になりきった応答のペアを質問応答ペアとして複数記録した拡張記録部も備え、
前記文書検索部は、前記拡張記録部に記録された質問応答ペアからも質問応答ペアを検索し、検索結果質問応答ペアとして出力し、
前記スコア算出部は、前記記録部に記録されていた検索結果質問応答ペアの方が、前記拡張記録部に記録されていた検索結果質問応答ペアよりも、より適切であることを示すように前記スコアを算出する
ことを特徴とする回答選択装置。 - 請求項7〜9のいずれかに記載の回答選択装置であって、
第二記録部に、あらかじめ収集した質問応答ペアを記録させておき、
前記記録部から応答を読み込み、読み込まれた応答と同一又は類似の応答を含む質問応答ペアを第二記録部2から選択し、
前記の選択された質問応答ペアの質問と前記読み込まれた応答とからなる質問応答ペアを生成し、
前記の生成した質問応答ペアを、前記拡張記録部が記録した質問応答ペアとする
ことを特徴とする回答選択装置。 - 請求項10記載の回答選択装置であって、
前記読み込まれた応答と前記の選択された質問応答ペアの応答とは、所定の基準を超える類似度である
ことを特徴とする回答選択装置。 - 請求項10または11記載の回答選択装置であって、
前記記録部に記録されている応答に同一の応答が多いほど、その応答を含む前記の生成した質問応答ペアは、大きな重みが付与されて前記拡張記録部に記録される
ことを特徴とする回答選択装置。 - 請求項10〜12のいずれかに記載の回答選択装置であって、
前記拡張記録部に記録される同一の質問応答ペアが多いほど、その質問応答ペアは、大きな重みが付与されて前記拡張記録部に記録される
ことを特徴とする回答選択装置。 - 請求項1記載の回答選択装置であって、
前記記録部は、質問から応答を求めるための学習済みの翻訳モデルも記録しており、
前記情報取得部は、前記翻訳モデルを用いて前記入力質問から前記応答が得られる確率に基づく数値である翻訳尤度を求め、
前記スコア算出部は、前記翻訳尤度に基づいて前記検索結果質問応答ペアごとの前記入力質問に対するスコアを算出し、
前記翻訳モデルは、応答のキャラクタらしさの程度を示す指標を対応付けた質問と応答のペアを用いて、前記指標が示す程度に従って学習されたものである
ことを特徴とする回答選択装置。 - 請求項14記載の回答選択装置であって、
前記記録部は、応答から質問を求めるための学習済みの逆翻訳モデルも記録しており、
前記情報取得部は、前記逆翻訳モデルを用いて前記応答から前記入力質問が得られる確率に基づく数値である逆翻訳尤度も求め、
前記スコア算出部は、前記翻訳尤度と前記逆翻訳尤度に基づいて前記検索結果質問応答ペアごとの前記入力質問に対するスコアを算出し、
前記逆翻訳モデルも、応答の前記キャラクタらしさの程度を示す指標を対応付けた質問と応答のペアを用いて、前記指標が示す程度に従って学習された
ことを特徴とする回答選択装置。 - 請求項14または15記載の回答選択装置であって、
前記記録部は、前記質問応答ペアごとに応答の前記キャラクタらしさの程度を示す指標を対応付けて記録しており、
前記文書検索部は、前記指標も用いて、前記記録部に記録された質問応答ペアから質問応答ペアを検索する
ことを特徴とする回答選択装置。 - 請求項14〜16のいずれかに記載の回答選択装置であって、
前記キャラクタらしさの程度を示す指標は、前記キャラクタ本人以外の人によって評価された第1指標、前記キャラクタ本人が回答した応答であることを示す第2指標、前記キャラクタ本人が前記キャラクタらしいと認定したことを示す第3指標を含む
ことを特徴とする回答選択装置。 - 記録部、文書検索部、情報取得部、スコア算出部、ランキング部を備える回答選択装置を用いて、入力された質問である入力質問に対する1つまたは複数の回答を出力する回答選択方法であって、
あらかじめ前記記録部に、質問と応答のペアである質問応答ペアを複数記録しておき、
前記文書検索部が、前記入力質問を入力とし、あらかじめ定めた検索方式で、前記記録部に記録された質問応答ペアから質問応答ペアを検索し、検索結果質問応答ペアとして出力する文書検索ステップと、
前記情報取得部が、前記入力質問と前記検索結果質問応答ペアを入力とし、前記入力質問に対する前記検索結果質問応答ペアの適切さを数値化するための情報を取得し、数値化用情報として出力する情報取得ステップと、
前記スコア算出部が、前記検索方式に基づく適切さを示す数値と前記数値化用情報に基づく数値から、前記検索結果質問応答ペアごとの前記入力質問に対するスコアを算出するスコア算出ステップと
前記ランキング部が、前記スコアがより適切であることを示す順番に、あらかじめ定めた数の前記検索結果質問応答ペアを選択し、選択された検索結果質問応答ペアの応答を、回答として出力するランキングステップと
を実行する回答選択方法。 - 請求項18記載の回答選択方法であって、
前記回答選択装置は、質問と所定の人格になりきった応答のペアを質問応答ペアとして複数記録した拡張記録部も備え、
前記文書検索ステップでは、前記拡張記録部に記録された質問応答ペアからも質問応答ペアを検索し、検索結果質問応答ペアとして出力する
ことを特徴とする回答選択方法。 - 請求項18記載の回答選択方法であって、
前記記録部は、質問から応答を求めるための学習済みの翻訳モデルも記録しており、
前記情報取得ステップは、前記翻訳モデルを用いて前記入力質問から前記応答が得られる確率に基づく数値である翻訳尤度を求め、
前記スコア算出ステップは、前記翻訳尤度に基づいて前記検索結果質問応答ペアごとの前記入力質問に対するスコアを算出し、
前記翻訳モデルは、応答の前記キャラクタらしさの程度を示す指標を対応付けた質問と応答のペアを用いて、前記指標が示す程度に従って学習されたものである
ことを特徴とする回答選択方法。 - 請求項1〜17のいずれかに記載の回答選択装置としてコンピュータを動作させるための回答選択プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018086369 | 2018-04-27 | ||
JP2018086369 | 2018-04-27 | ||
PCT/JP2019/015624 WO2019208222A1 (ja) | 2018-04-27 | 2019-04-10 | 回答選択装置、回答選択方法、回答選択プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019208222A1 true JPWO2019208222A1 (ja) | 2021-05-13 |
JP7111154B2 JP7111154B2 (ja) | 2022-08-02 |
Family
ID=68295369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020516203A Active JP7111154B2 (ja) | 2018-04-27 | 2019-04-10 | 回答選択装置、回答選択方法、回答選択プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210117458A1 (ja) |
JP (1) | JP7111154B2 (ja) |
WO (1) | WO2019208222A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11508357B2 (en) * | 2018-04-25 | 2022-11-22 | Nippon Telegraph And Telephone Corporation | Extended impersonated utterance set generation apparatus, dialogue apparatus, method thereof, and program |
JP2020190970A (ja) * | 2019-05-23 | 2020-11-26 | 株式会社日立製作所 | 文書処理装置およびその方法、プログラム |
US11429789B2 (en) * | 2019-06-12 | 2022-08-30 | International Business Machines Corporation | Natural language processing and candidate response identification |
US11710480B2 (en) * | 2019-08-07 | 2023-07-25 | International Business Machines Corporation | Phonetic comparison for virtual assistants |
US11132512B2 (en) * | 2019-11-08 | 2021-09-28 | International Business Machines Corporation | Multi-perspective, multi-task neural network model for matching text to program code |
US11314950B2 (en) * | 2020-03-25 | 2022-04-26 | International Business Machines Corporation | Text style transfer using reinforcement learning |
CN111428514A (zh) * | 2020-06-12 | 2020-07-17 | 北京百度网讯科技有限公司 | 语义匹配方法、装置、设备以及存储介质 |
CN113282733B (zh) * | 2021-06-11 | 2024-04-09 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265400A (ja) * | 1998-03-13 | 1999-09-28 | Omron Corp | 情報処理装置および方法、ネットワークシステム、並びに記録媒体 |
WO2007099812A1 (ja) * | 2006-03-01 | 2007-09-07 | Nec Corporation | 質問回答装置、質問回答方法および質問回答用プログラム |
JP2011018327A (ja) * | 2009-07-08 | 2011-01-27 | Honda Motor Co Ltd | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
JP2015109068A (ja) * | 2013-12-05 | 2015-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 |
WO2017191696A1 (ja) * | 2016-05-06 | 2017-11-09 | ソニー株式会社 | 情報処理システム、および情報処理方法 |
JP2018055548A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Nextremer | 対話装置、学習装置、対話方法、学習方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2839391A4 (en) * | 2012-04-20 | 2016-01-27 | Maluuba Inc | CONVERSATION AGENT |
CN104216913B (zh) * | 2013-06-04 | 2019-01-04 | Sap欧洲公司 | 问题回答方法、系统和计算机可读介质 |
US20150186528A1 (en) * | 2013-12-26 | 2015-07-02 | Iac Search & Media, Inc. | Request type detection for answer mode selection in an online system of a question and answer search engine |
US10509860B2 (en) * | 2016-02-10 | 2019-12-17 | Weber State University Research Foundation | Electronic message information retrieval system |
-
2019
- 2019-04-10 WO PCT/JP2019/015624 patent/WO2019208222A1/ja active Application Filing
- 2019-04-10 JP JP2020516203A patent/JP7111154B2/ja active Active
- 2019-04-10 US US17/050,330 patent/US20210117458A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265400A (ja) * | 1998-03-13 | 1999-09-28 | Omron Corp | 情報処理装置および方法、ネットワークシステム、並びに記録媒体 |
WO2007099812A1 (ja) * | 2006-03-01 | 2007-09-07 | Nec Corporation | 質問回答装置、質問回答方法および質問回答用プログラム |
JP2011018327A (ja) * | 2009-07-08 | 2011-01-27 | Honda Motor Co Ltd | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
JP2015109068A (ja) * | 2013-12-05 | 2015-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 |
WO2017191696A1 (ja) * | 2016-05-06 | 2017-11-09 | ソニー株式会社 | 情報処理システム、および情報処理方法 |
JP2018055548A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Nextremer | 対話装置、学習装置、対話方法、学習方法、およびプログラム |
Non-Patent Citations (2)
Title |
---|
RADU SORICUT AND ERIC BRILL: "Automatic Question Answering: Beyond the Factoid", PROCEEDINGS OF THE HUMAN LANGUAGE TECHNOLOGY CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIA, JPN7021005668, 3 May 2004 (2004-05-03), US, pages 57 - 64, XP055646121, ISSN: 0004671489 * |
森部 敦: "自動会話システム(人工無能)の開発とその応用 −Webテキストからの会話文生成と会話形成に関する研究", 映像情報メディア学会技術報告, vol. 第29巻 第50号, JPN6021051729, 21 December 2021 (2021-12-21), pages 11 - 16, ISSN: 0004671490 * |
Also Published As
Publication number | Publication date |
---|---|
US20210117458A1 (en) | 2021-04-22 |
JP7111154B2 (ja) | 2022-08-02 |
WO2019208222A1 (ja) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7111154B2 (ja) | 回答選択装置、回答選択方法、回答選択プログラム | |
Habibi et al. | Keyword extraction and clustering for document recommendation in conversations | |
JP6819990B2 (ja) | 対話システム及びそのためのコンピュータプログラム | |
WO2020042925A1 (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
CN110196901A (zh) | 对话系统的构建方法、装置、计算机设备和存储介质 | |
Nayak et al. | To Plan or not to Plan? Discourse Planning in Slot-Value Informed Sequence to Sequence Models for Language Generation. | |
Agrawal et al. | Affective representations for sarcasm detection | |
Ismail et al. | Bangla word clustering based on n-gram language model | |
Dethlefs et al. | Cluster-based prediction of user ratings for stylistic surface realisation | |
King et al. | Evaluating approaches to personalizing language models | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
KR20170122755A (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
Hao et al. | BertNet: Harvesting knowledge graphs with arbitrary relations from pretrained language models | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
Khalid et al. | Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method | |
Spliethöver et al. | Argument from Old Man's View: Assessing Social Bias in Argumentation | |
El Janati et al. | Adaptive e-learning AI-powered chatbot based on multimedia indexing | |
KR102240910B1 (ko) | 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템 | |
Finardi et al. | BERTa\'u: Ita\'u BERT for digital customer service | |
Lorenc et al. | Benchmark of public intent recognition services | |
Demir | Turkish data-to-text generation using sequence-to-sequence neural networks | |
Otani et al. | Large-scale acquisition of commonsense knowledge via a quiz game on a dialogue system | |
Corrada-Emmanuel et al. | Answer passage retrieval for question answering | |
Liu et al. | Finding social media trolls: Dynamic keyword selection methods for rapidly-evolving online debates | |
Avdiu et al. | Predicting learner knowledge of individual words using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201019 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20201019 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20201019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211228 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7111154 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |