JPWO2018097091A1 - モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム - Google Patents

モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム Download PDF

Info

Publication number
JPWO2018097091A1
JPWO2018097091A1 JP2018552565A JP2018552565A JPWO2018097091A1 JP WO2018097091 A1 JPWO2018097091 A1 JP WO2018097091A1 JP 2018552565 A JP2018552565 A JP 2018552565A JP 2018552565 A JP2018552565 A JP 2018552565A JP WO2018097091 A1 JPWO2018097091 A1 JP WO2018097091A1
Authority
JP
Japan
Prior art keywords
text
search
query
pair
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018552565A
Other languages
English (en)
Other versions
JP6813591B2 (ja
Inventor
淳史 大塚
淳史 大塚
克人 別所
克人 別所
京介 西田
京介 西田
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018097091A1 publication Critical patent/JPWO2018097091A1/ja
Application granted granted Critical
Publication of JP6813591B2 publication Critical patent/JP6813591B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

学習用の第1テキストと、学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習する。

Description

本発明は、検索用に入力された音声又はテキストを拡張するクエリ拡張モデルを学習するモデル作成装置、入力した音声又はテキストについて検索するテキスト検索装置、検索用に入力された音声又はテキストを拡張するクエリ拡張モデルを学習するモデル作成方法、入力した音声又はテキストについて検索するテキスト検索方法、及び、検索用に入力された音声又はテキストを拡張したり、クエリ拡張モデルを学習するプログラム又は入力した音声又はテキストについて検索したりするプログラムに関する。
情報検索システムでは、ユーザが入力した検索キーワード集合(クエリ)に対して、キーワードマッチ等の処理によってクエリに適合するテキストを検索している。キーワードマッチ検索の場合はクエリとして入力されたキーワードと、テキスト内のキーワードとが完全一致していなくてはならず、検索の再現率(Recall)が低下してしまうという課題があった。そこで、クエリ内に含まれるキーワードを自動的に増やすことでより幅広い文書にマッチさせる技術にクエリ拡張がある。クエリ拡張では、検索ログから統計処理により拡張するキーワードを決定している。
情報検索の応用として、質問応答(FAQ検索)、対話処理等がある。これらのシステムでは、ユーザの質問や発言に対して、妥当な応答を返すことが目的となる。質問応答システムや対話システムでは予め大量のFAQ、応答候補文等をデータベースに保存しておき、ユーザの入力に対して情報検索のアプローチで最も妥当な候補を選択する問題となる。応答文検索では、データベースに質問と応答とのペアを保持しておき、ユーザの入力と質問とを比較し、最も類似度が高かった質問の応答文を出力する。このようにすることで、ユーザの質問、発話等に対して適切な応答が可能になる。
特開2014−99062号公報 特開2011−103018号公報
FAQ検索、対話システム等では、Q(質問:Question)及びA(答え:Answer)、発話文及びその応答文等の2つのテキストのペアをデータベースに保存しておき、実際の検索では、Q及び発話文といったペアの第1テキストを主に使用して、実際の入力クエリとの比較を行う。その場合、A及び応答文といった第2テキストは、検索で使用しない場合が多い。
しかしながら、入力クエリ及び第1テキストのみで比較を行っても関連性が判別せず、入力クエリと第2テキストとを比較して初めて関連性が明らかになるケースがある。
例えば、FAQ検索で「動画が重くて見られません」という質問が入力クエリとして入ってきた時、「通信量が多いと帯域制限により通信速度が低下する場合があります」というAを検索したいとする。これは、動画が見られない原因の一つとして、動画の見過ぎによる帯域制限が考えられるため、関連するQAとして妥当なものである可能性が高い。
しかしながら、実際のFAQでは、「動画が重くて見られません」のようなより具体的な事象での言及で記載されているQは少なく、「帯域制限について教えて下さい」の様に、一般化された内容で記載されていることが多い。このとき、「動画が重くて見られません」と「帯域制限について教えて下さい」とは通常の検索では類似性が低く、検索できない可能性が高い。
入力クエリと第1テキストとで検索を行うことでは十分な検索結果が得られない場合、入力クエリとFAQのA等の第2テキストとを検索で使用することは可能である。しかし、入力クエリに含まれるキーワードと第2テキストで使用されているキーワードとが異なっていることから、入力クエリに含まれるキーワードで直接検索しても、適切な検索結果が得られず、十分な検索精度が得られない場合が多い。
その際、クエリ拡張等の手法を用いて入力クエリに含まれるキーワードを拡張することで対応することも可能であり、これまでは検索ログ等を用いたクエリ拡張の手法が用いられてきたが、この手法ではキーワードの意味的な類似性に基づいてキーワード拡張を行うため、キーワード拡張を行っても、第2テキストを検索するのに適したキーワードが作成できない場合が多い。
例えば、上述した例では、「動画」というキーワードを拡張する際には、「動画」と意味的な類似性が高い「ビデオ」、「視聴」等といったキーワードが作成されることが多く、「通信量」、「帯域制限」等のキーワードが作成されることは稀である。
このように、入力クエリに含まれるキーワードに対してキーワード拡張を行っても、キーワード拡張によって適切なキーワードが作成されないため、入力クエリに対する検索結果を精度良く得ることができなかった。
本発明は、以上のような事情に鑑みてなされたものであり、入力されたクエリに対するテキストのペアの検索結果を精度良く得ることができるモデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のモデル作成装置は、学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するモデル学習部、を含む。
なお、検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群に基づいて、前記検索対象の第1テキストについての検索用インデックス、及び前記検索対象の第2テキストについての検索用インデックスを作成する検索インデックス作成部を更に含むようにしても良い。
また、検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群に含まれる各単語からなる検索対象テキスト単語リストを用いて、前記学習用テキストペア群から、前記検索対象テキスト単語リストに含まれない単語を除去する単語フィルタリング部を更に含み、前記モデル学習部は、前記単語フィルタリング部によって前記検索対象テキスト単語リストに含まれない単語を除去された前記学習用テキストペア群に基づいて、前記クエリ拡張モデルを学習するようにしても良い。
上記目的を達成するために、本発明のテキスト検索装置は、検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び第2テキストのペアを検索するテキスト検索装置であって、前記入力クエリに対して、拡張クエリを作成するためのクエリ拡張モデルに基づいて、前記第2テキストを検索するための拡張クエリを作成する拡張クエリ作成部と、前記入力クエリと前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索するテキストペア検索部と、を含む。
なお、前記テキストペア検索部は、前記第1テキストについての検索用インデックスと、前記入力クエリと、前記第2テキストについての検索用インデックスと、前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索するようにしても良い。
また、前記テキストペア検索部は、前記第1テキストについての検索用インデックスと、前記入力クエリとに基づいて、前記第1テキストの各々について、第1テキスト検索スコアを算出する第1テキスト検索スコア算出部と、前記第2テキストについての検索用インデックスと、前記拡張クエリとに基づいて、前記第2テキストの各々について、第2テキスト検索スコアを算出する第2テキスト検索スコア算出部と、前記第1テキスト及び前記第2テキストのペアの各々について、前記第1テキスト検索スコアと第2テキスト検索スコアとを統合し、前記第1テキスト及び前記第2テキストのペアを検索する検索スコア統合結果出力部と、を含むようにしても良い。
上記目的を達成するために、本発明のデータ構造は、検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び前記第2テキストのペアを検索するテキスト検索装置で用いるためのデータ構造であって、学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群、及び前記検索対象テキストペア群を入力として得られる、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルと、前記検索対象の第1テキスト及び第2テキストについての検索用インデックスと、を含む。
上記目的を達成するために、本発明のモデル作成方法は、モデル学習部を含んだモデル作成装置におけるモデル作成方法であって、前記モデル学習部が、学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群、及び検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するステップと、を含む。
上記目的を達成するために、本発明のテキスト検索方法は、拡張クエリ作成部、及びテキストペア検索部を含み、第1テキストと、前記第1テキストを質問としたときの回答となる第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び前記第2テキストのペアを検索するテキスト検索装置におけるテキスト検索方法であって、前記拡張クエリ作成部が、前記入力クエリに対して、拡張クエリを作成するための予め学習されたクエリ拡張モデルに基づいて、前記第2テキストを検索するための拡張クエリを作成するステップと、前記テキストペア検索部が、前記入力クエリと前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索するステップと、を含む。
上記目的を達成するために、本発明のプログラムは、コンピュータを、上記モデル作成装置又はテキスト検索装置の各部として機能させるためのプログラムである。
本発明によれば、入力されたクエリに対するテキストのペアの検索結果を精度良く得ることが可能となる。
実施形態に係るモデル作成装置の構成を示す機能ブロック図である。 実施形態に係るテキスト検索装置の構成を示す機能ブロック図である。 実施形態に係る検索用インデックスの一例を示す模式図である。 実施形態に係るニューラルネットワークを説明するための説明図である。 実施形態に係るモデル作成装置により実行されるモデル作成処理の流れを示すフローチャートである。 実施形態に係るモデル作成装置により実行される検索用インデックス作成処理の流れを示すフローチャートである。 実施形態に係るテキスト検索装置により実行される検索処理の流れを示すフローチャートである。 コンピュータのハードウェア構成の一例を示す図である。
以下、本発明の実施形態について図面を用いて説明する。
本実施形態に係る検索システムは、検索用のモデルを学習するモデル作成装置、及び、検索を実行するテキスト検索装置を含んで構成される。
図1に、モデル作成装置10の構成を示すブロック図を示した。また、図2に、テキスト検索装置40の構成を示すブロック図を示した。まず、モデル作成装置10について説明し、次に、テキスト検索装置40について説明する。
モデル作成装置10では、学習用の第1テキストと、学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアで構成される学習用テキストペア群を入力として、入力クエリを拡張するためのクエリ拡張モデルを作成する。また、モデル作成装置10は、検索対象の第1テキストと、検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアで構成される検索対象テキストペア群を入力として、第1テキスト検索用インデックス、及び、第2テキスト検索用インデックスを作成する。
本実施形態では、学習用テキストペア群及び検索対象テキストペア群が入力されると、学習用テキストペア群及び検索対象テキストペア群について、まず後述する言語解析部12及び言語解析部22により形態素解析を行うと共に、入力されたキーワード抽出を行う。次に、学習用テキストペア群及び検索対象テキストペア群に出現する各単語についての重みを計算する。ここから、通常の全文検索エンジンと同様に、上記重みを使用した転置インデックスを作成する。また、ニューラルネットワークを用いたクエリ拡張モデルに入力するために学習用テキストペア群の整形を行う。そして、ニューラルネットワークを用いて学習用の第2テキストを検索するための拡張クエリを作成するためのクエリ拡張モデルを学習する。
本実施形態では、学習用テキストペア群として、検索対象テキストペア群よりも大規模な学習用コーパスを使用する。例えば、Webの質問回答サイトのコーパスを用いる。質問回答サイトとは、ユーザが自然文で質問文を投稿すると、他のユーザがその質問文に対する回答文を投稿することができるサービスである。本実施形態では、質問文を学習用の第1テキストとし、回答文を学習用の第2テキストとして学習用テキストペア群を作成し、学習用コーパスとして用いる。
また、本実施形態では、クエリ拡張モデルを学習する際、クエリ拡張モデルの出現単語を、検索対象テキストペア群に含まれている単語をリスト化した検索対象テキスト単語リストに含まれる単語に限定することで、クエリ拡張モデルの学習を効率的かつ高速に行うことが可能になる。
ただし、本実施形態に係るモデル作成装置をテキスト検索装置40以外の装置で使用する場合、検索対象テキスト単語リストを用いた、クエリ拡張モデルの出現単語の限定処理は不要となる。
図1に示すように、モデル作成装置10は、言語解析部12、単語重み計算部14、拡張クエリ作成部16、モデル学習部18、クエリ拡張モデル記憶部20、言語解析部22、単語重み計算部24、検索用インデックス作成部26、第1テキスト検索用インデックス記憶部28、及び、第2テキスト検索用インデックス記憶部30を備えている。
以降、それぞれの処理部について詳細に説明する。
言語解析部12及び言語解析部22は、学習用テキストペア群及び検索対象テキストペア群に対して言語処理を適用し、キーワード抽出を行う。この際、各テキストペア群が日本語のように単語区切り無しで記述されている場合には、形態素解析を行うことによりテキストを単語単位に区切り、各テキストペア群が英語のように自明な単語区切りが含まれる言語で記述されている場合には、単語区切りにすることで、文を単語単位に区切る。なお、このとき、言語解析部12及び言語解析部22は、単語のステミングも行う。
言語解析部12及び言語解析部22は、区切られた単語について名詞、動詞といった内容語の単語のみを抽出し、抽出した単語を検索で用いるキーワードとする。この際、連続する複数の単語によって1つの固有名詞が表示されるような場合には、これら複数の単語を接合する等の処理を行っても良い。
なお、言語解析部22は、検索対象テキストペア群から抽出したキーワードをリスト化し、検索対象テキスト単語リストとして記憶しておく。この検索対象テキスト単語リストは、単語フィルタリング部16bによって単語をフィルタリングする際に使用される。
単語重み計算部14及び単語重み計算部24は、後述する検索用インデックス作成部26による検索用インデックスの作成、及び後述する単語並び替え部16aによる単語の並び替えで使用するために、抽出したキーワードの重要度を表す重みを計算する。重み計算には、情報検索でよく使用されるIDF値を用いる。単語wのIDF値IDF(w)は、下記(1)式により計算される。下記(1)におけるdf(w)は、単語wが出現するテキストの数であり、Nは、テキストの総数である。
Figure 2018097091
…(1)
なお、IDF値と同様の性質を持つ計算式であれば、Okapi BM25等の上記以外の変形式を用いても良い。
検索用インデックス作成部26は、検索対象テキストペア群を検索するための検索用インデックスを作成する。検索用インデックスは、図3に示すように、テキストID、キーワード、及び当該キーワードの重みが、テキストID及び単語の組み合わせ毎に対応付けられて格納されたデータベースである。この際、重みは単語重み計算部24により計算されたIDF値を用いてTF/IDFで計算する。キーワードとする、テキストdの単語wの重みは、下記(2)式で表される。下記(2)式におけるtf(d,w)は、テキストd中で単語wが出現する回数である。
Figure 2018097091
…(2)
なお、重みを計算したTF/IDF以外にも、Okapi BM25等の他の重み計算手法を用いて、重みを計算しても良い。
拡張クエリ作成部16は、単語並び替え部16a、及び、単語フィルタリング部16bを有している。
単語並び替え部16aは、重みが計算された各単語を重みに応じて並び替える。ニューラルネットワークを用いたencoder−decoderモデルでは、出力時には単語や文字の系列を出力する。一般的な翻訳モデルでは、文法上正しい順番に文字や単語を出力できるように学習を行う。しかし、本実施形態では、クエリ拡張モデルによって出力された単語を検索クエリとして使用するため、文法上の並びは不必要である。
そこで、本実施形態では、クエリ拡張モデルによって出力された単語を検索において有効に活用するために、重要な単語順に単語が出力されるようにする。重要な単語順に出力されるようにするには、学習用テキストペア群に出現する単語を、形態素解析、単語区切り等を行った後の出現順の並びから、重要な単語から先頭に並び替えれば良い。
単語の重要度は、上述した検索用インデックス作成部26による処理と同様に、TF/IDFによって計算することができる。例えば、「通信量が多いと帯域制限により通信速度が低下する場合があります」という文を形態素解析して並べると、「通信量 多い 帯域制 限 通信速度 低下 場合 ある」のような単語の並びになるが、これらの単語を単語の重み順で並び替えると、「帯域制限 通信速度 通信量 低下 場合 多い ある」のような並び順になる。このように並び替えることで、クエリ拡張を行う際に、出力時にはより重要な単語が優先して出力されやすくなる。
本実施形態では、decode時には単語の系列データを出力するため、単語並び替え部16aは、出力の学習データとなる学習用の第2テキストに対しては上述した単語の並び替えを必ず行う。一方、入力時には、単語の系列データ等における単語の語順を考慮しないencodeを行うため、単語並び替え部16aは、学習用の第1テキストに関しては上述した単語の並び替えを必ずしも行わなくても良い。
しかしながら、学習用の第1テキストに入力する単語数等を制限する場合、先頭からn文字目で切ってしまうと、例えば日本語等では、「私」等の主語等、文の先頭に出現しやすい単語は常に学習される一方で、述語等、文の後半に出現しやすい重要な単語は学習され難い状況が生じる。そこで、本実施形態では、より重要な単語を学習で利用するために、学習用の第1テキストについても学習用の第2テキストと同様に単語の並び替えを行う。これにより、学習に有効な単語を学習で常に使用することができる。
単語フィルタリング部16bは、例えばencoder−decoderモデルを用いて学習用の第2テキストを検索するための検索クエリを作成する。学習用テキストペア群では、大量のテキストに様々な記載がなされている。学習用テキストペア群をそのまま用いてencoder−decoderモデルで学習した場合、decode時には様々な単語が出力されることになる。しかしながら、出力された単語を検索として使用することを考えると、検索対象テキストペア群に出現しない単語については、どれだけ作成してもヒットなしで使用されることがないため、作成する意味があまり無い。そこで、decode時に出力される単語の語彙を、検索対象テキストペア群に含まれる語彙の範囲に限定することで、効率的かつ高速に学習を行うことが可能になる。
単語フィルタリング部16bでは、言語解析部22で取得した検索対象テキスト単語リストと、単語並び替え部16aにより単語が並び替えられた学習用テキストペア群を照合し、検索対象テキスト単語リストに存在しない単語については、並び替えられた学習用テキストペア群から削除する。これは、出力側である学習用の第2テキストに対してのみ行う処理である。学習用の第1テキストについては、多様な入力を受け付けるため、単語のフィルタリングを行わない。
なお、クエリ拡張モデルを学習する際に、検索対象テキストペア群が確定していない場合等、検索対象テキストペア群を取得できない場合には、単語フィルタリング部16bによる検索対象テキスト単語リストによる単語のフィルタリングをスキップして、汎用のクエリ拡張モデルを学習しても良い。
モデル学習部18は、入力と出力との変換を行うモデルを学習する。本実施形態では、このモデルとして、encoder−decoderモデルを用いる。encoder−decoderモデルは、ニューラルネットワークを用いて、入力と出力との変換を学習できるモデルであり、ニューラルネットワークの学習には、学習用テキストペア群に含まれる第1テキスト及び第2テキストのペアをそのまま入力すれば良く、学習パラメータがニューラルネットワークによって自動学習されるという点が特徴となっている。
例えば、下記参考文献1に記載されているように、「私 は テニス が したい」という文を入力とし、「I want to play tennis」を出力として学習した場合には、学習用テキストペア群を入力するだけで自動翻訳器を作成することができる。
[参考文献1]Ilya Sutskever, Oriol Vinyals, Quoc V. Le. Sequence to Sequence Learning with Neural Networks. 2013.
encoder−decoderモデルは、入力の文字列を特徴ベクトルに変換するENCODE部、及びENCODE部で変換された特徴ベクトルから出力文字列を作成するDECODE部から構成される。
一般的なencoder−decoderモデルでは、LSTMという系列構造に強い活性関数を用いたニューラルネットワークを用いて、ENCODE部もDECODE部も構成するが、本実施形態では、ENCODE部ではsigmoid等の通常の活性関数を用いたニューラルネットワークを用いる。これは、検索を想定した場合、入力クエリには、キーワード集合の場合と自然文の場合とのどちらの可能性も想定される。このように入力クエリのフォーマットが不定である場合には、単語の順番に大きく影響されやすいLSTM等の系列モデルを用いるのはふさわしくない。そのため、本実施形態では、encoder−decoderモデルではENCODE部に系列モデルを使用しない。
図4に、本実施形態で使用するencoder−decoderモデルを示した。図4に示すように、ENCODE部は、W_in1〜W_inNまでの単語ベクトル層、CONTEXT層、ATTENTION層から構成される。また、DECODE部は、単語の意味を表現した特徴ベクトルを占めるEMBEDED層とLSTM層から構成される。なお、DECODE部に入力される</S>は文頭を意味する。
単語ベクトル層では、単語をベクトル表現に変換したベクトルを用いる。このベクトルとして、該当する要素(単語)を1とし、他の要素(単語)を0にする1−hot型のベクトル、Word2vec(登録商標)等により事前に学習した単語ベクトル等を用いても良い。
CONTEXT層では、全単語ベクトルの総和ベクトルの総和が入力となる。また、ATTENTION層では、下記参考文献2に示すGlobal attentionと同様の計算を行うことによって出力を決定するが、本実施形態のENCODE部にはLSTMのHIDDEN層が存在しないため、単語ベクトルの出力をHIDDEN層の出力として扱う。
[参考文献2]Minh-Thang Luong, Hieu Pham, Christopher D. Manning. Effective Approaches to Attention-based Neural Machine Translation.2015.
DECODE部は、上記参考文献1及び2と同様にLSTMベースの作成モデルとなっている。この際、ニューラルネットワークの各層のユニット数、学習のための最適化手法、及びエラー関数の設定方法については、本実施形態においては特に指定せず、適用する学習用テキストペア群の規模、使用言語等を考慮して適宜設定できるものとする。また、ニューラルネットワークモデルについても本実施形態で示したものは最小構成であるため、CONTEXT層等のニューラルネットワークの各層を多段化する等の変形を行っても良い。
モデル学習部18は、学習したクエリ拡張モデルを、クエリ拡張モデル記憶部20に記憶させる。
検索用インデックス作成部26は、検索対象テキストペア群を用いて、検索対象の第1テキストを検索するための第1テキスト検索用インデックスと、検索対象の第2テキストを検索するための第2テキスト検索用インデックスと、の2種類のインデックスを作成する。この際、検索用インデックス作成部26は、検索対象の第1テキストのみから、第1テキスト検索用インデックスを作成する。また、検索用インデックス作成部26は、第2テキスト検索用インデックスを作成する際には、検索対象の第2テキストのみから第2テキスト検索用インデックスを作成しても良いし、検索対象の第1テキストと検索対象の第2テキストとを結合して1つにまとめたテキストから第2テキスト検索用インデックスを作成しても良い。
検索用インデックス作成部26は、作成した第1テキスト検索用インデックスを第1テキスト検索用インデックス記憶部28に記憶させる。また、検索用インデックス作成部26は、作成した第2テキスト検索用インデックスを第2テキスト検索用インデックス記憶部30に記憶させる。
このように、検索用インデックス作成部26により、検索対象テキストペア群から第1テキスト検索用インデックス及び第2テキスト検索用インデックスが作成されると共に、モデル学習部18により、学習用テキストペア群から第2テキスト検索用のクエリ拡張モデルが学習される。
ここで、従来の情報検索技術では、第1テキストと第2テキストとを結合し、1つの文書とみなして検索を実行していた。一方、本実施形態に係るテキスト検索装置40は、第1テキストの検索と第2テキストの検索とで異なるクエリで別々に検索を実行することに特徴がある。
テキスト検索装置40は、検索対象の第1テキストと、検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、検索対象の第1テキスト及び検索対象の第2テキストのペアを検索する。この際、入力クエリに対して、拡張クエリを生成するための予め学習されたクエリ拡張モデルに基づいて、検索対象の第2テキストを検索するための拡張クエリを作成する。また、入力クエリと拡張クエリとに基づいて、検索対象の第1テキスト及び検索対象の第2テキストのペアを検索する。
図2に示すように、テキスト検索装置40は、言語解析部42、テキストペア検索部43、及び、拡張クエリ作成部46を含んで構成される。また、テキストペア検索部43は、第1テキスト検索スコア算出部44、第2テキスト検索スコア算出部48、及び、検索スコア統合結果出力部50を有している。
以降、それぞれの処理部について詳細に説明する。
言語解析部42は、モデル作成装置10の言語解析部12、22と同様の処理を行う。
第1テキスト検索スコア算出部44は、入力クエリと検索対象テキストペア群の第1テキストとを比較した比較結果として検索スコアを算出する。第1テキスト検索スコアの算出には、モデル作成装置10で作成し、第1テキスト検索用インデックス記憶部28に記憶されている第1テキスト検索用インデックスを用いる。
第1テキスト検索スコアは、第1テキスト検索用インデックスに格納されている重みの総和で計算できる。第1テキストdと入力クエリQとの第1テキスト検索スコアscore1は、下記(3)式で表される。下記(3)式におけるqは、入力クエリQ中に含まれるキーワードを示している。weight(d1,q)は、第1テキスト検索用インデックスに格納されている、テキストd、単語qの重みを表す重み値である。
Figure 2018097091
…(3)
上記(3)式により、入力クエリとより多く、かつ重要なキーワードが一致している第1テキストほど、第1テキスト検索スコアは高い値となる。なお、第1テキスト検索スコアの算出は、一般的なキーワード一致検索を行うものであるため、単語の意味的な類似度を用いたクエリ拡張、単語の意味ベクトルを用いたスコア算出手法等と組み合わせて使用しても良い。
拡張クエリ作成部46は、入力クエリを、クエリ拡張モデル記憶部20に記憶されているクエリ拡張モデルに入力することにより、キーワード拡張を行い、第2テキスト検索用の拡張クエリを作成する。なお、クエリ拡張モデルには、言語解析部42で抽出したキーワードをそのまま入力すれば良い。ただし、入力クエリが長文である場合には、モデル作成装置10の単語並び替え部16aと同様に、単語の重みを予め計算しておき、単語の重みに基づいて、抽出されたキーワードから重み値が大きい上位n語の単語のみを抽出してクエリ拡張モデルに入力しても良い。なお、nは、ユーザ等によって予め設定される。nとしては、例えば、数語〜数十語程度が好ましい。
クエリ拡張モデルでは、0〜N個のキーワードが動的に出力される。このとき、出力されたN個のキーワード全てを拡張クエリに使用してもよいし、出力数が多い場合には任意のn番目までに出力されたキーワードを用いても良い。クエリ拡張モデルは、出力時に、検索において重要と思われる順番にキーワードが出力されるように学習されるため、拡張キーワード数を制限する場合には、クエリ拡張モデルが出力した順番に則って使用すれば良い。
なお、第2テキスト検索スコアを算出する際には、入力クエリのキーワード群に、拡張クエリ作成部46で出力された拡張キーワード群を追加したキーワード群を拡張クエリとして使用する。
第2テキスト検索スコア算出部48は、拡張クエリ作成部46により作成された拡張クエリと、モデル作成装置10の検索用インデックス作成部26により作成され、第2テキスト検索用インデックス記憶部30に記憶されている第2テキスト検索用インデックスを用いて、第2テキスト検索スコアを算出する。
第2テキスト検索スコアの算出には、第1テキスト検索スコアを算出する際に用いた上記(3)式に加えて、近接重みを考慮する。近接重みとは、拡張クエリ中のキーワードが第2テキスト中のキーワードにヒットした場合、その他のヒットしたキーワードが第2テキスト中のどの程度近くに存在しているかということを考慮した指標である。
第2テキストは、第1テキストと比べて長文で記述されている場合が多い。また、ヒットしたキーワードが第2テキストの複数の文に亘って点在している場合よりも、より少ない文中のキーワードに密集してヒットしている方が有用な情報である可能性が高い。そのため、第2テキストの検索では、ヒットしたキーワード間の位置の近さを示す近接重みを導入する。
近接重みは、ヒットしたキーワード間の距離の平均によって計算する。第2テキストをdとした場合に、単語qがヒットしたときの近接重みは、下記(4)式に従って計算される。下記(4)式におけるHは、第2テキストdにヒットした入力クエリのキーワード集合であり、Nは、キーワード集合の全キーワード数であり、Lは、第2テキストdの先頭からのキーワードの位置を示している。
Figure 2018097091
…(4)
例えば、「通信量多い 帯域制限 通信速度 低下 場合 ある」という第2テキストdがあるとする。この場合、L(d2,帯域制限)=3となり、L(d2,低下)=5となる。このように近接重みを用いると、第2テキスト検索スコアは、下記(5)式に従って計算される。
Figure 2018097091
…(5)
ここで、上記(5)式におけるprox'(d2,q)は、0〜1に正規化された近接重み値である。近接重みはキーワード間の距離にもとづいて計算されるため、値の範囲が不定である。そのため、重み係数として使用するために値が0〜1の範囲に限定されるように正規化を行う必要がある。正規化手法についてはsigmoid関数を用いたもの等、任意の正規化手法を使用して良い。また、第2テキストが長文でない場合等には、近接計算を導入した検索スコア計算方法ではなく、第1テキスト検索スコアと同様の計算式を用いても良い。
検索スコア統合結果出力部50は、第1テキスト検索スコアと第2テキスト検索スコアとを統合し、統合スコアを算出し、統合スコアの降順に検索結果を出力する。本実施形態では、統合スコアを、第1テキスト検索スコアと第2テキスト検索スコアとの線形和として計算する。入力クエリQに対して、第1テキストをdとし、第2テキストをdとした場合のテキストペア群PDの統合スコアは、下記(6)式に従って計算される。下記(6)式におけるw及びwは、線形和のための重み係数である。
Figure 2018097091
…(6)
検索対象テキストペア群によって第1テキストと第2テキストとの考慮する比率は異なる。例えば、FAQ検索では、入力クエリQの部分に質問内容が明確に記載されている場合には、第1テキストであるQをより考慮した検索を行うべきである。一方、入力クエリQには「〜について」等の簡潔な記載しかなく、第2テキストであるAの部分に豊富な記載がある場合には、第2テキストであるAの第2テキスト検索スコアを優先したほうが良い結果が得られる。また、重み係数に関しては、検索対象テキストペア群の性質を観察し、人手で付与しても良いし、機械学習、統計処理等に基づいて自動的に付与しても良い。
なお、本実施形態に係るモデル作成装置10及びテキスト検索装置40は、例えば、図8に示すようなコンピュータ100で構成される。図8に示すコンピュータ100は、入力装置101、表示装置102、外部I/F103、RAM(Random Access Memory)104、ROM(Read Only Memory)105、CPU(Central Processing Unit)106、通信I/F107、及び補助記憶装置108を備えている。これらの各ハードウェアはバスBによって接続されている。なお、コンピュータ100は、入力装置101及び表示装置102のうちの少なくとも一方を備えていなくても良い。
本実施形態は、CPU106が、ハードディスク等の補助記憶装置108やROM105に記憶されているプログラムを読み出して実行することにより、上記の各ハードウェア資源とプログラムとが協働し、上述した機能が実現される。なお、当該プログラムは、例えばCD−ROM等の記録媒体103aに格納されていても良い。
本実施形態に係るモデル作成装置10によるモデル作成処理の流れを、図5に示すフローチャートを用いて説明する。本実施形態では、モデル作成装置10に、モデル作成処理の実行を開始するための予め定めた情報が入力されたタイミングでモデル作成処理が開始されるが、モデル作成処理が開始されるタイミングはこれに限らない。
ステップS101では、言語解析部12が、学習用テキストペア群を入力する。
ステップS103では、言語解析部12が、入力した学習用テキストペア群に含まれる各テキストについて形態素分解を行い、単語を抽出する。なお、このとき、言語解析部12は、抽出した単語のステミングを行う。
ステップS105では、単語重み計算部14が、抽出した各単語について、重みを計算する。
ステップS107では、単語並び替え部16aが、重みを計算した各単語を、重みに基づいて並び替える。
ステップS109では、単語フィルタリング部16bが、並び替えられた各単語のうち、後述する検索用インデックス作成処理で作成される検索対象テキスト単語リストに含まれる単語を削除することにより、単語をフィルタリングする。
ステップS111では、モデル学習部18が、各単語が並び替えられると共に各単語がフィルタリングされた学習用テキストペア群を用いてクエリ拡張モデルを学習する。
ステップS113では、学習したクエリ拡張モデルをクエリ拡張モデル記憶部20に記憶させ、本モデル作成処理のプログラムの実行を終了する。
次に、本実施形態に係るモデル作成装置10による検索用インデックス作成処理の流れを、図6に示すフローチャートを用いて説明する。本実施形態では、モデル作成装置10に、検索用インデックス作成処理の実行を開始するための予め定めた情報が入力されたタイミングで検索用インデックス作成処理が開始されるが、検索用インデックス作成処理が開始されるタイミングはこれに限らない。
ステップS201では、言語解析部22が、検索対象テキストペア群を入力する。
ステップS203では、言語解析部22が、入力した検索対象テキストペア群に含まれる各テキストについて形態素分解し、単語を抽出する。また、言語解析部22が、検索対象テキスト単語リストを作成する。なお、このとき、言語解析部22は、抽出した単語のステミングを行う。
ステップS205では、単語重み計算部24が、抽出された各単語の重みを計算する。
ステップS207では、検索用インデックス作成部26が、抽出された各単語の重みに基づいて、第1テキスト検索用インデックス及び第2テキスト検索用インデックスを作成する。
ステップS209では、検索用インデックス作成部26が、作成した第1テキスト検索用インデックスを第1テキスト検索用インデックス記憶部28に記憶させると共に、作成した第2テキスト検索用インデックスを第2テキスト検索用インデックス記憶部30に記憶させ、本検索用インデックス作成処理のプログラムの実行を終了する。
次に本実施形態に係るテキスト検索装置40による検索処理の流れを、図7に示すフローチャートを用いて説明する。本実施形態では、テキスト検索装置40に、検索処理の実行を開始するための予め定めた情報が入力されたタイミングで検索処理が開始されるが、検索処理が開始されるタイミングはこれに限らない。
ステップS301では、言語解析部42が、ユーザにより入力された入力クエリを入力する。
ステップS303では、言語解析部42が、入力クエリを形態素分解し、単語を抽出する。
ステップS305では、第1テキスト検索スコア算出部44が、第1テキスト検索用インデックス記憶部28から第1テキスト検索用インデックスを読み出し、入力クエリと、読み出した第1テキスト検索用インデックスに基づいて、第1テキスト検索スコアを算出する。
ステップS307では、拡張クエリ作成部46が、クエリ拡張モデル記憶部20に記憶されているクエリ拡張モデルを読出し、入力クエリを、クエリ拡張モデルを用いて拡張し、第2テキスト検索用の拡張クエリを作成する。
ステップS309では、第2テキスト検索スコア算出部48が、第2テキスト検索用インデックス記憶部30から第2テキスト検索用インデックスを読み出し、拡張クエリと、読み出した第2テキスト検索用インデックスと、に基づいて、第2テキスト検索スコアを算出する。
ステップS311では、検索スコア統合結果出力部50が、検索対象の第1テキストと第2テキストとのペアの各々について、第1テキスト検索スコアと第2テキスト検索スコアとを統合して統合スコアを算出する。
ステップS313では、検索スコア統合結果出力部50が、算出した統合スコアに基づいて、検索対象の第1テキストと第2テキストとのペアの検索結果を出力し、本検索処理のプログラムの実行を終了する。
このようにして、本実施形態では、学習用の第1テキストと、学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群、及び検索対象の第1テキストと、検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習する。
また、本実施形態では、第1テキストと、第1テキストを質問としたときの回答となる第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び第2テキストのペアを検索する際、入力クエリに対して、拡張クエリを作成するための予め学習されたクエリ拡張モデルに基づいて、第2テキストを検索するための拡張クエリを作成し、入力クエリと拡張クエリとに基づいて、第1テキスト及び第2テキストのペアを検索する。
なお、本実施形態では、図1及び図2に示す機能の構成要素の動作をプログラムとして構築し、モデル作成装置10及びテキスト検索装置40として利用されるコンピュータにインストールして実行させるが、これに限らず、ネットワークを介して流通させても良い。
また、構築されたプログラムをハードディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールしたり、配布したりしても良い。
本願は、日本国に2016年11月25日に出願された基礎出願2016−229072号に基づくものであり、その全内容はここに参照をもって援用される。
10 モデル作成装置
12、22、42 言語解析部
14、24 単語重み計算部
16 拡張クエリ作成部
16a 単語並び替え部
16b 単語フィルタリング部
18 モデル学習部
20 クエリ拡張モデル記憶部
26 検索用インデックス作成部
28 第1テキスト検索用インデックス記憶部
30 第2テキスト検索用インデックス記憶部
40 テキスト検索装置
43 テキストペア検索部
44 第1テキスト検索スコア算出部
46 拡張クエリ作成部
48 第2テキスト検索スコア算出部
50 検索スコア統合結果出力部

Claims (10)

  1. 学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するモデル学習部
    を含むモデル作成装置。
  2. 検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群に基づいて、前記検索対象の第1テキストについての検索用インデックス、及び前記検索対象の第2テキストについての検索用インデックスを作成する検索インデックス作成部
    を更に含む請求項1記載のモデル作成装置。
  3. 検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群に含まれる各単語からなる検索対象テキスト単語リストを用いて、前記学習用テキストペア群から、前記検索対象テキスト単語リストに含まれない単語を除去する単語フィルタリング部を更に含み、
    前記モデル学習部は、前記単語フィルタリング部によって前記検索対象テキスト単語リストに含まれない単語を除去された前記学習用テキストペア群に基づいて、前記クエリ拡張モデルを学習する
    請求項1又は2記載のモデル作成装置。
  4. 検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び第2テキストのペアを検索するテキスト検索装置であって、
    前記入力クエリに対して、拡張クエリを作成するためのクエリ拡張モデルに基づいて、前記第2テキストを検索するための拡張クエリを作成する拡張クエリ作成部と、
    前記入力クエリと前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索するテキストペア検索部と、
    を含むテキスト検索装置。
  5. 前記テキストペア検索部は、前記第1テキストについての検索用インデックスと、前記入力クエリと、前記第2テキストについての検索用インデックスと、前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索する
    請求項4記載のテキスト検索装置。
  6. 前記テキストペア検索部は、
    前記第1テキストについての検索用インデックスと、前記入力クエリとに基づいて、前記第1テキストの各々について、第1テキスト検索スコアを算出する第1テキスト検索スコア算出部と、
    前記第2テキストについての検索用インデックスと、前記拡張クエリとに基づいて、前記第2テキストの各々について、第2テキスト検索スコアを算出する第2テキスト検索スコア算出部と、
    前記第1テキスト及び前記第2テキストのペアの各々について、前記第1テキスト検索スコアと第2テキスト検索スコアとを統合し、前記第1テキスト及び前記第2テキストのペアを検索する検索スコア統合結果出力部と、
    を含む請求項5記載のテキスト検索装置。
  7. 検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び前記第2テキストのペアを検索するテキスト検索装置で用いるためのデータ構造であって、
    学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群、及び前記検索対象テキストペア群を入力として得られる、
    クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルと、
    前記検索対象の第1テキスト及び第2テキストについての検索用インデックスと、
    を含むデータ構造。
  8. モデル学習部を含んだモデル作成装置におけるモデル作成方法であって、
    前記モデル学習部が、学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群、及び検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するステップ
    を含むモデル作成方法。
  9. 拡張クエリ作成部、及びテキストペア検索部を含み、第1テキストと、前記第1テキストを質問としたときの回答となる第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び前記第2テキストのペアを検索するテキスト検索装置におけるテキスト検索方法であって、
    前記拡張クエリ作成部が、前記入力クエリに対して、拡張クエリを作成するための予め学習されたクエリ拡張モデルに基づいて、前記第2テキストを検索するための拡張クエリを作成するステップと、
    前記テキストペア検索部が、前記入力クエリと前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索するステップと、
    を含むテキスト検索方法。
  10. コンピュータを、請求項1〜請求項3の何れか1項記載のモデル作成装置の各部、又は請求項4〜請求項6の何れか1項記載のテキスト検索装置の各部として機能させるためのプログラム。
JP2018552565A 2016-11-25 2017-11-20 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム Active JP6813591B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016229072 2016-11-25
JP2016229072 2016-11-25
PCT/JP2017/041630 WO2018097091A1 (ja) 2016-11-25 2017-11-20 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2018097091A1 true JPWO2018097091A1 (ja) 2019-10-17
JP6813591B2 JP6813591B2 (ja) 2021-01-13

Family

ID=62195017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018552565A Active JP6813591B2 (ja) 2016-11-25 2017-11-20 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム

Country Status (3)

Country Link
US (1) US11182435B2 (ja)
JP (1) JP6813591B2 (ja)
WO (1) WO2018097091A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018097091A1 (ja) * 2016-11-25 2018-05-31 日本電信電話株式会社 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
CN110574021B (zh) 2017-04-29 2023-10-13 谷歌有限责任公司 使用经过训练的生成模型生成查询变体
WO2019167282A1 (ja) * 2018-03-02 2019-09-06 富士通株式会社 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム
JP7087938B2 (ja) * 2018-06-07 2022-06-21 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7032650B2 (ja) * 2018-06-28 2022-03-09 富士通株式会社 類似テキスト検索方法、類似テキスト検索装置および類似テキスト検索プログラム
US11755659B2 (en) * 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method
CN109460473B (zh) * 2018-11-21 2021-11-02 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
CN109977215B (zh) * 2019-03-29 2021-06-18 百度在线网络技术(北京)有限公司 基于关联兴趣点的语句推荐方法和装置
JP7388926B2 (ja) * 2020-01-09 2023-11-29 株式会社日立製作所 対話システム
WO2021146388A1 (en) * 2020-01-14 2021-07-22 RELX Inc. Systems and methods for providing answers to a query
KR102418953B1 (ko) * 2020-05-11 2022-07-11 네이버 주식회사 쇼핑 검색 결과 확장 방법 및 시스템
CN111930918B (zh) * 2020-09-29 2020-12-18 湖南大学 一种跨模态的双边个性化人机社交对话生成方法及系统
US20220138170A1 (en) * 2020-10-29 2022-05-05 Yext, Inc. Vector-based search result generation
US20220284174A1 (en) * 2021-03-03 2022-09-08 Oracle International Corporation Correcting content generated by deep learning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339314A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体
JP2007304793A (ja) * 2006-05-10 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
US20080040114A1 (en) * 2006-08-11 2008-02-14 Microsoft Corporation Reranking QA answers using language modeling
US20090287678A1 (en) * 2008-05-14 2009-11-19 International Business Machines Corporation System and method for providing answers to questions
US20140222743A1 (en) * 2013-02-06 2014-08-07 International Business Machines Corporation Natural language question expansion and extraction
JP2016066232A (ja) * 2014-09-24 2016-04-28 株式会社オウケイウェイヴ 回答検索システム、データ送受信装置及び回答検索装置
US20160147775A1 (en) * 2014-11-20 2016-05-26 Oracle International Corporation Automatic generation of contextual search string synonyms

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
JP4650072B2 (ja) * 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
JP5436152B2 (ja) 2009-11-10 2014-03-05 日本電信電話株式会社 質問応答装置、質問応答方法、質問応答プログラム
US20130060769A1 (en) * 2011-09-01 2013-03-07 Oren Pereg System and method for identifying social media interactions
JP5903370B2 (ja) 2012-11-14 2016-04-13 日本電信電話株式会社 情報検索装置、情報検索方法、及びプログラム
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
WO2018097091A1 (ja) * 2016-11-25 2018-05-31 日本電信電話株式会社 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339314A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体
JP2007304793A (ja) * 2006-05-10 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
US20080040114A1 (en) * 2006-08-11 2008-02-14 Microsoft Corporation Reranking QA answers using language modeling
US20090287678A1 (en) * 2008-05-14 2009-11-19 International Business Machines Corporation System and method for providing answers to questions
US20140222743A1 (en) * 2013-02-06 2014-08-07 International Business Machines Corporation Natural language question expansion and extraction
JP2016066232A (ja) * 2014-09-24 2016-04-28 株式会社オウケイウェイヴ 回答検索システム、データ送受信装置及び回答検索装置
US20160147775A1 (en) * 2014-11-20 2016-05-26 Oracle International Corporation Automatic generation of contextual search string synonyms

Also Published As

Publication number Publication date
JP6813591B2 (ja) 2021-01-13
US20190278812A1 (en) 2019-09-12
US11182435B2 (en) 2021-11-23
WO2018097091A1 (ja) 2018-05-31

Similar Documents

Publication Publication Date Title
WO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
US20030046078A1 (en) Supervised automatic text generation based on word classes for language modeling
KR101353521B1 (ko) 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
CN101952824A (zh) 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
KR101410601B1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
KR101988165B1 (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Tapsai et al. Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
Kong et al. Improved spoken document summarization using probabilistic latent semantic analysis (plsa)
CN116595970A (zh) 语句同义改写方法、装置和电子设备
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
KR101069534B1 (ko) 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN114154496A (zh) 基于深度学习bert模型的煤监类案对比方法及装置
Grishman Information extraction and speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201217

R150 Certificate of patent or registration of utility model

Ref document number: 6813591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150