JPWO2008078670A1 - 文言い換え方法、プログラムおよびシステム - Google Patents

文言い換え方法、プログラムおよびシステム Download PDF

Info

Publication number
JPWO2008078670A1
JPWO2008078670A1 JP2008551075A JP2008551075A JPWO2008078670A1 JP WO2008078670 A1 JPWO2008078670 A1 JP WO2008078670A1 JP 2008551075 A JP2008551075 A JP 2008551075A JP 2008551075 A JP2008551075 A JP 2008551075A JP WO2008078670 A1 JPWO2008078670 A1 JP WO2008078670A1
Authority
JP
Japan
Prior art keywords
sentence
document
question
paraphrase
conversion rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008551075A
Other languages
English (en)
Other versions
JP5126068B2 (ja
Inventor
石川 開
開 石川
享 赤峯
享 赤峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008551075A priority Critical patent/JP5126068B2/ja
Publication of JPWO2008078670A1 publication Critical patent/JPWO2008078670A1/ja
Application granted granted Critical
Publication of JP5126068B2 publication Critical patent/JP5126068B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ユーザによる質問文の入力に対して、質問文の言い換えモデルを学習し、リアルタイムに言い換え表現を生成する。文書集合記憶手段401の情報が更新されると、文対抽出手段301は、文書集合記憶手段401から言い換え文対を抽出し、文対記憶手段403に記憶する。モデル学習手段302は、文対記憶手段402における言い換え文対から質問文言い換えモデルを学習し、モデル記憶手段402に記憶する。文対抽出手段301は、モデル記憶手段302が有する質問文言い換えモデルを用いて、文書集合記憶手段401から再度言い換え文対を抽出し、文対記憶手段403に記憶する。記憶する言い換え文対が文対記憶手段403に記憶されている言い換え文対と同じ場合、質問文言い換えモデルの学習を終了する。候補作成手段303は、モデル記憶手段402から質問文言い換えモデルを読み出し、入力された質問文の言い換え候補を生成する。

Description

(関連出願)本願は、先の日本特許出願2006−345757号(2006年12月22日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、文言い換え方法、変換規則算出方法、文言い換えシステム、変換規則算出用プログラムおよび文言い換え用プログラムに関し、特に文の言い換え規則を学習する文言い換え方法、変換規則算出方法、文言い換えシステム、変換規則算出用プログラムおよび文言い換え用プログラムに関する。
人間によって入力された文章をコンピュータが他の国の言語の文章に変換する機械翻訳が広く用いられているが、同一の言語間を対象とした場合には、文章表現を変換するための文の言い換え方法が用いられている(非特許文献1参照)。
非特許文献1には、従来の文の言い換え表現作成方法の一例が記載されている。非特許文献1に記載されている文の言い換え表現作成方法は、統語的な素性(性質)で表現された言い換え規則をあらかじめ人間が作成する方法である。そして、得られた言い換え表現に対しては、最終的に人手による確認が必要である。
また、文の言い換え方法は、変換した質問文に対して自動的に回答を出力する質疑応答システム等にも用いられている(特許文献1参照)。例えば、特許文献1には、言い換えコーパス(corpus)から機械学習によって文の言い換えモデルを獲得する文の言い換え表現作成方法の一例が記載されている。特許文献1に記載されている文の言い換え表現作成方法では、複数の、辞書や新聞等の記事における同じ見出しに対する説明文を、記述内容が一致する異なった文書対であるとみなす。すなわち、同じ見出しに対する説明文を、言い換えの関係にある文書対であるとみなして言い換えコーパスを作成し、それに対して機械学習を実行する。
藤田 篤、他1名、「A Class-oriented Approach to Building a Paraphrase Corpus 」,Proceedings of the 3rd International Workshop on Paraphrasing (IWP) ,2005年10月,p.25−32 特開2002−014990号公報(段落0058−0059、図4)
上記非特許文献1及び特許文献1の全開示内容はその引用をもって本書に繰込み記載されているものとする。
しかし、従来の文の言い換え表現作成方法を、多数のユーザが入力する質問文に対して適用する場合、言い換え規則を人手で作成する方法(例えば、非特許文献1に記載されている文の言い換え表現作成方法。)では、膨大な量の規則作成を行う必要がある。多様な質問文の内容や表現に対して、十分な網羅性を実現しなければならないからである。さらに、最終的な言い換え表現を得る際に人手による確認作業を必要とするため、ユーザによる質問文入力をリアルタイムで処理するシステムには適用できない場合が多い。
また、特許文献1に記載されている文の言い換え表現作成方法では、既存の辞書の見出しや新聞等の記事で網羅されない分野に関しては、学習データの入手が困難である。さらに、学習データの中に、表現上の言い換えの関係にない文対が含まれていると、学習の際のノイズ(不必要な情報)となる。その場合、学習データの品質によっては適切な文の言い換えモデル(言い換え規則。以下、言い換えモデルという。)が得られない場合がある。すなわち、特許文献1に記載されているような既存の辞書や新聞等の記事データから機械学習する方法では、網羅される質問文が既存の辞書や新聞等の記事データに関連する内容に限定されるため、ユーザの多様な質問文に対して十分な網羅性を実現することができない場合が多い。なお、文対とは、2つの文(センテンス)の組み合わせ(2文1組)をいう。
そこで、本発明は、ユーザによる質問文入力に対して、リアルタイムで言い換え表現を生成する文言い換え方法、変換規則算出方法、文言い換えシステム、変換規則算出用プログラムおよび文言い換え用プログラムを提供することを目的とし、特に、ユーザにより入力された質問文の言い換えモデルを学習できる文言い換え方法、変換規則算出方法、文言い換えシステム、変換規則算出用プログラムおよび文言い換え用プログラムを提供することを目的とする。
本発明の第1の視点によれば、ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成する文言い換え方法であって、記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出ステップと、第1のセンテンス抽出ステップで抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出ステップと、変換規則算出ステップで算出した変換規則を用いて、閾値以上の類似度を有するセンテンスの組み合わせを記憶手段から再度抽出する第2のセンテンス抽出ステップと、第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定ステップと、変換規則算出ステップで算出した変換規則を用いて、入力された質問文書の言い換え文書を生成する文書生成ステップとを含み、第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出ステップと、変換規則算出ステップと、第2のセンテンス抽出ステップとを繰り返し実行する文言い換え方法が提供される。
上記文言い換え方法において、生成した言い換え文書をユーザに対して表示するステップを含み、生成した言い換え文書を、入力された質問文に対する類似度を示す値とともに表示することが好ましい。
また、上記文言い換え方法における文書生成ステップに、入力された質問文書を単語列に分解するステップと、変換規則算出ステップで算出した変換規則と単語列とを比較し、類似度の高い単語列を複数選択する選択ステップと、選択ステップで選択した単語列を並び替える並び換えステップとを含めることができる。
本発明の第2の視点によれば、ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成するための変換規則を算出する変換規則算出方法であって、記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出ステップと、第1のセンテンス抽出ステップで抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出ステップと、変換規則算出ステップで算出した変換規則を用いて、閾値以上の類似度を有するセンテンスの組み合わせを記憶手段から再度抽出する第2のセンテンス抽出ステップと、第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定ステップとを含み、第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出ステップと、変換規則算出ステップと、第2のセンテンス抽出ステップとを繰り返し実行する変換規則算出方法が提供される。
上記変換規則算出方法において、記憶手段に、入力手段から入力した質問文書と、質問文書に対する回答文書と、質問文書および回答文書における対応関係を示した情報とを記憶させ、同じ内容の回答文書をまとめた1つのグループに対して、情報を適用し、同じ内容の回答文書に対応した質問文書のグループを生成することができる。
上記変換規則算出方法に、記憶手段に格納されている情報を更新するステップを含ませることができる。この場合、前記記憶手段の情報が更新されたことを契機に、第1のセンテンス抽出ステップにおける処理を開始してもよい。
本発明の第3の視点によれば、ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成する文言い換えシステムであって、入力手段と、入力手段に入力された質問文書と、質問文書に対する回答文書とを記憶する記憶手段と、記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出するセンテンス抽出手段と、センテンス抽出手段で抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出手段と、変換規則算出手段が算出した変換規則を用いて、ユーザによって入力手段に入力された質問文書の言い換え文書を生成する文書生成手段とを備える文言い換えシステムが提供される。
上記文言い換えシステムにおける記憶手段は、入力手段に入力された質問文書と、質問文書に対する回答文書とを記憶する第1の記憶手段と、センテンス抽出手段が抽出したセンテンスの組み合わせを記憶する第2の記憶手段と、変換規則算出手段が算出した変換規則を記憶する第3の記憶手段とを含むことが好ましい。
また、上記文言い換えシステムにおける変換規則は、少なくとも翻訳モデルと、言語モデルと、単語列とを含むものとすることができる。
また、上記文言い換えシステムに、文書生成手段が生成した言い換え文書を表示する表示手段を備えることができる。この表示手段に、文書生成手段が生成した言い換え文書を、ユーザによって入力手段に入力された質問文との類似度を示す値とともに表示してもよい。
また、上記文言い換えシステムに、入力手段に入力されたコマンドにしたがって、記憶手段における情報を更新する情報更新手段を備えることができる。この情報更新手段は、記憶手段における情報を更新した場合に、センテンスの組み合わせの抽出を開始するための信号をセンテンス抽出手段に送信するよう構成することができる。
また、上記文言い換えシステムは、過去にユーザが入力した質問文書と、各質問文書に対する回答文書との対応関係から、同一の回答文書に対応する質問文書集合を作成し、文の言い換えの学習データとして利用する文言い換えシステムとすることができる。同一の回答文書に対応する質問文書であっても、それぞれの文書を作成したユーザの分野における知識や問題の理解レベル、意図や戦略の違いなどによって、必ずしも文書同士が言い換えの関係にある保証はないため、この文言い換えシステムは、質問文集合のすべての文対の中から、言い換えの関係にあるものだけを篩い分けるために、言い換えモデル(例えば、後述する式(1)等)によって言い換えの関係にある文対の抽出を行う。そして、この抽出された言い換え文対(例えば、図8に示されている文対)を学習データとしてさらに言い換えモデルの学習を行う。この言い換え文対における、言い換えモデルによる言い換え文対の抽出と、抽出された言い換え文対における言い換えモデルの学習との2つの過程を、抽出文セット(抽出された言い換え文対)が収束する(新たに学習した言い換えモデルを用いて抽出した言い換え文対が、それ以前に学習した言い換えモデルを用いて抽出した言い換え文対と同一になる)まで交互に繰り返し、最終的な言い換えモデルを得る。上記のような逐次処理によって、同一の回答文書に対応する質問文書集合の中から、言い換え文の関係にある文対を抽出することができるため、これを学習データとして適切な言い換えモデルを学習することができる。
上記のような学習を行うことにより、上記質問文言い換えシステムは、例えばメールで受信した質問文書に対する回答文書を自動的に生成することが可能になる。すなわち、顧客がさまざまな表現で問い合わせを行っていても、その表現に対して、さまざまな言い換えを生成して照合することができる。したがって、質問文書と回答文書の対をあらかじめ持っていれば、問い合わせの表現の違いによらずに、自動的に回答文書を割り振ることができる。
また、上記した文言い換え方法は、例えば応対記録の自動生成に用いることができる。すなわち、回答文書(回答のメールや、オペレータが電話で回答した音声を音声認識等によってテキスト化したもの)と、その応対記録(オペレータが対応内容を要約して記録するもの)とが文言い換えシステムに蓄積されている場合、その回答文書から応対記録への言い換えのモデルを学習することによって、応対記録の自動生成を実現できる。
本発明の第4の視点によれば、ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成するための変換規則を算出する変換規則算出プログラムであって、コンピュータに、記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出処理と、第1のセンテンス抽出ステップで抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出処理と、変換規則算出処理で算出した変換規則を用いて、閾値以上の類似度を有するセンテンスの組み合わせを記憶手段から再度抽出する第2のセンテンス抽出処理と、第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定処理とを実行させ、第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出処理と、変換規則算出処理と、第2のセンテンス抽出処理とを繰り返させる変換規則算出用プログラムが提供される。
上記変換規則算出用プログラムは、コンピュータに、入力手段から入力された質問文書と、質問文書に対する回答文書と、質問文書および回答文書における対応関係を示した情報とを記憶した記憶手段において、同じ内容の回答文書をまとめた1つのグループに対して、情報を適用し、同じ内容の回答文書に対応した質問文書のグループを生成する処理を実行させるものとすることができる。
また、上記変換規則算出用プログラムは、コンピュータに、記憶手段に格納されている情報を更新する処理と、記憶手段の情報が更新されたことを契機に、第1のセンテンス抽出処理を開始する処理とを実行させるものであってもよい。
本発明の第5の視点によれば、ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成する文言い換え用プログラムであって、コンピュータに、記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出処理と、第1のセンテンス抽出処理で抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出処理と、変換規則算出処理で算出した変換規則を用いて、閾値以上の類似度を有するセンテンスの組み合わせを記憶手段から再度抽出する第2のセンテンス抽出処理と、第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定処理と、第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出処理と、変換規則算出処理と、第2のセンテンス抽出処理とを繰り返す処理と、変換規則算出処理で算出した変換規則を用いて、入力された質問文書の言い換え文書を生成する文書生成処理とを実行させる文言い換え用プログラムが提供される。
上記文言い換え用プログラムは、コンピュータに、入力された質問文に対する類似度を示す値とともに、生成した言い換え文書を表示する処理を実行させるものとすることができる。
また、上記文言い換え用プログラムは、コンピュータに、文書生成処理で、入力された質問文書を単語列に分解する処理と、変換規則算出処理で算出した変換規則と単語列とを比較し、類似度の高い単語列を複数選択する選択処理と、選択処理で選択した単語列を並び替える並び換え処理とを実行させるものとすることができる。
本発明によれば、過去にユーザが入力した質問文書と、各質問文書に対する回答文書との対応関係から質問文言い換えモデルを学習することができる。その理由は、言い換え文の関係にない質問文対を段階的に除去しながら、同時に言い換えモデルを学習して、言い換えモデルの精度を高めていく逐次的な処理過程を導入したからである。そうすることにより、同一の回答文書に対応する質問文書集合の中から、言い換え文の関係にある文対を精度よく抽出することができる。
本発明による文言い換えシステムの一例を示したシステム構成図である。 文言い換えシステムの動作を説明するためのフローチャートである。 文言い換えシステムの動作を説明するためのフローチャートである。 文書集合記憶手段に記憶されている質問文集合の一例を示した説明図である。 図4に示されている各質問文書に対する回答文書の一例を示した説明図である。 図4における各質問文書と図5における回答文書との対応関係を示した説明図である。 図6の対応関係から作成される、同一の回答文書に対応する質問文書集合の関係を示した説明図である。 文対抽出手段が抽出した言い換え文対の一例を示した説明図である。 図8に示した言い換え文対に対応した各質問文のテキストの一例を示した説明図である。 モデル学習手段が言い換え文対(Q1_S1, Q1_S2)に対して実行したアライメントの結果を示す説明図である。 モデル学習手段が言い換え文対(Q1_S1, Q10_S2 )に対して実行したアライメントの結果を示す説明図である。 モデル学習手段が言い換え文対(Q2_S1, Q6_S1)に対して実行したアライメントの結果を示す説明図である。 モデル学習手段が言い換え文対(Q2_S1, Q9_S2)に対して実行したアライメントの結果を示す説明図である。 モデル学習手段が言い換え文対(Q2_S1, Q10_S2 )に対して実行したアライメントの結果を示す説明図である。 モデル学習手段が言い換え文対(Q2_S1, Q12_S2 )に対して実行したアライメントの結果を示す説明図である。 文対抽出手段が抽出した言い換え文対の一例を示した説明図である。 新たに追加された文対(Q4_S1, Q8_S1)に対応した質問文のテキストの一例を示した説明図である。 モデル学習手段が言い換え文対(Q4_S1, Q8_S1)に対して実行したアライメントの結果を示す説明図である。 入力手段に入力された質問文の一例を示した説明図である。 候補生成手段が言い換えモデルを用いて生成した言い換え候補の一例を示した説明図である。
符号の説明
100 入力手段
200 出力手段
300 データ処理装置
301 文対抽出手段
302 モデル学習手段
303 文書登録手段
304 候補生成手段
400 記憶手段
401 文書集合記憶手段
402 モデル記憶手段
403 文対記憶手段
以下、本発明の実施の形態を図面を参照して説明する。図1は、本発明による文言い換えシステムの一例を示したシステム構成図である。文言い換えシステムは、入力手段100と、出力手段200と、プログラム制御により動作するデータ処理装置300と、記憶手段400とを備えている。なお、本実施の形態における文言い換えシステムは、入力手段100に入力された質問文の言い換え候補を、記憶手段400に記憶されている質問文言い換えモデルを用いてリアルタイムに生成する。以下、入力手段100に入力された文章が質問文である場合について説明する。
入力手段100は、例えば文章等を入力するためのキーボードやマウス等によって実現される。入力手段100は、ユーザの操作に応じた入力信号をデータ処理装置300に出力する機能を有する。
出力手段200は、液晶表示装置等によって実現される。出力手段200には、例えばデータ処理装置300が生成した質問文の言い換え候補が表示される。
データ処理装置300は、文対抽出手段301と、モデル学習手段302と、文書登録手段303と、候補生成手段304とを含む。データ処理装置300は、例えばCPUと図示しない周辺回路とで実現される。データ処理装置300は、プログラム制御によって動作し、入力手段100に入力された質問文の言い換え候補を生成する。
文対抽出手段301は、後述する記憶手段400に記憶されている質問文書の集合におけるすべての文対に対して、各々の文対が言い換え文対の関係にあるかどうかを判定する機能を有する。具体的には、文対抽出手段301は、文書集合記憶手段401に記憶されている質問文書集合におけるすべての文対に対して、モデル記憶手段402に記憶されている質問文言い換えモデルを用いて言い換え文対であるかどうかを判定する。なお、本実施の形態における言い換え文対とは、言い換えの関係にある(すなわち、内容が同一である)センテンスの組み合わせ(2文1組)のことをいう。例えば、質問文が複数のセンテンスを含む場合には、その質問文における2つのセンテンスが言い換え文対と判定される場合があってもよい。文対抽出手段301は、言い換え文対と判定した文対を出力し、文対記憶手段403に記憶する。
モデル学習手段302は、文対記憶手段403に記憶されている言い換え文対を学習データとして利用し、質問文言い換えモデルを学習する機能を有する。モデル学習手段302は、学習した質問文言い換えモデルをモデル記憶手段402に記憶する。なお、本実施の形態における学習とは、従来有している質問文言い換えモデルと異なる、新たな質問文言い換えモデルを取得するまでの処理全体を指す。
また、本実施の形態では、質問文言い換えモデルは、各処理工程毎に最適な形式で適用される。例えば、文対抽出手段301は、言い換え文対を抽出する際に、質問文言い換えモデルを言い換え文対であるかどうかを判定するための翻訳確率等として使用する。また、例えばモデル学習手段302は、抽出された言い換え文対から質問文言語モデル等を学習する。本実施の形態における質問文言い換えモデルには、翻訳確率や質問文言い換え翻訳モデル、質問文言語モデル、および単語列等が含まれる。
文書登録手段303は、入力手段100から入力されたコマンドにしたがって文書集合記憶手段401の情報を更新する機能を有する。具体的には、文書登録手段303は、入力手段100に入力された、同一の回答文書を有する質問文書集合を文書集合記憶手段401に記憶する。また、文書登録手段303は、入力手段100に入力されたコマンドにしたがって、文書集合記憶手段401における質問文書集合を削除する機能を有する。なお、文書登録手段303が文対抽出手段301に出力した信号を契機として、後述する言い換え文対の抽出処理が開始される。
候補生成手段304は、入力手段100から入力された質問文に対し、言い換え候補を生成して出力手段200に出力する機能を有する。具体的には、候補生成手段304は、モデル記憶手段402に記憶された質問文言い換えモデルを適用し、入力された質問文に対する言い換え候補をリアルタイムに生成する機能を有する。そして、候補生成手段304は、生成した言い換え候補を出力手段200に出力する。
記憶手段400は、文書集合記憶手段401と、モデル記憶手段402と、文対記憶手段403とを含む。記憶手段400は、例えばRAM等の記憶媒体によって実現され、データ処理装置300が実行する制御プログラム等の各種のデータを格納する。なお、記憶手段400の一部がROMによって実現されていてもよく、ROM部分に制御プログラムが格納されていてもよい。
記憶手段400は、ユーザにより入力された質問文やその質問文に対する回答文、質問文および回答文の対応関係、および質問文言い換えモデル等を記憶する機能を有している。
文書集合記憶手段401は、入力手段100から入力された質問文書の集合と、その各質問文書に対する回答文書とから作成された、同一の回答文書に対応する質問文書の集合等を記憶する。
モデル記憶手段402は、質問文言い換えモデルを記憶する機能を有する。具体的には、モデル記憶手段402は、モデル学習手段302が学習した、質問文言語モデルや単語列等の新たな質問文言い換えモデルを記憶する。モデル記憶手段402が記憶している質問文言い換えモデルは、文対抽出手段301や候補生成手段304によって読み出される。
文対記憶手段403は、文対抽出手段301が言い換え文対であると判定した文対(センテンスの組み合わせ)やそれぞれの文対のテキストデータ等を記憶する機能を有する。文対記憶手段403が記憶している言い換え文対は、文対抽出手段301およびモデル学習手段302によって読み出される。
なお、本発明による文言い換えシステムでは、後述するように、文対抽出手段301と、モデル学習手段302と、文書登録手段303と、文書集合記憶手段401と、モデル学習手段402と、文対記憶手段403とによって、質問文言い換えモデルの学習が実現される。また、本発明による文言い換えシステムでは、入力手段100と、出力手段200と、候補生成手段304と、モデル記憶手段402とによって、質問文言い換えモデルを用いた言い換え候補の生成が実現される。
次に、本実施の形態における文言い換えシステムの動作を図面を参照して説明する。図2は、本発明による文言い換えシステムの動作を説明するためのフローチャートである。本実施の形態における文言い換えシステムでは、候補生成手段304がモデル記憶手段402から質問文言い換えモデルを読み出し、入力された質問文の言い換え候補をリアルタイムに生成する。なお、本実施の形態では、ユーザが質問文を入力する際には、質問文言い換えモデルがモデル記憶手段402に既に存在しているものとする。以下、文言い換えシステムによる質問文言い換えモデルの学習方法を説明する。
ユーザによって入力手段100にコマンドが入力されると、文書登録手段303は、文書集合記憶手段401に含まれる情報を更新する(ステップS101)。例えば登録コマンドとともに質問文書集合が入力されると、文書登録手段303は、入力された質問文書集合を文書集合記憶手段401に記録する。また、例えば文書集合記憶手段401における質問文書を選択して削除コマンドが入力されると、文書登録手段303は、選択された質問文書を文書集合記憶手段401から削除する。文書登録手段303は、文書集合記憶手段401における情報が更新されたことを契機に、言い換え文対の抽出処理を開始するための信号(トリガ)を文対抽出手段301に送信する。
文対抽出手段301は、文書集合記憶手段401に記憶されている質問文書集合におけるすべての文対に対して、それぞれの文対が言い換え文対の関係にあるかどうかを判定する。その際、文対抽出手段301は、モデル記憶手段402に記憶されている質問文言い換えモデルを用いて言い換え文対であるかどうかを判定する。文対抽出手段301は、言い換え文対と判定した文対を出力し、文対記憶手段403に記憶する(ステップS102)。
次に、モデル学習手段302は、文対記憶手段403に記憶されている言い換え文対を学習データとして利用し、質問文言い換えモデルを学習する(ステップS103)。モデル学習手段302は、学習した質問文言い換えモデルをモデル記憶手段402に記憶する。なお、質問文言い換えモデルとは、翻訳確率や質問文言い換え翻訳モデル、質問文言語モデル、単語列等をいう。
文対抽出手段301は、文書集合記憶手段401に記憶されている質問文書集合におけるすべての文対に対して、それぞれの文対が言い換え文対の関係にあるかどうかを再度判定する。具体的には、文対抽出手段301は、文書集合記憶手段401におけるすべての文対に対して、モデル学習手段302が学習した質問文言い換えモデルを用いて言い換え文対であるかどうかを判定する。その場合、同一の質問文書から言い換え文対が抽出されてもよい。文対抽出手段301は、言い換え文対と判断した文対を出力し、文対記憶手段403に再度記憶する(ステップS104)。
文対抽出手段301は、抽出した言い換え文対が収束したかどうかを判定する(ステップS105)。抽出した言い換え文対が収束していない場合、文対抽出手段301およびモデル学習手段302は、上述したステップS103、ステップS104における処理を、抽出される言い換え文対が収束するまで繰り返し実行する。なお、ステップS102の処理、第1巡目のステップS104の処理は、それぞれ、第1のセンテンス抽出ステップ、第2のセンテンス抽出ステップに相当する。さらに、第n巡目のステップS104の処理、第(n+1)巡目のステップS104の処理は、それぞれ、第1のセンテンス抽出ステップ、第2のセンテンス抽出ステップに相当する。nは1以上の整数である。また、言い換え文対が収束するとは、文対抽出手段301が最新の質問文言い換えモデルを用いて抽出した言い換え文対が、それ以前の質問文言い換えモデルを用いて抽出した言い換え文対とすべて同一となった場合のことをいう。
抽出した言い換え文対が収束している場合(ステップS105:YES)、文言い換えシステムは、質問文言い換えモデルの生成処理を終了する。
次に、入力手段100に入力された質問文の言い換え候補の生成方法を説明する。図3は、本発明による文言い換えシステムの動作を説明するためのフローチャートである。
入力手段100に質問文が入力されると(ステップ201)、候補生成手段304は、モデル記憶手段402から質問文言い換えモデルを読み出す(ステップS202)。候補生成手段304は、入力手段100から入力された質問文に対して、モデル記憶手段402に記憶されている質問文言い換えモデルを適用し、入力された質問文に対する言い換え候補をリアルタイムに生成する。
候補生成手段304は、入力手段100に入力された質問文を単語単位に分解し、モデル記憶手段402から読み出した単語列と比較する(ステップS203)。そして、後述する単語の言い換え確率が大きい単語列を複数選択する(ステップS204)。
次に、候補生成手段304は、選択した単語列を並び替え、後述する並び替え確率を求める(ステップS205)。候補生成手段304は、並び替え確率の大きい文章を複数選択し、質問文言い換え候補として出力手段200に出力する(ステップS206)。なお、候補生成手段304が出力する言い換え候補は、1つであってもよい。
次に、上述した動作を図面を参照してより具体的に説明する。
図4は、文書集合記憶手段401に記憶されている質問文書集合の一例を示した説明図である。また、図5は、図4に示されている各質問文書に対する回答文書の一例を示した説明図である。さらに、図6は、図4における各質問文書と図5における回答文書との対応関係を示した説明図である。
図6に示されている対応関係では、例えば図4における質問文書Q1に対し、図5における回答文書A1によって回答されることを示している。また、図6に示されている対応関係では、例えば図4における質問文書Q4に対しては、図5における回答文書A1とA2との2つの文書をつないだ文書で回答されることを示している。なお、図6において、質問文書に対して複数の回答文書が対応付けられている場合、その質問文書に対する回答には複数の回答文書が含まれることを示している。例えば、上述した質問文書Q4に対する回答文書の場合、回答文書にはA1とA2のいずれか一方の回答文書が含まれるという意味ではなく、A1とA2の両方の回答文書が含まれることを示している。
図7は、図6の対応関係から作成される、同一の回答文書に対応する質問文書集合の関係を示した説明図である。文書集合記憶手段401は、図7に示すような質問文書集合の関係と、図4に示すような質問文書(テキストデータ)とを記憶している。
文書集合記憶手段401に記憶されている、同一の回答文書に対応した質問文書集合におけるすべての文対に対して、文対抽出手段301は、モデル記憶手段402に記憶されている質問文言い換えモデルを用いて言い換え文対であるかどうかを判定する。例えば、図7において、文対抽出手段301は、回答文書A1に対応した質問文書Q1およびQ2に含まれるすべての文対に対して、それぞれのセンテンスが言い換え文対の関係にあるかどうかを判定する。同様に、文対抽出手段301は、回答文書A1に対応した質問文書Q1およびQ3にふくまれるすべてのセンテンスについても、それぞれが言い換え文対の関係にあるかどうかを判定する。なお、1つの質問文書に複数のセンテンスが含まれる場合(例えば、質問文書Q1が3つのセンテンスから構成されている場合)、文対抽出手段301は、同一の質問文書におけるそれぞれのセンテンスに対しても、言い換え文対であるかどうかを判定する。
次に、文対抽出手段301による言い換え文対の判定方法を説明する。ここで、共通の回答文書Aを持つ言い換え文対、質問文1(センテンス1)および質問文2(センテンス2)があるとき、文対抽出手段301は、質問文1の単語列W・・・Wから質問文2の単語列W”・・・W”への翻訳確率を、例えば次のモデルPを用いて推定する。そして、その値(翻訳確率)が閾値より高い場合に、質問文1と質問文2とが言い換え文対の関係にあると判定する。
Figure 2008078670
なお、式(1)におけるPθは閾値を表している。また、式(1)における単語列Wに関する積「Π(W’|W,A)」は、質問文言い換え翻訳モデルに相当する。
初回(n=1)では、単語の言い換え確率P(W’|W,A)、および単語の並べ替え確率P(W”・・・W”|W’・・・W’,A)が未学習であるため、
Figure 2008078670
などのようなアドホック(Ad Hoc)な初期翻訳モデルを用いる。すなわち、文対抽出手段301は、最初に文書集合記憶手段401から言い換え文対を抽出する際に、式(2)、(3)によって表される質問文言い換えモデルを使用する。
上記のような質問文言い換えモデルを用いて判定することにより、文対抽出手段301は、ステップS102の処理によって図8および図9に示すような言い換え文対および質問文(センテンス)を得る。なお、図8は、文対抽出手段301が抽出した言い換え文対の一例を示した説明図である。また、図9は、図8に示した言い換え文対に対応した各質問文のテキストの一例を示した説明図である。文対抽出手段301は、抽出した言い換え文対と、その言い換え文対に対応した各質問文のテキストとを文対記憶手段403に記憶する(ステップS102)。
次に、モデル学習手段302は、文対記憶手段403に記憶されている言い換え文対(図8および図9に示されているような言い換え文対および質問文)を学習データとして利用し、質問文言い換えモデルPを学習する。
その際、モデル学習手段302は、単語の言い換え確率P(W’|W,A)(すなわち、質問文言い換えモデル)を求めるために、言い換え文対の単語に関する対応関係の推定(アライメント)を行う。具体的には、モデル学習手段302は、図8に示された言い換え文対の関係を用いて、図9に示された質問文における単語の対応関係を推定する。
図10は、モデル学習手段302が言い換え文対(Q1_S1, Q1_S2)に対して実行した推定の結果を示す説明図である。同様に、図11は言い換え文対(Q1_S1, Q10_S2 )、図12は言い換え文対(Q2_S1, Q6_S1)、図13は言い換え文対(Q2_S1, Q9_S2)、図14は言い換え文対(Q2_S1, Q10_S2 )、および、図15は言い換え文対(Q2_S1, Q12_S2 )に対して実行した推定の結果を示す説明図である。なお、図10〜15における符号「φ」は、対応する単語が存在しないことを示している。
モデル学習手段302は、図10〜15に示す言い換え文対における、対応した単語間の言い換え回数にもとづいて、単語の言い換え確率P(W’|W,A)を推定する。また、モデル学習手段302は、単語の並べ替え確率Pn(W”・・・W”|W’・・・W’,A)を推定する。例えば、モデル学習手段302は、単語の置き換えを行った単語列W’・・・W’から、言い換え文における単語列W”・・・W”への並び替えを、言い換え後の単語列の出現確率で代替する。
Figure 2008078670
なお、式(4)における単語列の出現確率PN−gram(W”・・・W”)は、質問文言語モデルに相当する。モデル学習手段302は、式(4)に示すような質問文言語モデル等を質問文言い換えモデルとして学習し、モデル記憶手段402に記憶する(ステップS103)。
文対抽出手段301は、新たに学習した質問文言い換えモデルPを用いて、文書集合記憶手段401から再度言い換え文対を抽出する(ステップS104)。そして、文対抽出手段301は、言い換え文対と判定した文対を文対記憶手段403に記録する。
図16は、文対抽出手段301が質問文言い換えモデルPを用いて抽出した言い換え文対の一例を示した説明図である。例えば、図16における言い換え文対と図8における言い換え文対とを比較すると、図16に示す言い換え文対には、文対(Q4_S1, Q8_S1)が新たな言い換え文対として追加されている。文対抽出手段301は、図16に示されている言い換え文対を文対記憶手段403に記録する。
なお、図17は、図16における、新たに追加された言い換え文対(Q4_S1, Q8_S1)に対応した質問文のテキストの一例を示した説明図である。また、図18は、モデル学習手段302が言い換え文対(Q4_S1, Q8_S1)に対して実行した推定の結果を示す説明図である。
文対記憶手段403に文対(Q4_S1, Q8_S1)が新たな言い換え文対として追加されたため、文対抽出手段301は、言い換え文対が収束していないと判定する(ステップS105:NO)。なお、文対抽出手段301は、質問文言い換えモデルPを用いて抽出した言い換え文対を文対記憶手段403に記録する際に、質問文言い換えモデルPを用いて抽出した言い換え文対を文対記憶手段403から読み出し、言い換え文対が収束したかどうかを判定する。
モデル学習手段302および文対抽出手段301は、再度、ステップS103およびステップS104における処理を実行する。そうすることによって、モデル学習手段302は、新たな質問文言い換えモデルPを得る(ステップS103)。
文対抽出手段301は、質問文言い換えモデルPを用いて文書集合記憶手段401から再度言い換え文対を抽出する(ステップS104)。そして、文対抽出手段301は、抽出した言い換え文対が収束したかどうかを判定する(ステップS105)。質問文言い換えモデルPを用いて抽出した言い換え文対が前回抽出した言い換え文対(質問文言い換えモデルPを用いて抽出した言い換え文対)と変わらない場合、文対抽出手段301は、言い換え文対が収束したと判定する(ステップS105:YES)。質問文言い換え文対が収束したと判定されると、文言い換えシステムは、質問文言い換えモデルの生成を終了する。
そして、入力手段100に質問文が入力されると(ステップS201)、候補生成手段304は、モデル記憶手段402から質問文言い換えモデルを読み出す(ステップS202)。候補生成手段304は、入力手段100から入力された質問文に対して、モデル記憶手段402に記憶されている質問文言い換えモデルを適用し、入力された質問文に対する言い換え候補をリアルタイムに生成する。
候補生成手段304は、入力手段100に入力された質問文を単語単位に分解し、モデル記憶手段402から読み出した単語列と比較する(ステップS203)。そして、単語の言い換え確率が大きい単語列を複数選択する(ステップS204)。
候補生成手段304は、選択した単語列の並び替えを実行し、単語の並び替え確率を求める(ステップS205)。候補生成手段304は、並び替え確率の大きい文章を複数選択し、質問文言い換え候補として出力手段200に出力する(ステップS205)。なお、候補生成手段304が出力する言い換え候補は、1つであってもよい。
以上のように、候補生成手段304は、入力手段100から入力された質問文に対し、モデル記憶手段402に記憶された質問文言い換えモデルを適用して言い換え候補を生成する。
図19は、入力手段100に入力された質問文の一例を示した説明図である。また、図20は、図19に示した質問文に対して、候補生成手段304が質問文言い換えモデルを用いて生成した言い換え候補の一例を示した説明図である。図19に示すような入力質問文Q_in に対し、候補生成手段304は、質問文言い換えモデルPを用いて、図20に示すような言い換え候補を生成する。候補生成手段304は、生成した言い換え候補を、質問文言い換えモデルの確率値(スコア)とともに出力手段200に出力する(ステップS105)。なお、質問文言い換えモデルの確率値(スコア)は、質問文言い換えモデル(単語の並び替え確率)の対数で表現される。また、スコアの値が大きい(すなわち、スコアの絶対値が小さい)言い換え候補ほど、入力された質問文に対して類似度が高いことを示している。
以上のように、本実施の形態における文言い換えシステムでは、同一の回答文書に対応する質問文書集合から、言い換えの関係にあるセンテンスのみが篩い分けられる。すなわち、質問文言い換えモデルを用いることによって、言い換えの関係にある文対のみを抽出できる。
また、本発明による文言い換えシステムは、質問文言い換えモデルを用いた言い換え文対の抽出と、抽出された言い換え文対による質問文言い換えモデルの学習との2つの過程を抽出文セット(抽出される言い換え文対)が収束するまで交互に繰り返し、最終的な質問文言い換えモデルを得る。このような逐次処理によって、適切な言い換えモデルを学習することができ、同一の回答文書に対応する質問文書集合の中から、言い換え文の関係にある文対を精度良く抽出することができる。
以上本発明の好適な実施形態について説明したが、本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。例えば、上記した実施形態では、質問文言い換えモデルがモデル記憶手段402に既に存在している場合を説明したが、文言い換えシステムは、入力手段100に質問文が入力されたことを契機として、質問文言い換えモデルの生成を開始してもよい。
本発明は、入力された文章を異なる表現の文章に変換する文の言い換えシステムに適用できる。特に本発明は、質問文の表現不一致を解消できるため、メール応対事例の検索精度向上に適用できる。また、本発明は、メールで受信した質問文書に対する回答文書の自動生成や応対記録(要約)の自動生成に適用できる。

Claims (17)

  1. ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成する文言い換え方法であって、
    記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出ステップと、
    前記第1のセンテンス抽出ステップで抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出ステップと、
    前記変換規則算出ステップで算出した変換規則を用いて、前記閾値以上の類似度を有するセンテンスの組み合わせを前記記憶手段から再度抽出する第2のセンテンス抽出ステップと、
    第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定ステップと、
    前記変換規則算出ステップで算出した変換規則を用いて、入力された質問文書の言い換え文書を生成する文書生成ステップとを含み、
    第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出ステップと、変換規則算出ステップと、第2のセンテンス抽出ステップとを繰り返し実行する
    ことを特徴とする文言い換え方法。
  2. 生成した言い換え文書をユーザに対して表示するステップを含み、
    前記生成した言い換え文書を、入力された質問文に対する類似度を示す値とともに表示する請求項1記載の文言い換え方法。
  3. 前記文書生成ステップは、
    入力された質問文書を単語列に分解するステップと、
    前記変換規則算出ステップで算出した変換規則と前記単語列とを比較し、類似度の高い単語列を複数選択する選択ステップと、
    前記選択ステップで選択した単語列を並び替える並び換えステップとを含む
    請求項1または請求項2記載の文言い換え方法。
  4. ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成するための変換規則を算出する変換規則算出方法であって、
    記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出ステップと、
    前記第1のセンテンス抽出ステップで抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出ステップと、
    前記変換規則算出ステップで算出した変換規則を用いて、前記閾値以上の類似度を有するセンテンスの組み合わせを前記記憶手段から再度抽出する第2のセンテンス抽出ステップと、
    第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定ステップとを含み、
    第1および第2のセンテンス抽出ステップで抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出ステップと、変換規則算出ステップと、第2のセンテンス抽出ステップとを繰り返し実行する
    ことを特徴とする変換規則算出方法。
  5. 記憶手段に、入力手段から入力した質問文書と、前記質問文書に対する回答文書と、前記質問文書および前記回答文書における対応関係を示した情報とを記憶させ、
    同じ内容の回答文書をまとめた1つのグループに対して、前記情報を適用し、同じ内容の回答文書に対応した質問文書のグループを生成する
    請求項4記載の変換規則算出方法。
  6. 前記記憶手段に格納されている情報を更新するステップを含み、前記記憶手段の情報が更新されたことを契機に、第1のセンテンス抽出ステップにおける処理を開始する請求項4または請求項5記載の変換規則算出方法。
  7. ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成する文言い換えシステムであって、
    質問文書を入力するための入力手段と、
    前記入力手段に入力された質問文書と、前記質問文書に対する回答文書とを記憶する記憶手段と、
    前記記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出するセンテンス抽出手段と、
    前記センテンス抽出手段で抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出手段と、
    前記変換規則算出手段が算出した変換規則を用いて、ユーザによって前記入力手段に入力された質問文書の言い換え文書を生成する文書生成手段とを備えた
    ことを特徴とする文言い換えシステム。
  8. 記憶手段は、
    入力手段に入力された質問文書と、前記質問文書に対する回答文書とを記憶する第1の記憶手段と、
    前記センテンス抽出手段が抽出したセンテンスの組み合わせを記憶する第2の記憶手段と、
    前記変換規則算出手段が算出した変換規則を記憶する第3の記憶手段とを含む
    請求項7記載の文言い換えシステム。
  9. 前記変換規則は、少なくとも翻訳モデルと、言語モデルと、単語列とを含む請求項7または請求項8記載の文言い換えシステム。
  10. 前記文書生成手段が生成した言い換え文書を表示する表示手段を備え、
    前記表示手段は、前記文書生成手段が生成した言い換え文書を、ユーザによって入力手段に入力された質問文との類似度を示す値とともに表示する
    請求項7から請求項9のうちのいずれか1項に記載の文言い換えシステム。
  11. 入力手段に入力されたコマンドにしたがって、記憶手段における情報を更新する情報更新手段を備え、
    前記情報更新手段は、前記記憶手段における情報を更新した場合に、センテンスの組み合わせの抽出を開始するための信号を前記センテンス抽出手段に送信する
    請求項7から請求項10のうちのいずれか1項に記載の文言い換えシステム。
  12. ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成するための変換規則を算出する変換規則算出用プログラムであって、
    コンピュータに、
    記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出処理と、
    前記第1のセンテンス抽出ステップで抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出処理と、
    前記変換規則算出処理で算出した変換規則を用いて、前記閾値以上の類似度を有するセンテンスの組み合わせを前記記憶手段から再度抽出する第2のセンテンス抽出処理と、
    前記第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定処理とを実行させ、
    前記第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出処理と、変換規則算出処理と、第2のセンテンス抽出処理とを繰り返させるための
    変換規則算出用プログラム。
  13. コンピュータに、
    入力手段から入力された質問文書と、前記質問文書に対する回答文書と、前記質問文書および前記回答文書における対応関係を示した情報とを記憶した記憶手段において、
    同じ内容の回答文書をまとめた1つのグループに対して、前記情報を適用し、同じ内容の回答文書に対応した質問文書のグループを生成する処理を実行させるための
    請求項12記載の変換規則算出用プログラム。
  14. コンピュータに、
    前記記憶手段に格納されている情報を更新する処理と、
    前記記憶手段の情報が更新されたことを契機に、第1のセンテンス抽出処理を開始する処理とを実行させるための
    請求項12または請求項13記載の変換規則算出用プログラム。
  15. ユーザによって入力された質問文書に対して、同じ内容の異なる表現の質問文書を生成する文言い換え用プログラムであって、
    コンピュータに、
    記憶手段に格納されている同一の回答文書を有する質問文書のなかから、設定された閾値以上の類似度を有するセンテンスの組み合わせを抽出する第1のセンテンス抽出処理と、
    前記第1のセンテンス抽出処理で抽出したセンテンスの組み合わせから、同じ内容の異なる表現のセンテンスに変換するための変換規則を算出する変換規則算出処理と、
    前記変換規則算出処理で算出した変換規則を用いて、前記閾値以上の類似度を有するセンテンスの組み合わせを前記記憶手段から再度抽出する第2のセンテンス抽出処理と、
    前記第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致しているかどうかを判定する判定処理と、
    前記第1および第2のセンテンス抽出処理で抽出したセンテンスの組み合わせがすべて一致していると判定されるまで、第1のセンテンス抽出処理と、変換規則算出処理と、第2のセンテンス抽出処理とを繰り返す処理と、
    前記変換規則算出処理で算出した変換規則を用いて、入力された質問文書の言い換え文書を生成する文書生成処理とを
    実行させるための文言い換え用プログラム。
  16. コンピュータに、入力された質問文に対する類似度を示す値とともに、生成した言い換え文書を表示する処理を実行させるための請求項15記載の文言い換え用プログラム。
  17. コンピュータに、
    文書生成処理で、
    入力された質問文書を単語列に分解する処理と、
    前記変換規則算出処理で算出した変換規則と前記単語列とを比較し、類似度の高い単語列を複数選択する選択処理と、
    前記選択処理で選択した単語列を並び替える並び換え処理とを実行させるための
    請求項15または請求項16記載の文言い換えプログラム。
JP2008551075A 2006-12-22 2007-12-21 文言い換え方法、プログラムおよびシステム Expired - Fee Related JP5126068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008551075A JP5126068B2 (ja) 2006-12-22 2007-12-21 文言い換え方法、プログラムおよびシステム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006345757 2006-12-22
JP2006345757 2006-12-22
PCT/JP2007/074628 WO2008078670A1 (ja) 2006-12-22 2007-12-21 文言い換え方法、プログラムおよびシステム
JP2008551075A JP5126068B2 (ja) 2006-12-22 2007-12-21 文言い換え方法、プログラムおよびシステム

Publications (2)

Publication Number Publication Date
JPWO2008078670A1 true JPWO2008078670A1 (ja) 2010-04-22
JP5126068B2 JP5126068B2 (ja) 2013-01-23

Family

ID=39562460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008551075A Expired - Fee Related JP5126068B2 (ja) 2006-12-22 2007-12-21 文言い換え方法、プログラムおよびシステム

Country Status (4)

Country Link
US (1) US8447589B2 (ja)
JP (1) JP5126068B2 (ja)
CN (1) CN101563682A (ja)
WO (1) WO2008078670A1 (ja)

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20090204399A1 (en) * 2006-05-17 2009-08-13 Nec Corporation Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010073591A1 (ja) * 2008-12-26 2010-07-01 日本電気株式会社 テキスト処理装置、テキスト処理方法、及びコンピュータ読み取り可能な記録媒体
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8484016B2 (en) 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9330659B2 (en) * 2013-02-25 2016-05-03 Microsoft Technology Licensing, Llc Facilitating development of a spoken natural language interface
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP5408380B1 (ja) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
US9299339B1 (en) * 2013-06-25 2016-03-29 Google Inc. Parsing rule augmentation based on query sequence and action co-occurrence
IN2013MU02217A (ja) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150088485A1 (en) * 2013-09-24 2015-03-26 Moayad Alhabobi Computerized system for inter-language communication
US9336186B1 (en) * 2013-10-10 2016-05-10 Google Inc. Methods and apparatus related to sentence compression
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10339453B2 (en) * 2013-12-23 2019-07-02 International Business Machines Corporation Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP2017167659A (ja) * 2016-03-14 2017-09-21 株式会社東芝 機械翻訳装置、方法、およびプログラム
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN107526720A (zh) * 2016-06-17 2017-12-29 松下知识产权经营株式会社 意思生成方法、意思生成装置以及程序
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9984063B2 (en) 2016-09-15 2018-05-29 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
US9953027B2 (en) * 2016-09-15 2018-04-24 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102589638B1 (ko) * 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
US11182435B2 (en) * 2016-11-25 2021-11-23 Nippon Telegraph And Telephone Corporation Model generation device, text search device, model generation method, text search method, data structure, and program
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
US10572596B2 (en) 2017-11-14 2020-02-25 International Business Machines Corporation Real-time on-demand auction based content clarification
US20190163756A1 (en) * 2017-11-29 2019-05-30 International Business Machines Corporation Hierarchical question answering system
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
JP7149560B2 (ja) * 2018-04-13 2022-10-07 国立研究開発法人情報通信研究機構 リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
JP7087938B2 (ja) * 2018-06-07 2022-06-21 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
US11055355B1 (en) * 2018-06-25 2021-07-06 Amazon Technologies, Inc. Query paraphrasing
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11263394B2 (en) * 2019-08-02 2022-03-01 Adobe Inc. Low-resource sentence compression system
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP7467057B2 (ja) 2019-09-26 2024-04-15 キヤノンメディカルシステムズ株式会社 診療支援装置及び診療支援プログラム
US11295089B2 (en) 2020-03-01 2022-04-05 International Business Machines Corporation Dynamically enhancing an instrument using multi-stem definitions
CN111401033B (zh) 2020-03-19 2023-07-25 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0473864A1 (en) * 1990-09-04 1992-03-11 International Business Machines Corporation Method and apparatus for paraphrasing information contained in logical forms
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP2002014990A (ja) 2000-06-28 2002-01-18 Communication Research Laboratory 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP3780341B2 (ja) * 2002-11-21 2006-05-31 独立行政法人情報通信研究機構 言語解析処理システムおよび文変換処理システム
JP2005092271A (ja) 2003-09-12 2005-04-07 Hitachi Ltd 質問応答方法及び質問応答装置
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing

Also Published As

Publication number Publication date
WO2008078670A1 (ja) 2008-07-03
JP5126068B2 (ja) 2013-01-23
CN101563682A (zh) 2009-10-21
US8447589B2 (en) 2013-05-21
US20100010803A1 (en) 2010-01-14

Similar Documents

Publication Publication Date Title
JP5126068B2 (ja) 文言い換え方法、プログラムおよびシステム
CN106202059B (zh) 机器翻译方法以及机器翻译装置
CN110164435B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
JP2016218995A (ja) 機械翻訳方法、機械翻訳装置及びプログラム
KR102100951B1 (ko) 기계 독해를 위한 질의응답 데이터 생성 시스템
JPWO2007138875A1 (ja) 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
CN110674276B (zh) 机器人自学习方法、机器人终端、装置及可读存储介质
WO2019150583A1 (ja) 質問群抽出方法、質問群抽出装置および記録媒体
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN117217315B (zh) 一种利用大语言模型生成高质量问答数据的方法及装置
JP7031462B2 (ja) 分類プログラム、分類方法、および情報処理装置
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN110413779B (zh) 一种针对电力行业的词向量训练方法及其系统、介质
JP6550628B1 (ja) 対話管理サーバ、対話管理方法、及びプログラム
CN111859950A (zh) 一种自动化生成讲稿的方法
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN111400479B (zh) 针对多轮对话的问题识别方法和装置
JP5290218B2 (ja) 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
US20190354578A1 (en) Generating annotated natural language phrases
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP2019220115A (ja) 音声対話システムとモデル作成装置およびその方法
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
JP2019204415A (ja) 言い回し文生成方法、言い回し文装置及びプログラム
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

R150 Certificate of patent or registration of utility model

Ref document number: 5126068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees