WO2003056451A1

WO2003056451A1 - Procede de generation de texte et generateur de texte

Info

Publication number: WO2003056451A1
Application number: PCT/JP2002/013185
Authority: WO
Inventors: Kiyotaka Uchimoto; Hitoshi Isahara
Original assignee: Communications Research Laboratory,Independent Administrative Institution
Priority date: 2001-12-27
Filing date: 2002-12-17
Publication date: 2003-07-10
Also published as: JP2003196280A; US20050050469A1; JP3921523B2; EP1469398A1; EP1469398A4

Description

テキスト生成方法及びテキスト生成装置技術分野

本発明は自然言語処理方法及び装置に関する。特に、いくつかのキ一ヮ' ドからテキストを生成する手法に特徴を有する。

近年、コンピュータによって言語のテキストを解析する技術、或いは生成する技術の開発が進んでいる。特にテキストの生成においては、いかに自然なテキストを生成できるかが、課題となっており、人間が生成したものと遜色のない生成方法の提供が求められている。

例えば、いくつかのキーワードを入力したときに、それらのキーワードを用いて自然なテキストを生成する技術は、外国人など、文章作成の苦手な者への作成支援を行うことに寄与する。，

また、単語を列挙することで相手への意思を伝達できるため、機械翻訳に近い使い方も可能である。

例えば、失語症患者の文生成支援では、現在、日本全国でおよそ 1 0万人程度の失語症患者がおり、その 8割程度の人はとぎれとぎれの文（単語の列 ) を発声できる、あるいは単語の候補を提示してあげると言いたいことを表現するためにその中からいくつか単語を選択することができると言われている。

そこで、例えば「彼女公園行った」などを発声あるいは選択し、そこから自然な文「彼女が公園へ行った」、「彼女と公園へ行った」などを生成して提示することによって、患者のコミュニケーションを支援する。

このように、 1つ以上のキーワードを入力して、自然なテキストを生成する従来の技術として、テンプレートをもとに文を生成する技術や、キーヮ一ドをもとにデ一夕ベースから文を検索する技術はすでに存在する。

しかし、これらの技術ではテンプレートに合致する場合のみ、あるいはデ一夕ベース中に含まれる文と合致する場合のみにしか有効でなく、いずれも限られた型の文しか生成できない。

また、検索の際、適合しやすくなるようにキーワードを類義語などに置き換える技術も提案されているが、キーヮ一ドから生成されるべき文のバリエ —ションは多岐に亙るため、十分であるとはいえない。発明の開示

本発明は、このような従来の背景から創出されたものであり、 1つ以上のキ一ワードを基に、そのキーワードから自然なテキストを生成する生成方法 •生成装置を提供する。

すなわち、本発明によると、次の各ステップに基づいてテキストの生成を行う。

まず、 1個以上のキ一ワードとなる単語を入力する入力ステップで、「彼女」「公園」「行った」などを入力する。

そして、該キ一ワードに係るテキスト又は語句を、データベースから抽出する抽出ステップに進む。データベースには多くの例文が搭載されており、例えば「彼女」という単語を含むテキストや語句を探して抽出する。

次に、抽出されたテキスト又は語句を組み合わせて、入力したキ一ワードを用いる最適なテキストを生成する。このテキスト生成ステップでは、例えば「彼女」、「〜へ」、「行った」を含むテキストがデ一夕べ一ス中にあるときに、「彼女は公園へ行った」というように組み合わせてテキストを生成する。

ここで、前記抽出ステップでテキストだけを抽出する構成とし、前記テキスト生成ステップにおいて、抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得てもよい。そして、キーワードを含む係り受け構造を形成することによって、より自然なテキスト生成を実現することもできる。

さらに、キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成してもよい。

本発明では、語順についても語順モデルを用いて、自然な文の並びとなるテキストの生成を図ることもできる。テキスト生成ステップにおいて、係り受け構造を形成する過程あるいは形成した後で用いることができる。

また、テキスト生成ステップにおいて、キ一ワードの全ての配列について

、任意の 2つのキ一ヮ一ド間に補完すべき単語があるか否かを学習モデルを用いて判定することもできる。学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーヮ一ド間についても補完すべき単語がない確率が最も高くなるまで繰り返す。キーワードには補完した単語を編入することができるので、補完された単語間にもさらに補完することもできる。これにより、好適な補完が実現できるので、与えるキ一ワードが少ない場合でも、自然なテキスト生成を図ることができる。

また、本発明では、上記のデ一夕ベースに、特徴的なテキストパターンを有するテキストを備え、テキスト生成ステップがその特徴を反映したテキストを生成する構成をとることもできる。

例えば、文体や言い回しなどについて特徴のあるテキストをデータベースに備えておくことで、生成されるテキストが、その特徴に準拠したテキストになる。

本発明は、文又は文章のテキストを生成するテキスト生成装置として提供することもできる。該テキスト生成装置には、 1個以上のキーワードとなる単語を入力する入力手段、複数のテキス卜で構成されるテキストデータべ一ス、該キ一ワードに係るテキスト又は語句を、該テキストデータベースから検索し、抽出する抽出手段、抽出されたテキスト又は語句を組み合わせて、入力したキーワードを用いる最適なテキストを生成するテキスト生成手段を備える。抽出手段がテキストだけを抽出する構成では、抽出されたテキス卜を形態素解析及び構文解析し、該テキストの係り受け構造を得る解析手段と、前記キーワードを含む係り受け構造を形成する係り受け構造形成手段とをテキスト生成手段に含むこともできる。

特に、テキスト生成手段において、係り受け構造形成手段が、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成するとよい。

テキスト生成手段において、係り受け構造を形成する過程あるいは形成した後で、語順モデルを用いて自然な文の並びとなる最適なテキストを生成することもできる。

また、テキスト生成手段において、前記キーワードの全ての配列について

、任意の 2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれの'キ一ヮ一ド間についても補完すべき単語がない確率が最も高くなるまで繰り返す単語補完手段を含んでもよい。

テキスト生成装置においても、上記同様、デ一夕ベースに特徴的なテキストパターンを有するテキストを備え、テキスト生成手段がその特徴を反映したテキストを生成するようにしてもよい。

さらに、パターン選択手段を設けることで、複数のテキストパターンを適宜選択切換することもできる。図面の簡単な説明

第 1図は、本発明によるテキスト生成装置の説明図である。

第 2図は、テキスト生成部において解析された係り受け構造の部分グラフである。

第 3図は、テキスト生成部において生成された係り受け構造木である。

第 4図は、別の例文における係り受け構造木である。

第 5図は、係り文節の順序が適切である確率の計算例である。符号の指示部位は次の通りである。 1 :テキスト生成装置、 2 :入力するキ一ワード、 3 :出力されたテキスト、 1 0 :キーワード入力部、 1 1 :テキスト語句検索抽出部、 1 2 ：テキスト生成部、 1 2 a :解析部、 1 2 b : 形成部、 1 2 c :評価部、 1 3 ：データベース発明を実施するための好ましい形態

以下、本発明の実施方法を図面に示した実施例に基づいて説明する。なお、本発明の実施形態は以下に限定されず、適宜変更可能である。

図 1には本発明におけるテキスト生成装置（1) の説明図を示す。該装置には、キーワード入力部（1 0) 、テキスト語句検索抽出部（1 1) 、テキスト生成部（1 2) と共に、データベース（1 3) を備える。デ一夕ベース ( 1 3) には予め複数のテキストがテ一ブルとして備えられており、該テ一ブルの内容については適宜変更させることもできる。内容を変更することで様々なテキストの生成を実現できるが、この点については後述する。

そして、例えば「彼女」「公園」「行った」の 3つのキ一ワード（2) をキーワード入力部（1 0) から入力すると、テキスト語句検索抽出部（1 1 ) がデータベース（1 3) からキ一ワードの少なくとも 1つを含むテキストや語句を検索して、それらを抽出する。

さらにテキスト生成部（1 2) では抽出されたテキストや語句に基づき、それらを組み合わせることで、自然なテキスト、ここでは「彼女は公園へ行つた」（3) を出力する。

各過程をさらに詳述する。まず、キーワード入力部（1 0) において入力されたキーワードについて、テキスト語句検索抽出部（1 1) でデータべ一ス（1 3) からキーワード n個を含む文を抽出する。ここで、キーワードは 1つでも含めばよい。抽出された文はテキスト生成部（1 2) に送られる。テキスト生成部（1 2) は、解析部（1 2 a) と形成部（1 2 b) 、評価部（1 2 c) から成り、解析部（12 a) においてまず抽出した文の形態素解析及び構文解析を行う。形態素解析には、例えば本件出願人らが特願 2 0 0 1— 1 3 9 5 6 3号で出願中の M Eモデルによる形態素の解析方法を用いることができる。

ここで、形態素解析を M Eモデルに適用するために、形態素としての尤もらしさを確率として表す。

すなわち、文が与えられたとき、その文を形態素解析するという問題は文を構成する各文字列に、 2つの識別符号のうち 1つ、つまり、形態素であるか否かを示す「1」又は「0」を割り当てる問題に置き換えることができるさらに、形態素である場合には文法的属性を付与するために「1」を文法的属性の数だけ分割する。すると、文法的属性の数が n個のとき、各文字列に「0」から「n」までのうちいずれかの識別符号を割り当てる問題に置き換えることができる。

したがって、形態素解析に M Eモデルを用いた手法では、文字列が、形態素であって、かついずれかの文法的属性を持つとしたときの尤もらしさを M Eモデルにおける確率分布の関数に適用することで求められる。形態素解析においてはこの尤もらしさを表す確率に、規則性を見いだすことで処理を行つている。

用いる素性としては、着目している文字列の字種の情報、その文字列が辞書に登録されているかどうか、 1つ前の形態素からの字種の変化、 1つ前の形態素の品詞などの情報を用いる。 1個の文が与えられたとき、文全体で確率の積が最大になるよう形態素に分割し文法的属性を付与する。最適解の探索には適宜公知のアルゴリズムを用いることができる。

このように、 M Eモデルを用いた形態素解析方法は、例えば未知語を含んでいても有効な形態素解析ができるなど、優位性の高い方法である。本発明の実施においては、上記方法によることが特に効果的であるが、必ずしも限定されるものではなく、任意の形態素解析方法を用いることができる。

さらに、解析部（1 2 a ) における構文解析についても M Eモデルを用いた解析手法を導入することができる。構文解析についても、他の任意の手法に置き換えることができるが、一実施例として以下の手法を示す。前記デー夕ベース（1 3 ) はテキスト生成部（1 2 ) からも参照が可能であり、本 M Eモデルではデータベースに含まれる複数のテキストから学習を行うことができる。

構文解析のうち、係り受け解析についての導入をする。どの文節がどの文節を修飾するかという日本語の係り受け関係には、主に以下の特徴があるとされている。すなわち、

( 1 ) 係り受けは前方から後方に向いている。

( 2 ) 係り受け関係は交差しない。（以下、これを非交差条件と呼ぶ。）

( 3 ) 係り要素は受け要素を 1 つだけもつ。

( 4 ) ほとんどの場合、係り先の決定には前方の文脈を必要としない。

本実施例では、これらの特徴に着目し、統計的手法と文末から文頭に向けて解析する方法を組み合わせることにより高い解析精度を得ることを実現した。

まず、文末から順に 2つずつ文節を取り上げ、それらが係り受けの関係にあるかどうかを統計的に決定する。その際、文節あるいは文節間にみられる情報を素性として利用するが、どのような素性を利用するかが精度に影響する。

文節は、前の主辞にあたる部分と後ろの助詞や活用形にあたる部分に分けて考え、それぞれの素性とともに文節間の距離や句読点の有無なども素性として考慮する。

さらに括弧の有無や文節間の助詞「は」の有無、係り側の文節と同じ助詞や活用形が文節間にもあるか否か、素性間の組み合わせについても考慮している。

M Eモデルによればこういつた様々な素性を扱うことができる。

そして、この方法では決定木ゃ最尤推定法などを用いた従来の手法に比べて学習データの大きさが 1 0分の 1程度であるにも関わらず、同程度以上の精度が得られる。この手法は学習に基づくシステムとして、最高水準の精度を得られる手法である。

さらに、従来は、学習デ一夕から得られる情報を基に、 2つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習していたが、新たに前文節が「後文節を越えて先にある文節に係る」「後文節に係る」「後文節との間にある文節に係る」の 3つの状態のどれであるかを予測するのに有効な情報を学習する方法によって、より高精度な係り受け解析を可能にしている。

このように、 MEモデルを用いた形態素解析方法、構文解析方法を採用することによって、解析部（12 a) ではデータベース（1 3) から検索抽出されたテキストを正確に解析し、該テキストの係り受け構造を得る。該係り受け構造は部分グラフとして表すことができる。ここで、グラフ構造のノードが文節、アークが係り受けとする。

各キーワードを少なくとも一つ含む部分グラフをすベて抽出し、頻度を調ベる。ノードは汎化した情報 (人名、組織名などの固有表現や品詞)のみを持つものも考慮する。

デ—夕べ—ス（i s) から上記のキ一ワードに基づいて抽出され、解析した結果のうち、頻度が高かったものが図 2の aと bである。例えば aにおいて、キーワード「彼女は」をノード（親ノード 1) (20) とすると、「< 名詞 > +へ」がノード（親ノード 2) (21) 、「ぐ動詞 >。」がノ一ド（子ノード) (22) として係り受け関係（23) をもつ。

この過程より先はテキスト生成部（12) のうち形成部（12 b) における処理に移行する。ただし、本実施例では、テキスト生成部（12) における解析と形成は以下に示すように一体的な処理であり、相互に連係して動作する。

入力するキーワード n個は係り受け関係にあると仮定し、入力単語 n個を含むような係り受け構造木を生成する。木の生成には上記の部分グラフを組み合わせて用いる。

例えば、上記のキーワード 3個を入力して、それらが係り受け関係にあると過程し、部分グラフを組み合わせる（この場合は当てはめる） 'と、図 3に示す a及び bが得られる。

ここで、生成された 2つの木（図 3 a · b ) のうち、いずれが適当であるかを再び上記の係り受けモデルを用いて選択する。

順序付けの際には、組み合わせた部分グラフ間での一致する割合、頻度、係り受け関係を考慮する。特に nが 3以上の場合、単語 n偭間の係り受け関係には曖昧性があるが、曖昧性の解消には、係り受けモデルを利用する。係り受けモデルによって求められる確率値が大きなものを優先して順序付けする。

その結果、 aの木における確率値により高い結果が得られ、最適な係り受け関係は aであることが選択される。

日本語においては、語順の制限が比較的緩やかであり、係り受け関係が決定されると自然なテキストに近い結果が得られるが、本発明の対象とする言語は必ずしも日本語に限られず、他の言語で用いることも考えられる。

また、日本語においてもより自然なテキストに寄与するためには最も自然な語順が選択されることが望ましく、本発明では、次のように並べ替えることができる。

まず、優先順位の高い木から、自然な文の並びに置き換えて出力する。その際、依存構造から自然な並びの文を生成する M Eモデルを用いた語順モデルを利用する。語順モデルの学習についてもデータべ一ス（1 3 ) を参照して行うことができる。

語順が自由であると言われる日本語でも、これまでの言語学的な調査によると、時間を表す副詞の方が主語より前に来やすい、長い修飾句を持つ文節は前に来やすいといった何らかの傾向がある。もしこの傾向をうまく整理することができれば、それは自然な文を生成する際に有効な情報となる。ここで語順とは、係り相互間の語順、つまり同じ文節に係っていく文節の順序関係を意味するものとする。語順を決定する要因にはさまざまなものがあり、例えば、修飾句の長い文節は短い文節より前に来やすい、「それ」などの文脈指示語を含む文節は前に来やすい、などがあげられる。

本実施例においては、上記のような要素と語順の傾向との関係、すなわち規則性を所定のテキストから学習する手法を考案した。この手法では、語順の決定にはどの要素がどの程度寄与するかだけでなく、どのような要素の組み合わせのときにどのような傾向の語順になるかということも学習に用いるテキストから演繹的に学習することができる。個々の要素の寄与の度合は M Eモデルを用いて効率良く学習する。係り文節の数によらず 2つずつ取り上げてその順序を学習する。

文を生成する際には、この学習したモデルを用いて、係り受け関係にある文節を入力とし、その係り文節の順序を決めることができる。語順の決定は次の手順で行なう。

まず、係り文節について可能性のある並びをすベて考える。次に、それぞれの並びについて、その係り文節の順序が適切である確率を学習したモデルを用いて求める。この確率は、順序が適切であるか否かの「0」または「1 」に置き換え、 M Eモデルにおける確率分布の関数に適用することで求められる。

そして、全体の確率が最大となる並びを解とする。全体の確率は、係り文節を 2つずつ取り上げたときその順序が適切である確率を計算し、それらの積として求める。

例えば、「昨日/テニスを Z太郎は/した。」という文で最適な語順の決定を説述する。上記と同様に係り受け構造木を作成すると、最も確率値の高い構造木が図 4のように得られる。

すなわち、動詞「した。」（4 3 ) に係る文節は「昨日」（4 0 ) 、「テニスを」（4 1 ) 、「太郎は」（4 2 ) の 3つである。この 3つの係り文節の順序を決定する。

図 5に係り文節の順序が適切である確率の計算例（5 0 ) を示す。

まず、 2個の文節ずつ、すなわち「昨日」と「太郎は」、「昨日」と「テニスを」、「太郎は」と「テニスを」の 3つの組み合わせを取り上げ、学習した規則性によりそれぞれこの語順が適切である各確率を求める。

例えば、図において「昨日」「太郎は」の語順になる確率は「P* (昨日，太郎は）」で表され、その確率は 0. 6とする。同様に、「昨日」「テニスを」は 0. 8、「太郎は」「テニスを」は 0. 7とすると、図 5における 1 段目の語順（5 1) の確率は各確率を積算し、 0. 336となる。

次に、 6つの語順（51ないし 56) の可能性すべてについて全体の確率を計算し、最も確率の高いもの「昨日 Z太郎は/テニスをノした。」（51 ) が最も適切な語順であるとする。

同様に、前記したテキスト「彼女は Z公園へノ行った。」ではさらに少ない組み合わせの確率を計算することで、「彼女は公園へ行った。」が最も自然で最適なテキストであると求められる。

また、該語順モデルについては、汎化したノードが含まれる場合、そのまま提示することによって、人名や地名、日付などが入り易い場所が分かる。ここで、上記における語順モデルでは係り受け構造を入力としているが、本発明の実施においては係り受け構造の形成過程においても語順モデルを用いることができる。

以上により、テキスト生成部（1 2) の形成部（12 b) では、係り受けモデル、語順モデルなどにより最適と考えられる複数のテキス卜が候補として形成される。本発明ではこれらをそのままテキスト生成装置（1) から出力することもできるが、以下では、さらにテキスト生成部（12) に評価部 (1 2 c) を配置し、テキストの候補を評価することにより再順序付けする構成を示す。

評価部（12 c) では、入力されたキーワードの順番や、抽出したパターンの頻度、係り受けモデルや語順モデルから計算されるスコアなど様々な情報を総合してテキストの候補の評価を行う。評価部（12 c) においてもデ一夕ベース（13) を参照することができる。

例えば、キーヮードの順番が上位のものについてはより重要なキーヮ一ドとして、該キーワードの役割が特に重要な候補中のテキストを、より最適なテキストとして評価したり、前記でほ係り受けモデルや語順モデルといったモデル毎に確率を求めたが、それらを勘案して、総合的な評価を行うようにする。

本評価部（12 c) の働きによって、自然なテキストとして形成された候補のうちでも、特に最適と考えられるテキストを例えば順位を付けて複数出力することができるようになる。

本発明によるテキスト生成装置（1) は、さらに別の言語処理システムに導入することも可能であって、このように複数の出力を行っても良いし、上記順位が最も高いものを 1つ出力してもよい。

また、順位が一定以上に高いもの、あるいは確率やスコアなどで一定の閾値以上のものを出力し、人手によって選択する構成をとつてもよい。

上記評価部（12 c) の構成では形成部（12 b) で形成された候補を入力するのみの構成であるが、さらに評価部（12 c) において複数のテキス卜からなる文章全文について各テキストの候補のいずれを選択するか、全文の流れから評価し、各テキストの候補から 1つを決定してもよい。

この時、文章全文中の少数のテキストが前後の文との整合性において不自然な場合には、再び解析部（1 2 a) や形成部（1 2 b) における処理に差し戻し、全文に亘つて自然なテキストが出力できるように別の候補を形成させるようにしてもよい。

テキスト生成部（12) によって最適な構文、語順で生成されたテキスト「彼女は公園へ行った。」（3) は以上に説述したテキスト生成装置（1) から出力される。ここでは、最も自然と考えられるテキスト（3) を 1つ出力した。

このように、本発明では、 1つ以上のキーワード（2) を入力することで、デ—夕ベース（i s) を参照しながらも、従来の技術とは異なる構成で自然なテキストを生成することができる。

さらに、本発明ではキーワードが十分でない場合の、補完方法についても提供する。すなわち、キ一ワード n個が入力されたとき、その単語間を M Eモデルを用いて補完する。モデルに対しては n個のうちの 2個を入力し、該 2キ一ヮ —ド間を補完する。

そして、任意の 2キーワード間について、補完すべき単語があるか否か、補完できる単語が複数ある場合には、各単語について生起する確率を求めていく。確率の最も高い単語から順に補完し、すべての 2キーワード間についてこの処理を繰り返す。

最後にどの 2キーワード間についても「補完しない」が最も確率が高くなるとき補完を止める。

このような補完処理によれば、キーヮードが十分に与えられていない場合であっても、 M Eモデルによってある程度までキーヮ一ドを補うことができるので、入力されたキーワードだけでは自然なテキストが生成出来ない場合にも、有効なテキストを出力できるようになる。 . 本補完方法では、さらに上記テキスト生成部においてテキスト生成に用いることも可能である。

例えば、上記例で示したように、「彼女」「公園」「行った。」が与えられたときに、「彼女」と「公園」の間には「は」「が」「と」などが生起し、その中で最も生起する確率の高い「は」を補完する。

同様に「彼女」と「行った。」の間には「は」「が」「と」などが生起し、ここでも最も確率の高い「は」を補完する。，「公園」と「行った」の間では「へ」「に」等が生起し、確率の高い「へ」を補完する。

これらの補完を繰り返して、最終的に全文について補完される確率を算出し、各積算することによって、全文について最も確率の高くなる補完組み合わせを採り、テキストを生成する。この場合には、「彼女は公園へ行った。」となり、前述した本発明に係る方法と同様の効果が得られる。

本発明では、このように前述のテキスト生成方法を基本としながら、キーヮ一ドの補完、さらにはこの補完方法を用いたテキストの生成を実現する。以上のような本発明によるテキス卜の生成技術は次のような場合に特に好適に用いることができる。

まず、失語症患者の文生成支援に用いることができる。とぎれとぎれの文（単語の列)、例えば「彼女公園行った」、から自然な文を生成し、文の候補、「彼女が公園へ行った」、「彼女と公園へ行った」などを提示する。患者は提示されたテキストを承認するだけで、自分の表現したい内容を伝達することができ、患者のコミュニケ一シヨンの機会が増す。

また、キーワードが不足する場合も、上記の補完技術を用いたり、複数のテキストを提示し、患者が選択することで、十分に効果を奏することができる。

人間と対話する装置に組み込むことによりコミュニケーションを助けることにも利用できる。すなわち、人間の発話文から適当にキーワードを抜き出して新たに文を作り、言い返す。文を生成したとき、典型的な情報、例えば

5 W 1 Hの情報などが抜けていることが分かれば、「いつ行つたのですか？」のようにその部分を尋ねる文を作るということも考えられる。

類似の構成で、音声認識して自然な文を生成し、聞き直すシステムとして提供することもできる。人間ははつきりと聞き取つているわけではなく、聞き取れなかった部分を補完して理解している。認識できた部分をもとに文を生成し、聞き直す。間違っている部分は強調して発話し直してくれることが期待できるので、何度かやり取りをする間に正しい文が生成される。

また、上記の補完技術を組み合わせて、新しいストーリ一を自動的に作出するシステムを実現してもよい。例えば、「おじいさん ·おばあさん ·山 · 亀」が入力されたときに、桃太郎と浦島太郎の昔話を少なくともデータべ一スに備えることにより、両昔話に類似するもののそれらとは異なった新しいストーリーが作出できる。この場合、新たに補完される単語で、キ一ワードとして再構成されるものとしては「川 *桃 *竜宮城」などが考えられる。特に、デ一夕ベースに備えるストーリーが多くなればなるほど、新規性に富むストーリーが作出されるため、一読しても原文との関係が分かりにくくなる。また、文とその文内での重要キーワードを与え、そのキ一ワードを含み、適切な長さの文を生成することもできるので、作文システムを実現することもできる。元の文より短ければ要約となる。文に典型的な情報を付け加えてより詳細な文を生成することも考えられる。これによつて、従来の要約システムとは異なり、重要なキーワードから主体的に文を生成するため、より自然な要約が得られる。

文の苦手な者が作成した冗長な文章を修正することもできるし、語句を補い、流ちような文に改めることもできる。

これと関連して、文体の変換に用いることも可能である。文章からキ一ヮードを取り出し、そのキーワードを基に文章を生成し直す。基にするデータベースに依存してそのデータベースに特有の表現に書き換えられる。例えば、ある作家の小説をデータベースにすれば、その作家風に文章を書き換えることもできるようになる。

近年急速に普及した携帯端末での文章入力支援に用いると、入力のし難い携帯端末でも、読みやすい文章を作成することができる。例えば、単語をいくつか入力すると、文候補を提示し、それから選ぶことによって、人手によつて作成したのと同等の文章を作成できる。入力者は単語のみを入力するだけなので、細かく文章を作成する労がない。

また、メール作成用には、データベースに使用者の実際に作成したメールを備えることで、自己の書き方が生かされた作文が可能になる。

このように、本発明では、デ一夕ベースに文体や言い回しなど、様々なテキストパターンを備えることにより、自動的に生成されるテキストがそのテキストパターンを反映するため、簡便にかつ個性的なテキストを生成することも可能である。

特に、データベースに複数の特徵的なテキストパターンを有するテキス卜を備えたり、多種のデータベースを備え、それらを使用者が適宜指定し、切り換えることで任意のテキストパターンを示すテキストの生成が可能であるその他、箇条書きしたメモからキーワードとして入力し、講演用の原稿を作成したり、論文を構成することもできる。また、履歴書を入力してその人の紹介文を作成することも考えられる。

本発明は、以上の構成を備えるので、次の効果を奏する。

いくつかのキ一ヮ一ドを入力ステップで入力し、抽出ステップでデータべースからテキストゃ語句を抽出する。抽出されたテキス卜又は語句を組み合わせて、入力したキーワードを用いる最適なテキストを生成することができる。

抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得れば、より自然で正確なテキスト生成を実現することも可能となるさらに、キーワードを含む係り受け構造を形成する過程で、係り受けモデルを用いてテキスト全体の係り受け確率を求め、該確率の最大のものを最適なテキストとして生成することで、さらに自然なテキスト生成を行える。また、従来の構成では難しかった語順についても、語順モデルを用いて、自然な文の並びとなるテキストの生成を図ることもできる。

また、テキスト生成ステップにおいて、キーワードの全ての配列について

、任意の 2つのキーヮード間に補完すべき単語があるか否かを学習モデルを用いて判定することもできる。学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返すことで、好適な補完が実現できるので、与えるキーワードが少ない場合でも、自然なテキスト生成を図ることができる。

さらに、本発明によるテキスト生成方法では、データベースに特徴的なテキストパターンを有するテキストを備えるだけで、その特徴を反映したテキストの生成ができるため、読み手にとってより違和感がなく、自然なテキスト生成方法を提供することができる。

本発明は、上記のように優れたテキスト生成方法を提供するテキスト生成装置を創出し、自然言語処理技術の向上に寄与することが出来る,

Claims

請求の範囲

1 . 文又は文章のテキストを生成するテキス卜生成方法であって、

1個以上のキーヮ一ドとなる単語を入力する入カステツプ、

該キ一ヮ一ドに係るテキスト又は語句を、データベースから抽出する抽出抽出されたテキスト又は語句を組み合わせて、入力したキ一ワードを用いる最適なテキス卜を生成するテキスト生成ステップ

から構成されることを特徵とするテキスト生成方法。

2 . 前記抽出ステップでテキストを抽出する構成であって、

前記テキスト生成ステップにおいて、抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得ると共に、

前記キ一ヮ一ドを含む係り受け構造を形成する

ことを特徴とする請求の範囲第 1項に記載のテキスト生成方法。

3 . 前記テキスト生成ステップにおいて、

前記キーヮードを含む係り受け構造を形成する過程で、

係り受けモデルを用いてテキスト全体の係り受け確率を求め、

該確率の最大のものを最適なテキストとして生成する

請求の範囲第 2項に記載のテキスト生成方法。

4 . 前記テキスト生成ステップにおいて、

係り受け構造を形成する過程あるいは形成した後で、

語順モデルを用いて自然な文の並びとなる最適なテキストを生成する請求の範囲第 2項又は第 3項に記載のテキスト生成方法。

5 . 前記テキスト生成ステップにおいて、前記キーヮードの全ての配列について、任意の 2つのキ一ヮ一ド間に補完すべき単語があるか否かを学習モデルを用いて判定し、

学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、該補完する単語をキ一ヮ一ドに編入し Zせずに、

いずれのキーワード間についても補完すべき単語がない確率が最も高くなるまで繰り返す

単語補完処理を行う請求の範囲第 1項ないし第 4項に記載のテキスト生成方法。

6 . 前記データベースに、特徴的なテキストパターンを有するテキストを備える構成において、

前記テキスト生成ステップが、

該特徴的なテキストパターンに準拠したテキストを生成する

請求の範囲第 1項ないし第 5項に記載のテキスト生成方法。

7 . 文又は文章のテキストを生成するテキスト生成装置において、

1個以上のキーヮ一ドとなる単語を入力する入力手段、

複数のテキストから構成されるテキストデータべ一ス、

該キ一ヮ一ドに係るテキスト又は語句を、該テキストデ一夕ベースから検索し、抽出する抽出手段、

抽出されたテキスト又は語句を組み合わせて、入力したキーワードを用いる最適なテキストを生成するテキスト生成手段

を備えたことを特徴とするテキスト生成装置。

8 . 前記抽出手段でテキストを抽出する構成であって、

前記テキスト生成手段において、

抽出されたテキストを形態素解析及び構文解析し、該テキストの係り受け構造を得る解析手段と、前記キーワードを含む係り受け構造を形成する係り受け構造形成手段とを含む請求の範囲第 7項に記載のテキスト生成装置。

9 . 前記テキスト生成手段において、

前記係り受け構造形成手段が、係り受けモデルを用いてテキスト全体の係り受け確率を求め、

該確率の最大のものを最適なテキストとして生成する

請求の範囲第 8項に記載のテキスト生成装置。

1 0 . 前記テキスト生成手段においてにおいて、

係り受け構造を形成する過程あるいは形成した後で、

語順モデルを用いて自然な文の並びとなる最適なテキストを生成する. 請求の範囲第 8項又は第 9項に記載のテキスト生成方法。

1 1 . 前記テキスト生成手段において、

前記キーヮ一ドの全ての配列について、任意の 2つのキーワード間に補完すべき単語があるか否かを学習モデルを用いて判定し、

学習モデルにおいて補完すべき確率の高い単語から順に補完するとき、該補完する単語をキーワードに編入し Zせずに、

単語補完手段を含む請求の範囲第 7項ないし第 1 0項に記載のテキスト生成装置。

1 2 . 前記データベースに、特徴的なテキストパターンを有するテキストを備える構成において、

前記テキスト生成手段が、

該特徴的なテキストパターンに準拠したテキストを生成する請求の範囲第 7項ないし第 1 1項に記載のテキスト生成装置。

1 3 . 前記テキスト生成装置において、

特徴的な複数のテキストパターンを有するテキストを備えるデータベースを 1つないし複数を備える一方、

該複数のテキストパターンから所望のテキストパタ一ンを選択するパ夕一ン選択手段を備えた

請求の範囲第 1 2項に記載のテキスト生成装置。