WO2006134682A1

WO2006134682A1 - 固有表現抽出装置、方法、及びプログラム

Info

Publication number: WO2006134682A1
Application number: PCT/JP2005/023768
Authority: WO
Inventors: Takashi Tsuzuki; Yoshiyuki Okimoto; Kenji Mizutani; Satoshi Matsuura; Tsuyoshi Inoue; Hiroshi Kutsumi
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-06-15
Filing date: 2005-12-26
Publication date: 2006-12-21
Also published as: JP4129048B2; JPWO2006134682A1; US7761437B2; JP2008152774A; CN101167075A; JP4977589B2; US20090119274A1; CN101167075B

Abstract

　固有表現をテキストから抽出する順序を設定できるようにすることで、ユーザに適応した固有表現を抽出する固有表現抽出装置は、抽出順序記憶部１０２に抽出順序に対応付けて記憶されている固有表現パターン名を取得する抽出順序読込部１０３と、抽出順序読込部１０３で取得した固有表現パターン名に対応する固有表現パターンを用いて入力テキストから固有表現を抽出する固有表現抽出部１０５と、抽出が終了していない場合は、抽出順序読込部１０３に抽出途中のテキストを出力し、固有表現抽出処理を続行する抽出終了判定部１０６とを備える。

Description

明細書

固有表現抽出装置、方法、及びプログラム

技術分野

[0001] 本発明は、ユーザに適応した固有表現を抽出することが可能な固有表現抽出装置に関するものである。

背景技術

[0002] 従来、複数の異なるタスクに対応するため、 1つの入力テキストに対し複数の固有表現抽出モジュールを動作させ、抽出される固有表現をまとめることができる固有表現抽出方法が開示されている (例えば、特許文献 1参照)。

[0003] ここで、固有表現とは、タスクによって 1つの単位として扱われる、固有名詞、会社名、電子メールアドレス、国名、都市名、製品名、組織名、時間、日時、金額表現、割合表現など特定の言語項目を言う。

特許文献 1 :特開 2003— 248680号公報

発明の開示

発明が解決しょうとする課題

[0004] し力しながら、従来の複数の固有表現抽出モジュールを動作させることで異なるタスクに対応することができる固有表現抽出方法は、抽出する固有表現の種類や単位をユーザや表示端末に対して対応付けて記憶することができないため、ユーザや表示端末に適応した固有表現を抽出することができなレ、。このため、特に、固有表現の中に固有表現が存在する固有表現の入れ子構造において、ユーザは抽出された固有表現が表示される場合、ユーザにとって冗長な文字列を含む固有表現や意味を理解するには短すぎる固有表現を読まなければならなかった。例えば、テレビ番組情報において、本題と副題を合わせて番組名とする番組に対し、本題のみで番組を識別できるユーザにとっては、副題は冗長な情報である。逆に本題のみで番組を識別できないユーザにとっては、副題は必要な情報であり、本題と副題を合わせてユーザに提示する必要がある。

[0005] そこで、本発明は上記の事情に鑑みてなされたものであり、ユーザの入力履歴や表示端末の表示能力等によって表される抽出条件に適応した固有表現を抽出すること力 Sできる固有表現抽出装置を提供することを目的とする。

課題を解決するための手段

[0006] 前述の目的を達成するために、この発明にかかわる固有表現抽出装置は、テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、抽出条件に応じて異なる固有表現パターンの使用順序を示す抽出順序を定める抽出順序設定手段と、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段とを備える。

発明の効果

[0007] この構成によれば、固有表現を抽出する順序を抽出条件に応じて設定することができるので、例えば、入れ子構造が存在する固有表現に対して、文字列長の短い、または長い固有表現から順次抽出する場合は、ユーザに最適な文字列長の固有表現が抽出されるところで固有表現抽出処理を停止することができ、ユーザや表示端末にとつて最適な固有表現を抽出することができる。

図面の簡単な説明

[0008] [図 1]図 1は、実施形態 1における固有表現抽出装置の構成図である。

[図 2]図 2は、実施形態 1の固有表現抽出装置に用いられる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

[図 3]図 3は、抽出に用いられるルールの一例を示す図である。

[図 4]図 4は、抽出に用いられるルールの他の一例を示す図である。

[図 5]図 5は、抽出に用いられるルールのさらに他の一例を示す図である。

[図 6]図 6は、人名抽出用のルールを用いて行われる抽出の一具体例を示す図である。

[図 7]図 7は、実施形態 1における動作を示すフローチャートである。

[図 8]図 8は、実施形態 1の固有表現抽出装置による抽出結果の一具体例を示す図である。園 9]図 9は、実施形態 1の固有表現抽出装置に用いられる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

[図 10]図 10は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

[図 11]図 11は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序読込部の一例を示す構成図である。

園 12]図 12は、実施形態 1における動作例を示すフローチャートである。

園 13]図 13は、実施形態 1の固有表現抽出装置に用いられる利用パターンデータべースの内容の一例を示す図である。

[図 14]図 14は、実施形態 1の固有表現抽出装置に用いられる抽出順序データべ一スの内容の一例を示す図である。

園 15]図 15は、実施形態 1の固有表現抽出装置に用いられる利用パターンデータべースの内容の一例を示す図である。

[図 16]図 16は、実施形態 1の固有表現抽出装置に用いられる利用パターンデータべースの内容の一例を示す図である。

園 17]図 17は、実施形態 1の固有表現抽出装置に用レヽられる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

[図 18]図 18は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

園 19]図 19は、実施形態 1の固有表現抽出装置に用いられる抽出終了判定部の一例を示す構成図である。

[図 20]図 20は、実施形態 1における動作例を示すフローチャートである。

園 21]図 21は、実施形態 1の固有表現抽出装置に用いられる抽出回数記憶部に記憶される内容の一例を示す図である。

[図 22]図 22は、実施形態 1の固有表現抽出装置に用いられる抽出回数記憶部に記憶される内容の一例を示す図である。

園 23]図 23は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記憶される内容の一例を示す図である。 [図 24]図 24は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記憶される内容の一例を示す図である。

園 25]図 25は、実施形態 1の固有表現抽出装置に用レヽられる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

園 26]図 26は、実施形態 1における変形例に係る固有表現抽出装置の構成図である。

[図 27]図 27は、本発明の実施の形態 2の固有表現抽出装置の構成を示す構成図である。

園 28]図 28は、実施形態 2の固有表現抽出装置に用レ、られる抽出順序記憶部に記憶される抽出順序の一例を示す図である。

園 29]図 29は、実施形態 2における動作例を示すフローチャートである。

園 30]図 30 (A)及び (B)は、実施形態 2における固有表現表示例を示す図である。園 31]図 31は、本発明の実施の形態 3の固有表現抽出装置の構成を示す構成図である。

[図 32]図 32は、実施形態 3の固有表現抽出装置に用いられる固有表現記憶部に記憶される内容の一例を示す図である。

園 33]図 33は、実施形態 3における動作例を示すフローチャートである。

[図 34]図 34は、実施形態 3における固有表現の表示例を示す図である。

園 35]図 35は、実施形態 3における固有表現の表示例を示す図である。

園 36]図 36は、実施形態 3における固有表現の表示例を示す図である。

園 37]図 37は、変形例における中国語の入力テキストの例を示す図である。

符号の説明

101 入力部

102 抽出順序記憶部

103 抽出順序読込部

104 固有表現パターン記憶部

104A 固有表現 Aパターン

104B 固有表現 Bパターン 104C 固有表現。パターン

105 固有表現抽出部

106 抽出終了判定部

201 判定部

202 抽出回数記憶部

203 抽出回数更新部

204 抽出順序変更部

301 利用パターンデータベース

302 抽出順序データベース

303 テキスト検索部

304 順序総数取得部

305 利用パターン取得部

306 情報データベース

308 類似テキスト取得部

309 表示部

401 利用パターンデータベース

402 抽出順序データベース

403 順序総数取得部

404 抽出終了判定部

405 固有表現決定部

501 固有表現記憶部

502 抽出終了判定部

503 表示条件取得部

504 固有表現取得部

505 重複削除部

506 表示部

発明を実施するための最良の形態

本発明の固有表現抽出装置は、テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、固有表現の抽出に使用されるべき固有表現パターンの、抽出条件に応じて異なる順序を示す抽出順序を定める抽出順序設定手段と、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段とを備える。

[0011] また、前記抽出条件は、抽出される固有表現を利用するユーザ、抽出される固有表現を表示する端末装置、入力テキストの属性、入力テキストの数、及び過去に固有表現が抽出された回数のうちの少なくとも一つを用いて表されるとしてもよい。

[0012] また、前記入力テキストは、電子番組ガイドを構成する番組情報を表すとしてもよい

[0013] この構成によれば、前記固有表現抽出装置は、固有表現の抽出に用いる固有表現パターンの順序を抽出条件に応じて設定するので、例えば、抽出される固有表現を利用するユーザ、抽出される固有表現を表示する端末装置、入力テキストの属性、入力テキストの数、及び過去に固有表現が抽出された回数等によって表される抽出条件に応じて、異なる固有表現パターンを用いて異なる抽出結果を得ることができる

[0014] この構成は、例えば、前記入力テキストが電子番組ガイドを構成する番組情報を表す場合に好適である。具体例として、番組情報から番組タイトルを固有表現として抽出する際に、その番組に慣れ親しんだユーザには本題のみからなる比較的短い固有表現を抽出して提示し、そうでないユーザには本題と副題とからなる比較的長い固有表現を抽出して提示すれば、ユーザに応じて最適な内容を反映した長さの番組タイトルを提示することができる。

[0015] また、抽出される固有表現を表示する端末装置が、携帯情報端末装置である場合には本題のみを抽出して表示し、家庭用テレビジョン放送受信装置である場合には本題と副題とを抽出して表示すれば、携帯情報端末装置に長い番組タイトルが表示されてしまレ、、その結果一覧性が損なわれてユーザにとってかえって見づらいといつた不便を軽減できる。 [0016] また、前記固有表現抽出装置は、さらに、複数の固有表現パターンを記憶している固有表現パターン記憶手段と、複数の抽出条件のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段とを備え、前記抽出順序設定手段は、前記複数の抽出条件の一つが与えられると、与えられた抽出条件について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めてもよい。

[0017] また、前記固有表現抽出装置は、さらに、複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶してレ、る抽出順序記憶手段と、前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、抽出条件に応じて変更する抽出順序変更手段とを備え、前記抽出順序設定手段は、変更後の固有表現パターンの順序を、前記抽出順序として定めてもよレ、。

[0018] この構成によれば、抽出条件に応じて異なる固有表現パターンを用いて異なる抽出結果が得られるという本発明の特徴を、具体的に、複数の抽出順序の中から抽出条件に応じた一つを用いることによって実現する力、または抽出条件に応じて抽出順序を変更することによって実現することができる。

[0019] また、前記固有表現抽出装置は、ユーザを識別するユーザ識別子を抽出条件とし、さらに、前記ユーザ識別子を取得するユーザ識別手段を備え、前記抽出順序記憶手段は、複数のユーザ識別子のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、前記抽出順序設定手段は、取得されたユーザ識別子について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めてもよいし、また、前記固有表現抽出装置は、抽出される固有表現を表示する端末装置の端末識別子を抽出条件とし、さらに、前記端末識別子を取得する端末識別子取得手段を備え、前記抽出順序記憶手段は、複数の端末識別子のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、前記抽出順序設定手段は、取得された端末識別子について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めてあよい。

[0020] この構成によれば、前述したように、ユーザごと、及び端末装置ごとに、望ましい固有表現を抽出することができる。

[0021] また、前記固有表現抽出装置は、入力テキストの属性を抽出条件とし、さらに、前記入力テキストの属性を取得する属性取得手段を備え、前記抽出順序記憶手段は、複数の属性のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、前記抽出順序設定手段は、取得された属性について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めてもよい。

[0022] この構成によれば、前記入力テキストの属性に応じて、その入力テキストから固有表現を適切に抽出できる固有表現パターンが異なる場合に、取得された属性に応じて、その属性の入力テキストから適切に固有表現を抽出可能な特有の固有表現パターンを用いることができるので、固有表現の抽出精度の向上に役立つ。

[0023] 例えば、前述したように、前記入力テキストが電子番組ガイドを構成する番組情報を表す場合に、前記入力テキストの属性としてその番組情報に含まれる番組カテゴリを取得し、取得された番組カテゴリに応じて、その番組カテゴリの番組情報から適切に固有表現を抽出可能な特有の固有表現パターンを用いれば、良好な抽出結果を得ること力 Sできる。

[0024] また、前記固有表現抽出装置は、入力テキストの数を抽出条件とし、さらに、複数のテキストが格納されている情報データベースと、入力テキストとなる一つ以上のテキストを前記情報データベースから検索するテキスト検索手段とを備え、前記抽出順序記憶手段は、入力テキストの数を示す複数の値のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、前記抽出順序設定手段は、検索されたテキストの数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記検索されたテキストから固有表現を抽出してもよい。

[0025] この構成によれば、入力テキストの数に応じた長さの固有表現を抽出することが可能となる。入力テキストが多いほど、抽出される固有表現の区別を容易とするために、より長い固有表現を抽出することが望ましぐこの構成によってそのような要請に応えること力 Sできる。

[0026] 例えば、前述したように、前記入力テキストが電子番組ガイドを構成する番組情報を表し、そこから番組タイトルを固有表現として抽出する際に、入力テキストの数が予め定められたしきい値よりも少なければ本題のみからなる固有表現を抽出し、そのしきい値以上であれば本題と副題とからなる固有表現を抽出すれば、入力テキストが多数ある場合に、本題のみからなる多数の同一の固有表現が抽出されてしまレ、、ュ一ザはそれらを区別することができないといった不便を軽減できる。

[0027] また、前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、複数のテキストが格納されてレ、る情報データベースと、複数のテキストを前記情報データベースから取得するテキスト取得手段と、テキストを表示する表示手段と、前記テキスト取得手段で取得される複数のテキストから、前記表示手段に表示された際に類似する複数のテキストを前記入力テキストとして取得する類似テキスト取得手段とを備え、前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、前記抽出順序設定手段は、前記類似テキスト取得手段によつて取得されたテキストの数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記類似テキスト取得手段によって取得されたテキストから固有表現を抽出してもよい。

[0028] この構成によれば、入力テキストの中でも特に類似する入力テキストの数に応じた長さの固有表現を抽出することが可能となる。類似する入力テキストが多いほど、抽出される固有表現の区別を容易とするために、より長い固有表現を抽出することが望ましぐこの構成によってそのような要請に応えることができる。

[0029] また、前記固有表現抽出装置は、過去に固有表現が抽出された回数を抽出条件とし、さらに、前記抽出順序記憶手段に記憶されている固有表現パターンのそれぞれについて、その固有表現パターンを用いて過去に固有表現が抽出された回数を計数する抽出回数計数手段を備え、前記抽出順序変更手段は、前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記計数された数に応じて変更してもよい。

[0030] この構成によれば、抽出順序を変更することによって、固有表現の抽出に寄与してレ、ない固有表現パターンをその後の抽出に用いなレ、ようにできるので、固有表現の抽出に要する計算量を減らしつつ、それまでと同様の固有表現の抽出を続けることができる。

[0031] また、前記抽出順序は、複数の固有表現パターンを、順次使用された場合に使用ごとにより長い固有表現の抽出が期待される順序で示し、前記固有表現抽出装置は、さらに、予め定められたしきい値を上回る長さの固有表現が抽出された場合、それ以降の固有表現パターンを用いて行われる抽出を打ち切る抽出打ち切り手段を備えてもよい。

[0032] この構成によれば、前記しきい値を、ユーザ、端末装置等に応じて必要限度の長さに定めておくことによって、必要以上に長い固有表現の抽出が行われないので、固有表現の抽出に要する計算量を減らしつつ、必要な固有表現を抽出することができる。

[0033] また、本発明の固有表現抽出装置は、テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、複数のテキストが格納されている情報データベースと、複数のテキストを前記情報データベースから取得するテキスト取得手段と、複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を複数記憶している抽出順序記憶手段と、前記テキスト取得手段で取得される複数のテキストから、前記抽出順序記憶手段で記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ごとに抽出された固有表現を固有表現セットとする固有表現抽出手段と、前記固有表現抽出手段で得られた固有表現セット毎に、その固有表現セットに含まれる類似する固有表現の数である類似固有表現数を算出し、類似固有表現数が最も少ない固有表現セットを出力する固有表現決定手段とを備える。

[0034] この構成によれば、前記複数の固有表現セットの中で類似固有表現数が最も少ない固有表現セットが出力されるので、ユーザは、区別しにくい類似な固有表現をできるだけ含まない好ましい固有表現を得ることができる。

[0035] また、前記固有表現抽出装置は、さらに、テキストを表示する表示手段を備え、前記固有表現決定手段は、固有表現セット毎に類似固有表現数を算出する際に、固有表現から前記表示手段に表示可能な文字数分の部分固有表現を抽出し、抽出した部分固有表現同士が類似する場合に、類似する部分固有表現の数を類似固有表現数としてもよい。

[0036] この構成によれば、さらに、表示手段に表示可能な文字数を勘案して、類似な固有表現をできるだけ含まない好ましい固有表現を得ることができる。これにより、例えば、抽出された固有表現の表示に用いられる文字数が異なる表示フォーマットを使い分ける場合などに、表示フォーマットに応じてユーザにとって最も区別しやすいと考えられる好適な固有表現を提示できる。

[0037] また、本発明の固有表現抽出装置は、テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と、前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段と、前記入力テキスト、その入力テキストから抽出された固有表現、及びその抽出が行われた前記順序における段を対応付けて記憶する固有表現記憶手段と、既定の段を指定するか、又は共通の段において抽出された一つ以上の固有表現をユーザ操作に応じて指定する表示条件指定手段と、前記表示条件指示手段から既定の段が指定された場合、前記固有表現記憶手段から前記指定された段に対応して記憶されている全ての固有表現を取得し、また、前記表示条件指示手段から一つ以上の固有表現が指定された場合、前記固有表現記憶手段から、前記指定された各固有表現に対応する入力テキストについて前記共通の段の次の段に対応して記憶されている固有表現を取得する固有表現取得手段と、前記固有表現取得手段で取得された固有表現から重複を削除する重複削除手段と、前記重複削除手段によって重複を削除されて残った固有表現を表示する表示手段とを備える。

[0038] この構成によれば、抽出された固有表現を、段毎に、例えば簡略な固有表現から複雑な固有表現へと向力、う方向に表示できるので、ユーザが抽出された固有表現を段階的に確認する上で便利である。

[0039] また、本発明は、このような固有表現抽出装置として実現できるだけでなぐこのような固有表現抽出装置が備える特徴的な手段によって実行される処理をステップとする固有表現抽出方法として実現することも、また、それらのステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムは、 C D— ROM等の記録媒体やインターネット等の伝送媒体を介して配信できることはレヽうまでもない。

[0040] (実施の形態 1)

以下、本発明の実施形態 1による固有表現抽出装置について図面を参照しながら説明する。図 1は本発明の実施形態 1による固有表現抽出装置の構成図である。この固有表現抽出装置は、抽出条件に応じて、抽出に用いられる一つ以上の固有表現パターンの使用順序を設定し、設定された順序で固有表現パターンを用いて入力テキストから固有表現を抽出する固有表現抽出装置であり、入力部 101、抽出順序記憶部 102、抽出順序読込部 103、固有表現パターン記憶部 104、固有表現抽出部 105、抽出終了判定部 106を含んで構成される。

[0041] ここで、抽出順序読込部 103が、抽出順序設定手段の一例である。

[0042] 入力部 101は、キーボードやマウス、リモコン等の入力装置で構成され、ユーザが固有表現を含むテキストを入力すると、この入力されるテキストと処理する抽出順序の初期値として値 1を出力する。また、入力部 101は、テレビ放送番組に関する情報やハードディスクレコーダ等に蓄積されたコンテンツに関する情報、または、インターネット上に存在するコンテンツを記憶するデータベースからユーザに提示するテキストを取得し、この取得するテキストと処理する抽出順序の初期値として値 1を出力するようにしてもよい。

[0043] 抽出順序記憶部 102は、固有表現パターン記憶部 104に記憶される固有表現バターンを使用する順序である抽出順序と抽出順序に対応する固有表現パターン名とを対応付けて記憶し、さらに抽出順序の総数である抽出順序総数も記憶する。図 2は、抽出順序記憶部 102に記憶される抽出順序の一例を示すものであり、（抽出順序総数、（抽出順序、使用する固有表現パターン名））として、（3、（1、固有表現 Aパターン）、（2、固有表現 Bパターン）、（3、固有表現 Cパターン）、 · · -)が記憶される。

[0044] 抽出順序読込部 103は、テキストと抽出順序が入力されると、入力される抽出順序に対応した固有表現パターン名と抽出順序総数とを抽出順序記憶部 102から読み込み、入力されるテキストと抽出順序と抽出順序記憶部 102から読み込んだ抽出順序総数と固有表現パターン名とを出力する。

[0045] 固有表現パターン記憶部 104は、固有表現 Aを抽出するために使用する固有表現 Aパターン 104A、固有表現 Bを抽出するために使用する固有表現 Bパターン 104B 、固有表現 Cを抽出するために使用する固有表現 Cパターン 104Cを記憶する。例えば、番組名「松上電器創業記（1) —誕生一」の場合、小タイトルをメインタイトル「松上電器創業記」に相当するテキスト、中タイトルを小タイトルに回数を追加したもの「松上電器創業記（1)」に相当するテキスト、大タイトルを番組名全て「松上電器創業記（ 1) —誕生一」に相当するテキストとする場合、固有表現 Aを小タイトル、固有表現 B を中タイトル、固有表現 Cを大タイトルとすると、固有表現 Aパターン 104Aは小タイトルを抽出するためのルール、固有表現 Bパターン 104Bは中タイトルを抽出するためのルール、固有表現 Cパターン 104Cは大タイトルを抽出するためのルールとなる。ここでレ、うルールとは、抽出する文字列そのものや抽出する文字列とその前後の文字歹 IJを対応付けて記憶するものや抽出する文字列とその前後の文字列との連接確率などである。

[0046] ルールを用いて行われる抽出の具体的な一例として、テキスト「[解説]続木貴史、松下太郎」から固有表現の 1つである人名として「続木貴史」を抽出する場合について説明する。そのような抽出を行う方法としては、図 3に示すような人名を記憶する人名テーブルを利用して、人名テーブルに含まれる人名と完全一致する文字列を人名としてテキストから抽出する方法がある。さらには、抽出する文字列とその前後の文字列を対応付けて記憶する一例としては、図 4に示すような人名が出現する前後の文字列のパターンを記憶する人名正規表現テーブルを利用して、人名正規表現テーブルに含まれるパターンと一致する文字列を人名としてテキストから抽出する方法がある。さらには、抽出する文字列とその前後の文字列との連接確率の一例としては、図 5に示すような人名が出現する前後の文字列と人名との連接確率を記憶する人名確率テーブルを利用して、尤度を計算し (上記テキスト中の人名「続木貴史」の場合は、前の文字列「]」の確率値「0.9」と後ろの文字

歹 I丌、」の確率値「0.2」を足し合わせて尤度は「1.1」となる）、尤度が特定の閾値以上になった場合に人名としてテキストから抽出する方法がある。

[0047] 図 6に示すように、固有表現抽出部 105は、人名を含むテキスト「[解説]続木貴史、松下太郎」から、図 3〜図 5に例示した人名抽出用のルール (人名パターン）を前述した方法に従って用いて、固有表現の一例である人名「続木貴史」を抽出する。

[0048] また、上記具体例では、文字列を対象として説明したが、形態素や単語、固有表現抽出結果である固有表現ラベルでもよぐさらには、文字列と形態素、単語、固有表現ラベルなどを組み合わせてルールを構築してもよい。また、上記具体例では、前後 1文字のみを対象としてルールを構築した力 S、複数文字を対象にルールを構築してあよい。

[0049] なお、固有表現 Aパターン 104A、固有表現 Bパターン 104B、固有表現 Cパターン 104Cを以下、それぞれ固有表現パターンと総称する。

[0050] 固有表現抽出部 105は、抽出順序読込部 103からテキストと抽出順序と抽出順序総数と固有表現パターン名が入力されると、入力される固有表現パターン名に対応する固有表現パターンを固有表現パターン記憶部 104から読み込み、この読み込んだ固有表現パターンを使用して入力されるテキストから固有表現を抽出する。そして、抽出した固有表現を含むテキストと抽出順序読込部 103から入力される抽出順序総数と抽出順序とを出力する。

[0051] 抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数と抽出順序とテキストが入力されると、抽出順序が抽出順序総数より小さい場合は、抽出順序の値に数値 1を加算し、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを抽出順序読込部 103に出力する。また、抽出順序が抽出順序総数以上の場合は、固有表現抽出部 105から入力されるテキストを固有表現抽出結果である結果テキストとして出力する。

[0052] このように構成された本実施形態による固有表現抽出装置の動作例について図 1 のブロック図、図 7のフローチャート、及び図 8の抽出結果の一具体例を示す図を用いて説明する。ユーザが入力部 101から固有表現を含むテキストを入力する（ステツプ S101)。入力部 101は、固有表現を含むテキストが入力されると、この入力されるテキストと処理する抽出順序の初期値として値 1を抽出順序読込部 103に出力する（ステップ S102)。具体的な一例として、ユーザが入力部 101から番組名であるテキスト「松上電器創業記（1) 一誕生一」を入力すると、入力部 101は、入力されるテキスト「松上電器創業記（1) 一誕生一」と抽出順序の初期値として値 1を抽出順序読込部 103に出力する。

[0053] 抽出順序読込部 103は、入力部 101からテキストと抽出順序が入力されると、入力される抽出順序に対応した固有表現パターン名と抽出順序総数とを抽出順序記憶部 102から読み込み (ステップ S103)、入力されるテキストと抽出順序と抽出順序記憶部 102から読み込んだ抽出順序総数と固有表現パターン名とを出力する。上記の例では、抽出順序読込部 103は、入力部 101からテキスト「松上電器創業記（1) 一誕生一」と抽出順序の値 1が入力されると、入力される抽出順序の値 1に対応した固有表現パターン名「固有表現 Aパターン」と抽出順序総数の値 3とを抽出順序記憶部 102から読み込み、入力されるテキスト「松上電器創業記（1) —誕生—」と抽出順序の値 1と抽出順序総数の値 3と固有表現パターン名「固有表現 Aパターン」とを固有表現抽出部 105に出力する。

[0054] 固有表現抽出部 105は、抽出順序読込部 103からテキストと抽出順序と抽出順序総数と固有表現パターン名が入力されると、入力される固有表現パターン名に対応する固有表現パターンを固有表現パターン記憶部 104から読み込み（ステップ S 104 )、この読み込んだ固有表現パターンを使用して入力されるテキストから固有表現を抽出する（ステップ S105)。そして、抽出した固有表現を含むテキストと抽出順序読込部 103から入力される抽出順序総数と抽出順序とを出力する。

[0055] 上記の例では、固有表現抽出部 105は、抽出順序読込部 103からテキスト「松上電器創業記（1) —誕生—」と抽出順序の値 1と抽出順序総数の値 3と固有表現パターン名「固有表現 Aパターン」が入力されると、入力される固有表現パターン名「固有表現 Aパターン」に対応する固有表現パターン「固有表現 Aパターン」を固有表現パターン記憶部 104から読み込み、この読み込んだ固有表現パターン「固有表現 Aバターン」を使用して入力されるテキスト「松上電器創業記（1) —誕生—」から固有表現を抽出する。

[0056] この場合、固有表現パターン「固有表現 Aパターン」は小タイトルを抽出するパターンであるので、テキスト「松上電器創業記（1) 誕生の一部であるテキスト「松上電器創業記」が「小タイトル」の固有表現として抽出される。一例としてここでは、「く小タイトル >松上電器創業記く/小タイトル > (1) 誕生のように、抽出される固有表現を「く固有表現の種類〉」と「く/固有表現の種類〉」で囲む。そして、固有表現抽出部 105は、抽出した固有表現を含むテキスト「く小タイトル〉松上電器創業記く/小タイトル〉（1) —誕生—」と抽出順序総数の値 3と抽出順序の値 1とを抽出終了判定部 106に出力する（図 8の抽出結果（1回目））。

[0057] 抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数と抽出順序とテキストが入力されると、抽出順序が抽出順序総数より小さい場合は (ステップ S106)、抽出順序の値に数値 1を加算し (ステップ S107)、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを抽出順序読込部 103に出力する。また、抽出順序が抽出順序総数以上の場合は (ステップ S106)、固有表現抽出部 105から入力されるテキストを固有表現抽出結果である結果テキストとして出力する。

[0058] 上記の例では、抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 1とテキスト「く小タイトル〉松上電器創業記く Z小タイトル〉 (1) 一誕生一」が入力されると、抽出順序の値 1が抽出順序総数の値 3よりも小さいので、抽出順序の値 1に数値 1を加算して値を 2にし、抽出順序の値 2とテキスト「く小タイトル >松上電器創業記く/小タイトル > (1) 誕生一」とを抽出順序読込部 103に出力する。

[0059] この後、抽出順序読込部 103、固有表現抽出部 105では、上記と同様の処理が行われ、抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 2とテキスト「く中タイトル〉く小タイトル〉松上電器創業記く Z小タイトノレ > (1)く/中タイトル〉 —誕生-」が入力されるが、抽出順序の値 2が抽出順序総数の値 3よりも小さいので、抽出順序の値 2に数値 1を加算して値を 3にし、抽出順序の値 3とテキスト「く中タイトル〉く小タイトル〉松上電器創業記く Z小タイトル〉（1 ) < /中タイトノレ〉 —誕生—」とを抽出順序読込部 103に出力する（図 8の抽出結果 (2回目））。

[0060] さらにこの後、抽出順序読込部 103、固有表現抽出部 105では、上記と同様の処理が行われ、抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 3とテキスト「く大タイトノレ > <中タイトル〉く小タイトノレ >松上電器創業記く/小タイトル〉（1)く/中タイトル〉 —誕生—く/大タイトル〉」が入力され、抽出順序の値 3が抽出順序総数の値 3以上であるので、テキスト「<大タイトル > <中タイトル〉く小タイトル〉松上電器創業記く/小タイトル〉（1)く/中タイトノレ > —誕生-く/大タイトル〉」を固有表現抽出結果である結果テキストとして出力する（図 8の抽出結果（3回目））。

[0061] なお、上記の実施例では、抽出順序記憶部 102は、抽出順序総数と抽出順序と抽出順序に対応付けて固有表現パターン名とをセットにして記憶するようにしたが、この抽出順序総数と抽出順序と固有表現パターン名のセットをユーザを識別するユーザ識別子と対応付けて記憶するようにし、抽出順序読込部 103は、入力部 101からテキストと抽出順序が入力され、さらにユーザ識別子が入力されると、入力されるユーザ識別子に対応する抽出順序総数と抽出順序と固有表現パターン名のセットを対象に入力される抽出順序に対応する固有表現パターン名と抽出順序総数とを抽出順序記憶部 102から読み込み、入力されるテキストと抽出順序とユーザ識別子と抽出順序記憶部 102から読み込んだ抽出順序総数と固有表現パターン名とを出力するようにしてもよい。

[0062] ここでは、入力部 101がユーザ識別手段の一例である。

[0063] この場合、固有表現抽出部 105と抽出終了判定部 106は、上記実施例での動作以外にさらに抽出順序読込部 103から出力されるユーザ識別子をそのまま出力するようにする。具体的な一例として、抽出順序記憶部 102は、（ユーザ識別子、抽出順序総数、（抽出順序、固有表現パターン名））のセットとして、（01、 3、（1、固有表現 Aパターン）、（2、固有表現 Bパターン）、（3、固有表現 Cパターン）、 ·■·)、（02、 2、 ( 1、固有表現 Iパターン）、（2、固有表 ¾!パターン）、（3、固有表現 Kパターン)、■· -)、 · · -、が記憶されるとする。この場合の抽出順序記憶部 102の内容は図 9のようになる。さらに、抽出順序読込部 103は、入力部 101からユーザ識別子「01」とテキスト「松上電器創業記（1) 一誕生一」と抽出順序の値 1が入力されると、入力されるユーザ識別子「01」に対応する（ユーザ識別子、抽出順序総数、（抽出順序、固有表現パターン名））のセットである（01、 3、（1、固有表現 Aパターン）、（2、固有表現 Bパターン )、（3、固有表現 Cパターン）、 · · ·）を対象に、入力される抽出順序の値 1に対応した固有表現パターン名「固有表現 Aパターン」と抽出順序総数の値 3とを抽出順序記憶部 102から読み込み、入力されるテキスト「松上電器創業記（1) 誕生一」と抽出順序の値 1とユーザ識別子「01」と抽出順序総数の値 3と固有表現パターン名「固有表現 Aパターン」とを固有表現抽出部 105に出力する。以降の固有表現抽出部 105と抽出終了判定部 106においては、上記実施例の動作以外にユーザ識別子「01」をさらに出力する。こうすることで、ユーザ毎に固有表現の抽出する順序や抽出する固有表現を変更することができ、ユーザに適応した固有表現を抽出することができる。

[0064] 次に、抽出順序記憶部 102の変形例について、図 10を参照して説明する。

[0065] 抽出順序記憶部 102は、抽出順序総数と抽出順序と抽出順序に対応付けて固有表現パターン名とをセットにし、このセットを複数保持し、セット毎に抽出する固有表現の種類に対応するセット IDを付与して管理するようにし、抽出順序読込部 103は、入力部 101からセット IDとテキストと抽出順序が入力されると、入力されるセット IDに対応する抽出順序総数と抽出順序と固有表現パターン名のセットを対象に入力される抽出順序に対応する固有表現パターン名と抽出順序総数とを抽出順序記憶部 10 2から読み込み、入力されるテキストと抽出順序とセット IDと抽出順序記憶部 102から読み込んだ抽出順序総数と固有表現パターン名とを出力するようにしてもよい。

[0066] この場合、セット IDが抽出条件を示す情報として機能し、抽出順序読込部 103は、前述した読み込み動作によって、セット IDに対応して抽出順序記憶部 102に順序付けて記憶されている固有表現パターンを、抽出に用いられる一つ以上の固有表現パターンとその使用順序として設定することになる。そして、固有表現抽出部 105と抽出終了判定部 106は、上記実施例での動作以外にさらに抽出順序読込部 103から出力されるセット IDをそのまま出力するようにする。

[0067] 具体的な一例として、抽出順序記憶部 102は、（セット ID、抽出順序総数、（抽出順序、固有表現パターン名））のセットとして、（01、 3、（1、固有表現 Aパターン）、（2、固有表現 Bパターン）、（3、固有表現 Cパターン）、 ·■ 、 (02、 2、 (1、固有表現 Iパタ一ン）、（2、固有表 ¾!パターン)）、■·■、が記憶されるとする。この場合の抽出順序記憶部 102の内容は図 10のようになる。さらに、抽出順序読込部 103は、入力部 101 力入力されるセット ID「01」に対応する（セット ID、抽出順序総数、（抽出順序、固有表現パターン名））のセットである（01、 3、

(1、固有表現 Aパターン）、（2、固有表現 Bパターン）、（3、固有表現 Cパターン）、 · · ·)を対象に、入力される抽出順序の値 1に対応した固有表現パターン名「固有表現 Aパターン」と抽出順序総数の値 3とを抽出順序記憶部 102から読み込み、入力されるテキスト「松上電器創業記（1) —誕生—」と抽出順序の値 1とセット ID「01」と抽出順序総数の値 3と固有表現パターン名「固有表現 Aパターン」とを固有表現抽出部 1 05に出力する。以降の固有表現抽出部 105と抽出終了判定部 106においては、上記の実施例の動作以外にセット ID「01」をさらに出力する。

[0068] こうすることで、ユーザは、上記の実施例ではセット ID「01」を指定すると入力テキストから番組名に関連するテキストを抽出でき、さらに一例として、固有表現 Iパターンは人名の姓を抽出するためのルール、固有表 ¾ [パターンは人名の名を抽出するためのルール、固有表現 Kパターンは人名の姓名を抽出するためのルールとすると、ュ一ザは、セット ID「02」を指定すると入力テキストから人名に関係するテキストを抽出すること力 Sできる。つまり、ユーザは、抽出したい固有表現を指定することができる。 [0069] また、上記セット IDは抽出する固有表現の種類に対応した力セット IDは、抽出する固有表現を表示する端末を識別する端末識別子とし、さらに、入力部 101が固有表現を表示する端末の端末識別子を取得できるようにすることで、端末に応じた固有表現を抽出することができる。この場合には、入力部 101が端末識別子取得手段の一例である。

[0070] こうすることで、例えば、テレビでは番組名の固有表現は有用だ力 CDプレーヤでは番組名の固有表現が不用な場合など、表示端末によって有用な固有表現が異なる場合においても、表示端末毎に抽出する固有表現を設定することができるので、表示端末にとって冗長な情報を表示しなくてもよくなる。

[0071] 次に、入力テキスト数を抽出条件として用いる例について、図 11から図 14を参照して説明する。

[0072] この場合の固有表現抽出装置は、図 11に示すように、入力部 101からユーザが入力するテキストを検索キーワードとして、テレビ放送番組に関する情報やハードデイスクレコーダ等に蓄積されたコンテンツに関する情報、または、インターネット上に存在するコンテンツに関するテキスト情報を記憶する情報データベース 306を検索し、検索されたテキストに対して固有表現抽出を行う装置として構成され、抽出順序記憶部 102は、抽出順序と抽出順序に対応する固有表現パターン名とを記憶する利用パターンデータベース 301と、入力部 101からユーザが入力したテキストの一部を含むテキストが情報データベースに存在する場合のテキスト数と抽出順序総数とを対応付けて記憶する抽出順序データベース 302とを含むようにし、また、抽出順序読込部 103 はさらに、テキスト検索部 303と順序総数取得部 304と利用パターン取得部 305とを備え、テキスト検索部 303は、入力部 101からテキストと抽出順序の初期値が入力されると、入力テキストの一部を含むテキストを情報データベース 306から取得して、検索結果テキストと抽出順序を順序総数取得部 304に出力し、順序総数取得部 304は、テキスト検索部 303から検索結果テキストと抽出順序が入力されると、入力される検索結果テキストのテキスト数に対応する抽出順序総数を抽出順序記憶部 102の抽出順序データベース 302から取得して、取得する抽出順序総数と検索結果テキストと抽出順序を利用パターン取得部 305に出力し、利用パターン取得部 305は、順序総数取得部 304から検索結果テキストと抽出順序総数と抽出順序が入力されると、入力される抽出順序に対応する固有表現パターン名を抽出順序記憶部 102の利用パターンデータベース 301から取得して、取得する固有表現パターン名と検索結果テキストと抽出順序総数と抽出順序とを固有表現抽出部 105に出力するようにしてもよい。

[0073] この場合の抽出順序記憶部 102と抽出順序読込部 103のブロック図を図 11にフロ一チャートを図 12に示し、動作例について説明する。また、図 13は、利用パターンデータベース 301の内容の一例を示すものであり、（抽出順序、固有表現パターン名 )として、（（1、固有表現 Aパターン）、（2、固有表現 Bパターン）、（3、固有表現 Cパターン）、 ·■·)が記憶される。図 14は、抽出順序データベース 302の内容の一例を示すものであり、（テキスト数、抽出順序総数）として（（1以下、 1)、（2以上 5以下、 2)、 ( 6以上、 3) )が記憶される。

[0074] 上記の実施例では、テキスト検索部 303は、入力部 101からテキスト「松上電器創業記」と抽出順序の初期値 1が入力されると (ステップ S201)、情報データベースから入力テキストを含むテキスト「松上電器創業記（1) 誕生一」と「松上電器創業記（2 ) —発展—」とを取得するとし (ステップ S202)、この検索結果テキスト「松上電器創業記（1) 誕生一」、「松上電器創業記 (2) —発展一」と抽出順序の値 1を順序総数取得部 304に出力する。順序総数取得部 304は、テキスト検索部 303から検索結果テキスト「松上電器創業記（1) 誕生一」と「松上電器創業記（2) —発展一」と抽出順序の値 1が入力されると、抽出順序記憶部 102の抽出順序データベース 302 力入力される検索結果テキストのテキスト数 2に対応する抽出順序総数 2を取得し（ステップ S203)、この抽出順序総数 2と検索結果テキストと抽出順序の値 1を利用パターン取得部 305に出力する。利用パターン取得部 305は、順序総数取得部 304から検索結果テキストと抽出順序総数と抽出順序が入力されると、抽出順序記憶部 10 2の利用パターンデータベース 301から入力される抽出順序の値 1に対応する固有表現パターン名「固有表現 Aパターン」を取得し (ステップ S204)、この固有表現バターン名「固有表現 Aパターン」と検索結果テキストと抽出順序総数 2と抽出順序の値 1 とを固有表現抽出部 105に出力する。

[0075] 上記処理を抽出順序の値が抽出順序総数未満の間、繰り返した結果、結果テキストとしては、「く中タイトル〉く小タイトル〉松上電器創業記く/小タイトル〉（1) <

/中タイトル〉 —誕生一」と「く中タイトル〉く小タイトル〉松上電器創業記く/小タイトノレ > (2) < /中タイトノレ > 発展一」になる。

[0076] また、上記実施例では、入力部 101から検索されるテキスト「松上電器創業記」を入力したが、情報データベース 306に含まれる情報が電子番組表情報や音楽情報などのようにコンテンツ (番組や音楽）に対するタイトル、ジャンル、時間長、出演者などで構成される場合、入力部 101からジヤンノレなどを入力し、テキスト検索部 303は入力されるジャンルに対応するタイトルを情報データベース 306から検索される検索結果テキストとしてもよい。

[0077] 次に、利用パターンデータベースが複数存在する場合について、図 15から図 18を参照して説明する。この場合は、利用パターンデータベースと抽出順序データべ一スとを対応づけるため、抽出する固有表現の種類に対応する共通の IDで管理すればよレ、。図 15、図 16には、共通の IDであるセット IDで対応付けられる利用パターンデータベースと抽出順序データベースとをそれぞれ示す。この場合、入力テキスト数と共にセット IDが抽出条件として用いられ、入力部 101からさらにセット IDも入力されるとし、抽出順序読込部 103は入力部 101から入力されるセット IDに対応する利用パターンデータベースと抽出順序データベースを参照して抽出順序総数と固有表現パターン名を取得するようにする。前述したように、このような取得動作によって、抽出順序読込部 103は、セット IDに対応して抽出順序記憶部 102に順序付けて記憶されている固有表現パターンを、抽出に用いられる一つ以上の固有表現パターンとその使用順序として設定することになる。

[0078] また、上記実施例では、セット IDが入力部 101から入力されるとした力抽出順序データベース 302にセット IDもテキスト数と対応付けられて記憶されるものとし、抽出順序読込部 103は、検索結果テキスト数に対応する抽出順序総数とセット IDを抽出順序データベース 302から取得し、さらに、セット IDに対応する利用パターンデータベースを参照して固有表現パターン名を取得するようにしてもよい。

[0079] このような取得動作によって、抽出順序読込部 103は、検索結果テキスト数に対応して抽出順序記憶部 102に順序付けて記憶されている固有表現パターンを、抽出に用いられる一つ以上の固有表現パターンとその使用順序として設定することになる。この場合の抽出順序データベース 302の一例を図 25に示す。

[0080] さらに、抽出順序読込部 103では、テキスト検索部 303で検索される検索結果テキスト数に基づき抽出に用レ、られる固有表現パターンと使用順序を設定したが、本実施例がさらに表示部を含む場合、テキスト検索部 303は、検索される検索結果テキストから表示部で表示できる文字数分のテキストを抽出し、抽出される複数のテキストが類似する検索結果テキストを類似テキスト群として順序総数取得部 304に出力することで、表示した際に類似するテキストの数に基づき抽出に用いられる固有表現パターンゃ使用順序を設定するようにしてもょレ、。

[0081] 図 26は、そのような変形に係る固有表現抽出装置の構成図である。この固有表現抽出装置は、図 11に示される固有表現抽出装置と比べて、類似テキスト取得部 308 と、表示部 309とが追加される。

[0082] ここで、具体的な一例として、テキスト検索部 303には、入力部 101からジャンル「ドキュメンタリー」が入力され、情報データベース 306からテキスト「ドキュメンタリ松上電器の歴史一」、「人間ドキュメント松下の足跡（1)」、「人間ドキュメント松下の足跡（2)」を検索するとし、さらに表示部 309で一つの固有表現あたり表示できる文字数を 8文字とする場合を考える。

[0083] その場合、類似テキスト取得部 308は、検索されるテキストから先頭 8文字のテキスト「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を抽出して類似判定を行レ、、同じテキストであると判定される「人間ドキュメント」に対応するテキスト「人間ドキュメント松下の足跡（1)」、「人間ドキュメント松下の足跡（2)」を類似テキスト群として順序総数取得部 304に出力し、類似しないと判定されるテキスト「ドキュメンタリー」に対応するテキスト「ドキュメンタリ松上電器の歴史—」は結果テキストとして表示部 309へ出力する。

[0084] その後、順序総数取得部 304は、図 25の抽出順序データベース 302を参照して抽出順序総数 2とセット IDの値 02を取得し、利用パターン取得部 305は、図 15の利用パターンデータベース 301を参照することで、抽出順序が 1の場合は固有表現 Iバターン、抽出順序が 2の場合は固有表 ¾ [パターンを取得する。ここで、例えば、固有表現 Iパターンを用いると、番組名のテキストから副題に当たる部分が小タイトルとして抽出され、固有表パターンを用いると、番組名のテキストから副題と副題に連続している回数をまとめた部分が中タイトルとして抽出されるものとする。その結果、最終的にテキスト「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」から結果テキストとして「松下の足跡（1 )」、「松下の足跡（2)」がそれぞれ抽出される。

[0085] また、類似テキスト取得部 308は類似テキストを判定する際に、同一テキストを類似テキストとするように説明したが、表示文字数の特定の割合の文字数以上同じ文字列であれば、類似テキストと判定するようにしてもよい。例えば、表示文字数が 10文字で特定の割合が 8割であるとすると、 8文字以上の文字列が同じであれば類似テキストであると判定することになる。

[0086] こうすることで、類似テキスト取得部 308で類似テキスト群以外であると判断された検索結果テキストはそのまま表示部 309に表示され、類似テキスト群に関しては、ュ一ザにとってテキストを識別するために必要となる最少の固有表現を表示部 309に表示できるので、表示部に検索結果テキストを表示する際、表示部に表示できる文字数も考慮してユーザにとってテキストを識別するために必要となる最少の固有表現を抽出することができる。

[0087] よって、検索結果のテキストに同一の文字列が含まれる場合、ユーザにとってテキストを識別するために必要となる最少の固有表現を抽出することができるので、ユーザにとって冗長な文字列を抽出しないことが可能になる。

[0088] また、本発明は固有表現パターンを学習する際に用いたテキストと異なる書式のテキストに対して処理を行うと、固有表現の抽出性能が低下するため、上記セット IDの代わりに書式名やテキストの種類を表すテキスト属性、一例としてテキストが IT関連のテキストである場合の属性は「IT文書」、テキストがテレビ番組情報のテキストである場合の属性は「テレビ番組情報」や「ドラマに関するテキスト」、「番組名」などで管理するようにしても良ぐこの場合、抽出順序読込部 103はユーザが入力するテキスト属性だけでなぐテキストにテキスト属性が付与されている場合は、入力部 101がそのテキストに付与されているテキスト属性を取得する属性取得部として機能し、入力部 10 1によって取得されたテキスト属性に対応する固有表現パターン名と抽出順序総数とを抽出順序記憶部 102から読み込むようにしてもよい。この場合の入力部 101が属性取得手段の一例であり、抽出順序記憶部 102の内容は図 17のようになる。

[0089] このテキスト属性は、「IT文書」、「テレビ番組情報」といった分類を示すだけでなぐ「ドラマ」「報道番組」「バライティ一」といったテレビ番組のカテゴリを示すものであってもよレ、。テレビ番組のカテゴリは、電子番組ガイドを構成する番組情報に含まれているので、入力部 101は、電子番組ガイドを構成する番組情報からそのカテゴリを取得すること力 Sできる。

[0090] また、テキストにテキスト属性が付与されていない場合でも、テキストに含まれる単語を用いて生成した単語ベクトルとテキスト属性を表現する単語ベクトルとの距離を算出することによりテキスト属性を推定し、そのテキスト属性に対応する固有表現パターン名と抽出順序総数とを抽出順序記憶部 102から読み込むようにしてもよい。こうすることで、固有表現抽出の抽出性能を向上させることができ、さらに固有表現抽出の対象テキストにテキスト属性が付与される場合は、ユーザがテキスト属性を指定する必要がなくなる。

[0091] また、上記セット IDの変わりに固有表現抽出されたテキストである結果テキストを表示する端末名や端末を識別することができる端末識別子を利用するようにしても良い。この場合の抽出順序記憶部 102の内容は図 18のようになる。こうすることで、結果テキストを表示する端末毎に抽出する固有表現を設定できる。

[0092] 次に、過去に固有表現が抽出された回数を抽出条件として用いる例について、図 1 9から図 24を参照して説明する。

[0093] この場合の固有表現抽出装置は、図 19に示すように、抽出終了判定部 106に含まれる抽出順序変更部 204が抽出条件に応じて抽出順序を変更するように構成され、抽出順序読込部 103は抽出終了判定部 106から入力される抽出順序に対応する固有表現パターン名が読み込めない場合は、さらに抽出終了フラグとして値 1を出力し、固有表現パターン名が読み込める場合は、抽出終了フラグとして値 0を出力し、固有表現抽出部 105は、入力される抽出終了フラグが値 1の場合で、固有表現パターン記憶部 104から読み込む固有表現パターンに対応した固有表現が抽出される場合は、さらに抽出フラグとして値 1と抽出終了フラグの値 1を出力し、固有表現が抽出されない場合は、抽出フラグとして値 0と抽出終了フラグの値 1を出力するようにし、入力される抽出終了フラグが値 0の場合は、何も処理をせずに抽出フラグとして値 0と抽出終了フラグの値 0を出力するようにし、さらに、抽出終了判定部 106は、判定部 20 1と抽出回数記憶部 202と抽出回数更新部 203と抽出順序変更部 204とを備え、判定部 201は固有表現抽出部 105から抽出終了フラグと抽出順序総数と抽出順序とテキストが入力されると、抽出終了フラグが値 0の場合は、抽出順序の値に数値 1をカロ算し、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを抽出順序読込部 103に出力し、さらにこの際に、抽出順序が抽出順序総数と等しい場合は、固有表現抽出部 105から入力されるテキストを固有表現抽出結果である結果テキストとして出力し、抽出終了フラグが値 1の場合は、抽出終了フラグの値 1を抽出順序変更部 204に出力する。また、抽出回数記憶部 202は固有表現が抽出される順序である抽出順序とこの抽出順序で固有表現が抽出される回数である抽出回数とを記憶するものであり、抽出回数更新部 203は、固有表現抽出部 105から抽出フラグと抽出順序総数と抽出順序が入力されると、入力される抽出フラグが値 1の場合、入力される抽出順序に対応する抽出回数記憶部 202に記憶される抽出回数を更新するものであり、抽出順序変更部 204は、判定部 201から抽出終了フラグの値 1が入力される場合、抽出回数記憶部 202の抽出回数の合計数が一定の値以上である場合、抽出回数記憶部 202に記憶される抽出順序に対応する抽出回数に基づいて抽出順序記憶部 102の抽出順序を変更するようにしてもよい。

[0094] ここで、抽出回数更新部 203及び抽出回数記憶部 202が、個々の固有表現パターンを用いて過去に固有表現が抽出された回数を計数する抽出回数計数手段の一例である。

[0095] ここで、図 19に示す抽出終了判定部 106の構成図、及び図 20に示すフローチヤートを参照して、動作例について説明する。上記の実施例では、判定部 201は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 1とテキスト「く小タイトル >松上電器創業記く/小タイトル > (1) —誕生—」と抽出終了フラグの値 0が入力されると（ステップ S301)、抽出終了フラグが値 0なので (ステップ S309)、抽出順序の値 1に数値 1を加算して値を 2にし (ステップ S303)、抽出順序の値 2とテキスト「く小タイトル >松上電器創業記く/小タイトル > (1) 誕生とを抽出順序読込部 103に出力する（ステップ S304)

[0096] さらに、判定部 201は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 3とテキスト「く大タイトル〉く中タイトル〉く小タイトル〉松上電器創業記く/ 小タイトル〉（1)く Z中タイトル〉一誕生一く/大タイトル〉」と抽出終了フラグの値 0が入力されると、抽出順序の値 3が抽出順序総数の値 3と等しいので (ステップ S 302)、入力テキスト「く大タイトル〉く中タイトル〉く小タイトル〉松上電器創業記く/小タイトノレ > (1) <Z中タイトノレ > —誕生一く/大タイトル >」を固有表現抽出結果である結果テキストとして出力し (ステップ S310)、抽出終了フラグが値 0なので (ステップ S309)、抽出順序の値 3に数値 1をカ卩算して値を 4にし (ステップ S303) 、抽出順序の値 4とテキスト「く大タイトノレ > <中タイトノレ〉く小タイトノレ >松上電器創業記く/小タイトル〉（1)く/中タイトル〉 —誕生—く/大タイトル〉」とを抽出順序読込部 103に出力する (ステップ S304)

[0097] また、抽出順序読込部 103が抽出終了判定部 106から入力される抽出順序の値 5 の時に、抽出順序の値 5に対応する固有表現パターン名が読み込めないとすると、抽出順序読込部 103は、抽出終了フラグの値 1と抽出順序総数の値 3と抽出順序の値 5とテキスト「く大タイトル〉く中タイトル〉く小タイトル〉松上電器創業記く/小タイトル〉（1)く/中タイトノレ〉一誕生一く/大タイトル〉」を固有表現抽出部 105 に出力する。この後、判定部 201は、固有表現抽出部 105から抽出順序総数の値 3 と抽出順序の値 5とテキスト「く大タイトノレ > <中タイトル > <小タイトノレ >松上電器創業記く/小タイトル〉（1)く Z中タイトル〉 —誕生—く/大タイトル〉」と抽出終了フラグの値 1が入力されると (ステップ S301)、抽出終了フラグが値 1なので (ステツプ S309)、抽出終了フラグの値 1を抽出順序変更部 204に出力する（ステップ S311 )。また、抽出回数記憶部 202は固有表現が抽出される順序である抽出順序とこの抽出順序で固有表現が抽出される回数である抽出回数とを記憶する。

[0098] 図 21は、抽出回数記憶部 202に記憶される抽出順序と抽出順序に対応する抽出回数の一例を示すものであり、（抽出順序、抽出回数）として（（1 9)、（2 6)、（3 3 )、（4、 1) )が記憶される。つまり、小タイトルを 9回、中タイトルを 6回、大タイトルを 3 回、全タイトルを 1回抽出したことを意味するとする。上記の実施例では、抽出回数更新部 203は、固有表現抽出部 105からテキストと抽出フラグの値 1と抽出順序総数の値 3と抽出順序の値 1と抽出終了フラグの値 0が入力されると (ステップ S301)、入力される抽出フラグが値 1なので (ステップ S305)、抽出順序の値 1に対応する抽出回数記憶部 202に記憶される抽出回数の値 9に 1を加算し、値を 10にする（ステップ S3 06)。この後の処理で同様に、中タイトル、大タイトルに対しても固有表現が抽出されるので、抽出順序の値 2、 3に対応する抽出回数記憶部 202に記憶されるそれぞれの抽出回数の値 6と値 3を値 7と値 4に更新する。

[0099] 図 22は、抽出回数更新部 203により更新された後の抽出回数記憶部 202の内容を示すものである。抽出順序変更部 204は、判定部 201から抽出終了フラグの値 1が入力されると、抽出回数記憶部 202の抽出回数の合計数が特定の値（一例として、値 20)以上になるので (ステップ S307)、抽出回数記憶部 202に記憶される抽出順序に対応する抽出回数が、特定の値 (一例として値 5)以上に対応している抽出順序の値 2を抽出順序記憶部 102の抽出順序総数とする（ステップ S308)。

[0100] 図 23は、抽出順序変更部 204により変更された後の抽出順序記憶部 102の内容を示すものである。こうすることで、ユーザの入力テキストから固有表現を抽出した履歴を用いて抽出順序総数を変更し、変更された抽出順序総数を用いて情報データベースから検索される検索結果テキストに対して固有表現を抽出することができ、この結果、検索結果テキストから抽出される固有表現をユーザの入力頻度の高い固有表現と同じ形式に合わせることができるので、ユーザにとって冗長な固有表現を抽出しない、または、ユーザにとってテキストの識別に必要な固有表現のみを抽出することが自動で可能になる。また、上記実施例のように抽出順序記憶部 102において、抽出順序総数と抽出順序と抽出順序に対応付けて固有表現パターン名とをセットにし、このセットを複数保持し、セット毎にユーザ識別子やセット IDなどを付与して管理する場合は、抽出回数記憶部 202もユーザ識別子やセット ID毎に抽出順序と抽出回数をセットで管理することにより、対応可能である。

[0101] 図 24は、ユーザ識別子毎に抽出順序と抽出回数をセットで管理する場合の抽出順序記憶部 102の内容を示すものである。

[0102] また、抽出終了判定部 106は、固有表現抽出処理の続行を抽出順序総数と抽出順序により判定したが、抽出される固有表現の文字数で判定するようにしてもよい。具体的な一例として、固有表現抽出部 105は、上記実施例での動作以外にさらに抽出する固有表現の文字数も抽出終了判定部 106に出力するようにし、抽出終了判定部 106は、固有表現抽出部 105から抽出順序と抽出される固有表現の文字数とテキストが入力されると、固有表現の文字数が特定の文字数よりも小さい場合は、抽出順序の値に数値 1を加算し、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを抽出順序読込部 103に出力するようにし、また、固有表現の文字数が特定の文字数以上の場合は、固有表現抽出部 105から入力されるテキストを固有表現抽出結果である結果テキストとして出力する。

[0103] ここで、抽出終了判定部 106が、予め定められたしきい値を上回る長さの固有表現が抽出された場合、それ以降の固有表現パターンを用いて行われる抽出を打ち切る抽出打ち切り手段の一例である。

[0104] 上記の実施例では、抽出終了判定部 106は、固有表現抽出部 105から抽出順序の値 1と固有表現が抽出されたテキスト「く小タイトル〉松上電器創業記く/小タイトル> (1) 誕生一」と抽出される固有表現「松上電器創業記」の文字数 7が入力されると、固有表現の文字数 7が特定の文字数 (ここでは、一例として文字数を 8にする )よりも小さいので、抽出順序の値を 2にし、抽出順序の値 2とテキスト「く小タイトル〉松上電器創業記く/小タイトル〉（1) —誕生—」とを抽出順序読込部 103に出力する。この後さらに、抽出終了判定部 106は、固有表現抽出部 105から抽出順序の値 2と固有表現が抽出されたテキスト「く中タイトル〉く小タイトル〉松上電器創業記く/小タイトノレ > (1) <Z中タイトノレ > —誕生一」と抽出される固有表現「松上電器創業記（1)」の文字数 9が入力されると、固有表現の文字数 9が特定の文字数 8以上なので、テキスト「く中タイトル〉く小タイトル〉松上電器創業記く Z小タイトル〉（1 )く/中タイトノレ〉一誕生一」を結果テキストとして出力する。こうすることで、表示部に表示可能な文字数の上限が決まっている場合などでは、表示可能な文字数を抽出終了判定部 106の閾値文字数とすることにより、表示できない固有表現を抽出しなくてもよくなり、固有表現抽出の処理量を減少させることができる。

[0105] また、上記実施例の固有表現抽出装置は、抽出順序記憶部 102に記憶される抽出順序総数や抽出順序、固有表現パターン名をユーザが変更することができる変更部をさらに含むようにしてもよい。こうすることで、ユーザは抽出される固有表現を変更すること力 Sできる。

[0106] 以上のように、本実施形態によれば、固有表現を抽出する順序を設定することにより、ユーザやアプリケーション、端末にとって必要な固有表現のみを抽出することができる。また、固有表現抽出装置から抽出される固有表現を音声認識の対象語彙とする音声認識装置においては、音声認識の対象とする固有表現を減少させることができるので、音声認識の認識性能を向上させることができる。また、固有表現抽出装置から抽出される固有表現を検索対象のキーワードとして検索対象データと共に検索対象データベースに格納する検索装置にぉレ、ては、検索対象のキーワードを減少させることができるので、検索の精度を向上させることができる。

[0107] (実施の形態 2)

次に、本発明に係る実施の形態 2の固有表現抽出装置について、図面を参照しな力 Sら説明する。

[0108] 図 27は、本発明の実施の形態 2の固有表現抽出装置の構成を示す構成図である。ここで、実施の形態 1と同一符号の構成要素は同じ動作を行うものとし、それらの詳細な説明は省略する。本実施の形態の固有表現抽出装置は、検索結果のテキストに同一の文字列が含まれる場合、ユーザにとってテキストを識別するために必要な最少の固有表現を抽出するための装置であり、図 27に示すように入力部 101、抽出順序記憶部 102、固有表現パターン記憶部 104、固有表現抽出部 105、テキスト検索部 303、利用パターン取得部 305、情報データベース 306、利用パターンデータべース 401、抽出順序データベース 402、順序総数取得部 403、抽出終了判定部 404 、固有表現決定部 405を含んで構成される。

[0109] 利用パターンデータベース 401と抽出順序データベース 402は、共通の IDであるセット IDで対応付けられ、利用パターンデータベース 401は、セット ID毎に抽出順序と抽出順序に対応する固有表現パターン名とを記憶するものであり、抽出順序データベース 402は、セット ID毎に抽出順序総数が記憶されるものである。図 15は、利用パターンデータベース 401の一例であり、図 28は、抽出順序データベース 402の内容の一例である。

[0110] 順序総数取得部 403は、テキスト検索部 303から検索結果テキストと抽出順序が入力される場合、抽出順序データベース 402から最も若いセット IDとそのセット IDに対応する抽出順序総数とセット IDの最大値を取得して、検索結果テキストと抽出順序とセット IDと抽出順序総数とセット IDの最大値を利用パターン取得部 305へ出力する

[0111] そして、抽出終了判定部 404から抽出順序とセット IDと抽出順序総数とセット IDの最大値が入力される場合、抽出順序を 1にセットし直し、入力されるセット IDに 1をカロ算して、加算後のセット IDに対応する抽出順序総数を抽出順序データベースから取得し、検索結果テキストと抽出順序とセット IDと抽出順序総数とセット IDの最大値を利用パターン取得部 305に出力する。

[0112] 抽出終了判定部 404は、固有表現抽出部 105からテキストと抽出順序とセット IDと抽出順序総数とセット IDの最大値が入力されると、抽出順序に 1を加算し、加算後の抽出順序が抽出順序総数より大きい場合においては、固有表現決定部 405にセット IDとセット IDの最大値とテキストを出力し、セット IDがセット IDの最大値未満の場合、順序総数取得部 403に抽出順序と抽出順序総数とセット IDとセット IDの最大値を出力し、また、加算後の抽出順序が抽出順序総数以下の場合においては、テキストと抽出順序とセット IDと抽出順序総数とセット IDの最大値を利用パターン取得部 305 に出力する。

[0113] 固有表現決定部 405は、抽出終了判定部 404からセット IDとセット IDの最大値とテキストが入力されると、セット IDに対応付けて同時に入力される複数テキストから抽出される固有表現を記憶し、さらに、セット IDがセット IDの最大値と等しい場合、セット I D毎に対応付けて記憶される固有表現に対して、類似する固有表現数を算出し、算出される類似固有表現数が最も少ないセット IDに対応する固有表現を結果テキストとして出力する。

[0114] このように構成された本実施の形態による固有表現抽出装置において固有表現を抽出する際の動作例について説明する。図 29は固有表現を抽出する際の動作例の流れを示すフローチャートである。

[0115] 情報データベース 306に含まれる情報を電子番組情報とし、テキスト検索部 303は、入力部 101からジャンル「ドキュメンタリー」と抽出順序の初期値 1が入力されると (ステツプ S401)、情報データベース 306からジャンル「ドキュメンタリー」に対応する番組名のテキスト「ドキュメンタリー（1) —松上電器の誕生一」、「ドキュメンタリー（2) —松上電器の発展—」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」を取得し (ステップ S402)、この検索結果テキスト「ドキュメンタリー（1) —松上電器の誕生—」、「ドキュメンタリー（2) —松上電器の発展—」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」と抽出順序 1を順序総数取得部 403に出力する。

[0116] 順序総数取得部 403は、テキスト検索部 303から検索結果テキスト「ドキュメンタリー

(1) 一松上電器の誕生一」、「ドキュメンタリー（2) —松上電器の発展一」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」と抽出順序の値 1が入力されると、図 28に示される抽出順序データベース 402から最も若いセット IDの値 1とそのセット IDに対応する抽出順序総数の値 2とセット IDの最大値 2を取得して (ステップ S403)、テキスト「ドキュメンタリー（1) —松上電器の誕生一」、「ドキュメンタリー（2) —松上電器の発展一」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」と抽出順序 1とセット IDの値 1と抽出順序総数 2とセット IDの最大値 2を利用パターン取得部 305へ出力する。

[0117] 利用パターン取得部 305は、実施の形態 1と同様に、順序総数取得部 403からテキストと抽出順序総数と抽出順序とセット IDとセット IDの最大値が入力されると、図 1 5の利用パターンデータベース 401から入力されるセット IDの値 1と抽出順序の値 1 に対応する固有表現パターン名「固有表現 Aパターン」を取得し (ステップ S404)、この固有表現パターン名「固有表現 Aパターン」と入力テキストと抽出順序総数と抽出順序とセット IDとセット IDの最大値とテキスト「ドキュメンタリー（1) —松上電器の誕生一」、「ドキュメンタリー（2) —松上電器の発展一」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」を固有表現抽出部 105に出力する。

[0118] 固有表現抽出部 105は、実施形態 1と同様に、入力される固有表現パターン「固有表現 Aパターン」を用いて、テキスト「ドキュメンタリー（1) —松上電器の誕生—」、「ドキュメンタリー（2) —松上電器の発展一」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」から、小タイトルの固有表現であるテキスト「ドキュメンタリー」、「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を抽出し (ステップ S406)し、固有表現が抽出されたテキスト「く小タイトル >ドキュメンタリーく/小タイトル > (1) —松上電器の誕生—」、「く小タイトル >ドキュメンタリーく Z 小タイトル〉（2) —松上電器の発展—」、「く小タイトル〉人間ドキュメントく Z小タイトノレ > 松下太郎の足跡（1)」、「く小タイトノレ〉人間ドキュメントく/小タイトノレ〉松下太郎の足跡（2)」と抽出順序総数と抽出順序とセット IDとセット IDの最大値を抽出終了判定部 404に出力する。

[0119] 抽出終了判定部 404は、入力される抽出順序の値に 1を加算して値を 2とし (ステツプ S407)、加算後の抽出順序の値 2が抽出順序総数 2以下であるので (ステップ S4 08)、入力されるテキスト「く小タイトノレ〉ドキュメンタリーく/小タイトル〉（1) —松上電器の誕生—」、「く小タイトル〉ドキュメンタリーく/小タイトル〉（2) —松上電器の発展—」、「く小タイトル〉人間ドキュメントく/小タイトル〉松下太郎の足跡（ 1)」、「く小タイトル〉人間ドキュメントく/小タイトル〉松下太郎の足跡（2)」と抽出順序総数 2と抽出順序 2とセット IDの値 1とセット IDの最大値 2を利用パターン取得部 305に出力する。

[0120] その後、上記と同様に、利用パターン取得部 305では、固有表現パターン名「固有表現 Bパターン」を取得し、固有表現抽出部 105において固有表現パターン「固有表現 Bパターン」を用いてテキストから固有表現を抽出した結果、固有表現抽出部 105 は、テキスト「く中タイトノレ > <小タイトノレ >ドキュメンタリーく /小タイトノレ > ( 1 )く/ 中タイトノレ〉一松上電器の誕生一」、「く中タイトノレ > <小タイトノレ〉ドキュメンタリ一く/小タイトル > (2) <Z中タイトル > —松上電器の発展一」、「く小タイトノレ > 人間ドキュメントく Z小タイトル〉松下太郎の足跡（1)」、「く小タイトル〉人間ドキュメント< /小タイトノレ > 松下太郎の足跡（2)」と抽出順序総数 2と抽出順序の値 2 とセット IDの値 1とセット IDの最大値 2を抽出終了判定部 404に出力する。

[0121] 抽出終了判定部 404は、入力される抽出順序の値に 1を加算して値を 3とし (ステツプ S407)、加算後の抽出順序の値 3が抽出順序総数 2より大きいので (ステップ S40 8)、固有表現決定部 405にセット IDの値 1とセット IDの最大値 2とテキスト「<中タイトノレ〉く小タイトノレ〉ドキュメンタリーく/小タイトノレ〉（1)く/中タイトノレ〉一松上電器の誕生一」、「く中タイトノレ >く小タイトル >ドキュメンタリーく /小タイトノレ > (2) く/中タイトノレ〉一松上電器の発展一」、「く小タイトル〉人間ドキュメントく Z小タイトノレ > 松下太郎の足跡（1)」、「く小タイトノレ〉人間ドキュメントく/小タイトノレ〉松下太郎の足跡（2)」を出力し (ステップ S409)、セット IDの値 1がセット IDの最大値 2未満であるので (ステップ S410)、順序総数取得部 403に抽出順序の値 3と抽出順序総数 2とセット IDの値 1とセット IDの最大値 2を出力する。

[0122] 順序総数取得部 403は、抽出終了判定部 404から抽出順序の値 3とセット IDの値

1と抽出順序総数 2とセット IDの最大値 2が入力される場合、抽出順序の値を 1にセットし直し、入力されるセット IDの値に 1をカ卩算して値を 2にし、加算後のセット IDの値 2 に対応する抽出順序総数 2を抽出順序データベース 402から取得し、検索結果テキスト「ドキュメンタリー（1) 一松上電器の誕生一」、「ドキュメンタリー（2) —松上電器の発展「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」と抽出順序の値 1とセット IDの値 2と抽出順序総数 2とセット IDの最大値 2を利用パターン取得部 305に出力する。

[0123] その後、上記と同様に、利用パターン取得部 305では、固有表現パターン名「固有表現 Iパターン」を取得し、固有表現抽出部 105において固有表現パターン「固有表現 Iパターン」を用いてテキストから固有表現を抽出した結果（一例として、固有表現 I パターンを用いると、番組名のテキストからは副題に当たる部分が小タイトルとして抽出されるとする）、固有表現抽出部 105は、テキスト「ドキュメンタリー（1) —く小タイトル〉松上電器の誕生く/小タイトル〉—」、「ドキュメンタリー（2) —く小タイトノレ >松上電器の発展く Z小タイトル〉—」、「人間ドキュメントく小タイトル〉松下太郎の足跡く Z小タイトル〉（1)」、「人間ドキュメントく小タイトル〉松下太郎の足跡く/小タイトル〉（2)」と抽出順序総数 2と抽出順序の値 1とセット IDの値 2とセット ID の最大値 2を抽出終了判定部 404に出力し、抽出終了判定部 404は、抽出順序の値を 2にして、抽出順序の値 2と抽出順序総数 2とセット IDの値 2とセット IDの最大値 2を利用パターン取得部 305に出力する。

[0124] その後もまた同様に、利用パターン取得部 305は、固有表現パターン名「固有表現 Jパターン」を取得し、固有表現抽出部 105において固有表現パターン「固有表 ¾[パターン」を用いてテキストから固有表現を抽出した結果（一例として、固有表 ¾ [バターンを用いると、番組名のテキストから副題と副題に連続している回数をまとめて中タィトルとして抽出するとする）、固有表現抽出部 105は、テキスト「ドキュメンタリー（1) —く小タイトル〉松上電器の誕生く/小タイトル〉—」、「ドキュメンタリー（2) - く小タイトル〉松上電器の発展く/小タイトル〉一」、「人間ドキュメントく中タイトノレ > <小タイトノレ >松下太郎の足跡く/小タイトノレ > (1) <Z中タイトノレ〉」、「人間ドキュメントく中タイトノレ > <小タイトノレ〉松下太郎の足跡く/小タイトノレ〉（2) < /中タイトル >」と抽出順序総数 2と抽出順序の値 2とセット IDの値 2とセット IDの最大値 2を抽出終了判定部 404に出力する。

[0125] 抽出終了判定部 404は、上記と同じ動作を行った結果、抽出順序の値 3が抽出順序総数より大きいので（ステップ S408)、固有表現決定部 405にセット IDの値 2とセット IDの最大値 2とテキスト「ドキュメンタリー（1) —く小タイトル〉松上電器の誕生く /小タイトル〉—」、「ドキュメンタリー（2) —く小タイトノレ〉松上電器の発展く/小タイトル〉—」、「人間ドキュメントく小タイトル〉松下太郎の足跡く/小タイトル > ( 1)」、「人間ドキュメントく小タイトル〉松下太郎の足跡く/小タイトル〉（2)」とを固有表現決定部 405に出力する。

[0126] 固有表現決定部 405は、抽出終了判定部 404からセット IDの値 1とセット IDの最大値 2とテキスト「く中タイトノレ > <小タイトノレ >ドキュメンタリーく/小タイトノレ〉（1) < /中タイトノレ〉一松上電器の誕生一」、「く中タイトノレ > <小タイトノレ〉ドキュメンタリーく Z小タイトル > (2)く/中タイトル〉一松上電器の発展一」、「く小タイトノレ > 人間ドキュメントく Z小タイトル〉松下太郎の足跡（1)」、「く小タイトル〉人間ドキュメントく/小タイトノレ > 松下太郎の足跡（2)」が入力されると、セット IDの値 1に対応付けて同時に入力される複数テキストから抽出される固有表現「ドキュメンタリー（1 )」、「ドキュメンタリー（2)」、「人間ドキュメント」、「人間ドキュメント」を記憶する。

[0127] さらに、抽出終了判定部 404からセット IDの値 2とセット IDの最大値 2とテキスト「ドキュメンタリー（1) —く小タイトノレ〉松上電器の誕生く/小タイトノレ〉一」、「ドキュメンタリー（2) —く小タイトル〉松上電器の発展く/小タイトル〉一」、「人間ドキュメントく中タイトノレ > <小タイトノレ >松下太郎の足跡く/小タイトノレ > (1) <Z中タイトノレ〉」、「人間ドキュメントく中タイトノレ > <小タイトノレ >松下太郎の足跡く/小タイトノレ > (2)く/中タイトノレ >」が入力されると、セット IDの値 2に対応付けて同時に入力される複数テキストから抽出される固有表現「松下電器の誕生」、「松下電器の発展」、「松下太郎の足跡（1)」、「松下太郎の足跡（2)」を記憶する。

[0128] この時さらに、固有表現決定部 405は、セット IDの値 2がセット IDの最大値 2と等しいので（ステップ S410)、セット IDの値 1に対しては、固有表現「人間ドキュメント」、「人間ドキュメント」が同じなので類似固有表現数を 2とし (ここでは、同じテキストのみを類似テキストとしたが、一定の文字数以上同じテキストを類似テキストしても良い）、セット IDの値 2に対しては、全て固有表現が異なるので、類似固有表現数を 0とする。

[0129] そして、類似固有表現数が最も少ないセット IDの値 2に対応する固有表現「松下電器の誕生」、「松下電器の発展」、「松下太郎の足跡（1)」、「松下太郎の足跡（2)」を結果テキストとして出力する。

[0130] また、上記実施例では、固有表現決定部 405は、抽出される固有表現をそのまま用いて類似固有表現数を算出したが、テキストが一般に有限の大きさの表示部に表示されることを考慮し、その表示部に一つの固有表現あたり表示できる表示文字数が分かっている場合、固有表現の先頭から表示文字数分のテキストのみを抽出し、抽出されるテキストに対して類似固有表現数を求めるようにしてもょレ、。

[0131] 具体的な一例として、固有表現決定部 405に、（セット ID、固有表現群）として、（1 、（松下電器産業の誕生、松下電器産業の発展、松下電器産業の株価推移、松下電器産業の新製品紹介））、（2、（松下ドキュメンタリー、松下ドキュメンタリー、経済二ユース、流行の商品紹介)）が入力される場合を考える。

[0132] この例は、番組情報に含まれる番組名力抽出された固有表現の一例を示している。これらの固有表現は、一つの固有表現あたりに用いる文字数が異なる詳細な表示フォーマットと一覧性を高めた表示フォーマットとを使い分けて、同じ表示部に表示されることを ¾1定してレ、る。

[0133] 詳細な表示フォーマットにおいて一つの固有表現あたりに用いられる文字数を、例えば 12文字とすると、固有表現決定部 405は、各固有表現の先頭から最大で 12文字分のテキスト（1、（松下電器産業の誕生、松下電器産業の発展、松下電器産業の株価推移、松下電器産業の新製品紹介)）、（2、（松下ドキュメンタリー、松下ドキュメンタリー、経済ニュース、流行の商品紹介））を抽出する。この場合には、各固有表現の全ての文字が抽出される。そして、セット IDの値 1、 2に対して類似固有表現数をそれぞれ、 0、 2と求め、類似固有表現数が最も少ないセット IDの値 1に対応する固有表現「松下電器産業の誕生」、「松下電器産業の発展」、「松下電器産業の株価推移」、「松下電器産業の新製品紹介」を結果テキストとして表示部へ出力する。

[0134] 図 30 (A)は、詳細な表示フォーマットの一例であり、この例では、 1画面に 3チャンネル分の番組情報力番組名力抽出された最大 12文字の固有情報を用いて表示される。このフォーマットは、より詳細に番組情報をウォッチしたいユーザに適する。

[0135] また、一覧性を高めた表示フォーマットにおいて一つの固有表現あたり用いられる文字数を、例えば 6文字とすると、固有表現決定部 405は、各固有表現の先頭から最大で 6文字分のテキスト（1、（松下電器産業、松下電器産業、松下電器産業、松下電器産業)）、（2、（松下ドキュメ、松下ドキュメ、経済ニュース、流行の商品紹））を抽出する。そして、セット IDの値 1、 2に対して類似固有表現数をそれぞれ、 4、 2と求め、類似固有表現数が最も少ないセット IDの値 2に対応する固有表現「松下ドキュメ」、「松下ドキュメ」、「経済ニュース」、「流行の商品紹」を結果テキストとして出力する。

[0136] 図 30 (B)は、一覧性を高めた表示フォーマットの一例であり、この例では、 1画面に

6チャンネル分の番組情報が、番組名力、ら抽出された最大 6文字の固有情報を用いて表示される。このフォーマットは、より広く番組情報を見渡したいユーザに適する。なお、図示されるように、本来 7文字以上ある固有情報については、 6文字目を所定の文字 (例えば「■·■」）で置き換えることによって、後続する文字が省略されてレ、ることを明示してもよい。

[0137] このように、異なる複数の表示フォーマットを使い分ける場合に、図 30 (A) (B)に示すようにユーザが番組を識別するためにそれぞれ最も有効な固有表現を表示させること力 Sできる。

[0138] 以上のように、本実施形態によれば、同一テキストから固有表現の抽出方法を変更することで抽出される複数組の固有表現から、各組に含まれる固有表現が最も異なる組の固有表現を最終結果とすることにより、ユーザが識別できる固有表現数を増やすことができる。

[0139] (実施の形態 3)

次に、本発明に係る実施の形態 3の固有表現抽出装置について、図面を参照しな力 ¾説明する。

[0140] 図 31は、本発明の実施の形態 3の固有表現抽出装置の構成を示す構成図である。ここで、実施の形態 1と同一符号の構成要素は同じ動作を行うものとし、それらの詳細な説明は省略する。本実施の形態の固有表現抽出装置は、表示される固有表現に同一の固有表現が存在する場合、重複を削除し、さらにユーザが表示される固有表現を指定すると、指定される固有表現を入れ子として含む固有表現を表示することができる装置であり、図 31に示すように、入力部 101、抽出順序記憶部 102、抽出順序読込部 103、固有表現パターン記憶部 104、固有表現抽出部 105、固有表現記憶部 501、抽出終了判定部 502、表示条件取得部 503、固有表現取得部 504、重複削除部 505、表示部 506を含んで構成される。

[0141] 固有表現記憶部 501は、入力テキストと入力テキストから抽出される固有表現と抽出順序とを対応付けて記憶するものである。固有表現記憶部 501の内容例を図 32 に示す。

[0142] 抽出終了判定部 502は、固有表現抽出部 105から抽出順序総数と抽出順序とテキストが入力されると、抽出順序とテキストとテキストから抽出された固有表現を対応付けて固有表現記憶部 501に記憶し、さらに、抽出順序が抽出順序総数より小さい場合は、抽出順序の値に数値 1を加算し、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを抽出順序読込部 103に出力する。

[0143] 表示部 506は、固有表現を表示する。表示条件取得部 503は、表示部 506に表示される固有表現の抽出順序や表示される複数の固有表現からユーザが指定する固有表現を入力する。

[0144] 固有表現取得部 504は、表示条件取得部 503から抽出順序のみ入力される場合、固有表現記憶部 501から入力される抽出順序に対応する固有表現を取得し、また、表示条件取得部 503から抽出順序とユーザが指定する固有表現が入力される場合、固有表現記憶部 501に記憶されるテキストから、入力される抽出順序と固有表現に対応するテキストを検索し、検索されるテキストの固有表現において、入力される抽出順序の次の抽出順序に対応する固有表現を取得する。

[0145] 重複削除部 505は、固有表現取得部 504で取得される固有表現に対して重複を省いて表示部 506に表示する。

[0146] このように構成された本実施の形態による固有表現抽出装置において固有表現を抽出し、表示部に表示する際の動作例について説明する。図 33は、固有表現を抽出し、表示する際の動作例の流れを示すフローチャートである。

[0147] 入力部 101、抽出順序記憶部 102、抽出順序読込部 103、固有表現パターン記憶部 104、固有表現抽出部 105を用いて入力テキストから固有表現を抽出する動作（ステップ S101〜ステップ S105)は、実施の形態 1と同じ動作を行うので説明は省略する。

[0148] 抽出終了判定部 502は、固有表現抽出部 105から抽出順序総数 3と抽出順序 1とテキスト「く小タイトル〉ドキュメンタリーく/小タイトル〉（1) —松上電器の誕生— 」、「く小タイトル >ドキュメンタリーく/小タイトノレ > (2) —松上電器の発展一」、「く小タイトル〉人間ドキュメントく/小タイトル〉松下太郎の足跡（1)」、「く小タイトル>人間ドキュメントく/小タイトル > 松下太郎の足跡（2)」が入力されると、抽出順序 1とテキスト「ドキュメンタリー（1) —松上電器の誕生一」、「ドキュメンタリー（2) —松上電器の発展—」、「人間ドキュメント松下太郎の足跡（1)」、「人間ドキュメント松下太郎の足跡（2)」とテキストから抽出された固有表現「ドキュメンタリー」、「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を対応付けて固有表現記憶部 50 1に記憶し (ステップ S501)、さらに、抽出順序の値 1が抽出順序総数 3より小さいので (ステップ S106)、抽出順序の値に数値 1をカ卩算して値を 2とし (ステップ S107)、加算後の抽出順序の値 2と固有表現抽出部 105から入力されるテキスト「く小タイトノレ〉ドキュメンタリーく/小タイトル〉（1) —松上電器の誕生一」、「く小タイトル〉ドキュメンタリーく/小タイトル〉（2) —松上電器の発展—」、「く小タイトル〉人間ドキュメントく/小タイトル〉松下太郎の足跡（1)」、「く小タイトル〉人間ドキュメント<7小タイトノレ > 松下太郎の足跡（2)」を抽出順序読込部 103に出力する。

[0149] 上記動作を抽出順序が抽出順序総数以上になるまで繰り返した後の固有表現記憶部 501の内容は図 32のようになるとする。

[0150] 続いて、このようにして得られた内容を用いて、次のような表示動作が行われる。

[0151] 最初、表示条件取得部 503は、ユーザ力指定を受け付けることなしに、抽出順序の初期値である値 1を固有表現取得部 504へ入力する。

[0152] 固有表現取得部 504は、表示条件取得部 503から抽出順序の値 1のみ入力される場合 (ステップ S502)、固有表現記憶部 501から抽出順序の値 1に対応する固有表現「ドキュメンタリー」、「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を取得する（ステップ S 503)。

[0153] 重複削除部 505は、固有表現取得部 504で取得される固有表現が「ドキュメンタリ一」、「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」の場合、これら固有表現に対して重複を削除して (ステップ S506)、固有表現「ドキュメンタリー」、「人間ドキュメント」を表示部 506に表示する（ステップ S507)。この時の表示部 506に表示される表示内容例を図 34に示す。また、重複削除部 505は、各固有表現を表示する際に、各固有表現において重複した数を同時に表示しても良い。この時の表示部 506 に表示される表示内容例を図 35に示す。

[0154] ここで表示される各固有表現には、ユーザによる所定の操作、例えばマウスクリック操作等を受け付けるユーザインタフェース機能が付加される。表示条件取得部 503 は、表示された固有表現の一つへユーザによる所定の操作を受け付けると、その操作がなされた固有表現とその固有表現の抽出順序とを固有表現取得部 504へ入力する。

[0155] 一例として、図 34においてユーザが「ドキュメンタリー」をクリックすると、表示条件取得部 503から抽出順序の値 1とユーザが指定する固有表現「ドキュメンタリー」が入力される。固有表現取得部 504は、固有表現記憶部 501に記憶されるテキストから、入力される抽出順序の値 1と固有表現「ドキュメンタリー」に対応するテキスト「ドキュメンタリー（1) 一松上電器の誕生「ドキュメンタリー（2) —松上電器の発展一」を検索し (ステップ S504)、検索されるテキストの固有表現において、入力される抽出順序の次の抽出順序の値 2に対応する固有表現「ドキュメンタリー（1)」「ドキュメンタリー（2)」を取得する（ステップ S505)

[0156] そして、重複削除部 505には、固有表現「ドキュメンタリー（1)」「ドキュメンタリー（2) 」が入力され、この場合は、固有表現の重複が存在しないため、そのまま表示部 506 に固有表現が表示される。この時の表示部 506に表示される表示内容例を図 36に示す。

[0157] 以上のように、本実施形態によれば、抽出される固有表現の入れ子構造に従い、入力されるテキストを表示するので、入力されるテキストをメニュー階層で表示することができる。また、入力テキストがユーザの蓄積デバイスに記憶されているコンテンツのタイトルなどの場合、固有表現の入れ子に従ってメニュー階層が生成されるので、ユーザは、重複が存在するタイトル一覧から目的のタイトルを探す必要なぐメニュー階層を迪つていくだけで目的のタイトルを発見することができる。

[0158] (その他の変形例）

ここまで、入力テキスト及び抽出される固有表現が日本語である例を用いて説明してきたが、入力テキスト及び抽出される固有表現が日本語に限定されないことは言うまでもない。例えば中国語 (簡字体)で表された入力テキストから固有表現を抽出することも、もちろん可能である。

[0159] 図 37 (A) (B)は、入力テキストとなるべき、中国語の番組情報に含まれる番組名の一例である。この番組名から、前述と同様にして固有表現を抽出し、ユーザに提示することによって、ユーザの入力履歴や表示端末の表示能力等によって表される抽出条件に適応した固有表現を中国語の入力テキストから抽出することができる固有表現抽出装置が得られる。

産業上の利用可能性

[0160] 本発明は、テキストから固有表現を抽出する際、抽出される固有表現をユーザゃァプリケーシヨン、ユーザが利用する端末に適応させることができ、ハードディスクレコーダゃ DVDレコーダ、 TV、オーディオコンポ、インターネットにアクセスして情報検索を行うことができる端末や情報検索サーバ等において有用である。

Claims

請求の範囲

[1] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、

固有表現の抽出に使用されるべき固有表現パターンの、抽出条件に応じて異なる順序を示す抽出順序を定める抽出順序設定手段と、

前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段と

を備えることを特徴とする固有表現抽出装置。

[2] 前記抽出条件は、抽出される固有表現を利用するユーザ、抽出される固有表現を表示する端末装置、入力テキストの属性、入力テキストの数、及び過去に固有表現が抽出された回数のうちの少なくとも一つを用いて表される

ことを特徴とする請求項 1に記載の固有表現抽出装置。

[3] 前記入力テキストは、電子番組ガイドを構成する番組情報を表す

ことを特徴とする請求項 1に記載の固有表現抽出装置。

[4] 前記固有表現抽出装置は、さらに、

複数の固有表現パターンを記憶している固有表現パターン記憶手段と、複数の抽出条件のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と

を備え、

前記抽出順序設定手段は、前記複数の抽出条件の一つが与えられると、与えられた抽出条件について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定める

ことを特徴とする請求項 1に記載の固有表現抽出装置。

[5] 前記固有表現抽出装置は、ユーザを識別するユーザ識別子を抽出条件とし、さらに、

前記ユーザ識別子を取得するユーザ識別手段を備え、前記抽出順序記憶手段は、複数のユーザ識別子のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、

前記抽出順序設定手段は、取得されたユーザ識別子について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めることを特徴とする請求項 4に記載の固有表現抽出装置。

[6] 前記固有表現抽出装置は、抽出される固有表現を表示する端末装置の端末識別子を抽出条件とし、さらに、

前記端末識別子を取得する端末識別子取得手段を備え、

前記抽出順序記憶手段は、複数の端末識別子のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、

前記抽出順序設定手段は、取得された端末識別子について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めることを特徴とする請求項 4に記載の固有表現抽出装置。

[7] 前記固有表現抽出装置は、前記入力テキストの属性を抽出条件とし、さらに、前記入力テキストの属性を取得する属性取得手段を備え、

前記抽出順序記憶手段は、複数の属性のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており前記抽出順序設定手段は、取得された属性について前記抽出順序記憶手段に記憶されて

レ、る固有表現パターンの順序を、前記抽出順序として定める

ことを特徴とする請求項 4に記載の固有表現抽出装置。

[8] 前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、

複数のテキストが格納されている情報データベースと、

前記入力テキストとなるべき一つ以上のテキストを前記情報データベースから検索するテキスト検索手段とを備え、

前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、

前記抽出順序設定手段は、検索されたテキストの数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記検索されたテキストから固有表現を抽出する

ことを特徴とする請求項 4に記載の固有表現抽出装置。

[9] 前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、

複数のテキストが格納されている情報データベースと、

複数のテキストを前記情報データベースから取得するテキスト取得手段と、テキストを表示する表示手段と、

前記テキスト取得手段で取得される複数のテキストから、前記表示手段に表示された際に類似する複数のテキストを前記入力テキストとして取得する類似テキスト取得手段と

を備え、

前記抽出順序設定手段は、前記類似テキスト取得手段によって取得されたテキストの数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、

前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記類似テキスト取得手段によって取得されたテキストから固有表現を抽出する

ことを特徴とする請求項 4に記載の固有表現抽出装置。

[10] 前記固有表現抽出装置は、さらに、複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と、前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、抽出条件に応じて変更する抽出順序変更手段と

を備え、

前記抽出順序設定手段は、変更後の固有表現パターンの順序を、前記抽出順序として定める

ことを特徴とする請求項 1に記載の固有表現抽出装置。

[11] 前記固有表現抽出装置は、過去に固有表現が抽出された回数を抽出条件とし、さらに、

前記抽出順序記憶手段に記憶されている固有表現パターンのそれぞれについて、その固有表現パターンを用いて過去に固有表現が抽出された回数を計数する抽出回数計数手段を備え、

前記抽出順序変更手段は、前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記計数された数に応じて変更する

ことを特徴とする請求項 10に記載の固有表現抽出装置。

[12] 前記抽出順序は、複数の固有表現パターンを、順次使用された場合に使用ごとにより長い固有表現の抽出が期待される順序で示し、

前記固有表現抽出装置は、さらに、

予め定められたしきい値を上回る長さの固有表現が抽出された場合、それ以降の固有表現パターンを用いて行われる抽出を打ち切る抽出打ち切り手段を備えることを特徴とする請求項 1に記載の固有表現抽出装置。

[13] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、

複数のテキストが格納されている情報データベースと、

複数のテキストを前記情報データベースから取得するテキスト取得手段と、複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を複数記憶している抽出順序記憶手段と前記テキスト取得手段で取得される複数のテキストから、前記抽出順序記憶手段で記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ごとに抽出された固有表現を固有表現セットとする固有表現抽出手段と、

前記固有表現抽出手段で得られた固有表現セット毎に、その固有表現セットに含まれる類似する固有表現の数である類似固有表現数を算出し、類似固有表現数が最も少ない固有表現セットを出力する固有表現決定手段と

を備えることを特徴とする固有表現抽出装置。

[14] 前記固有表現抽出装置は、さらに、

テキストを表示する表示手段を備え、

前記固有表現決定手段は、固有表現セット毎に類似固有表現数を算出する際に、固有表現から前記表示手段に表示可能な文字数分の部分固有表現を抽出し、抽出した部分固有表現同士が類似する場合に、類似する部分固有表現の数を類似固有表現数とする

ことを特徴とする請求項 13記載の固有表現抽出装置。

[15] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、

複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と、前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段と、

前記入力テキスト、その入力テキストから抽出された固有表現、及びその抽出が行われた前記順序における段を対応付けて記憶する固有表現記憶手段と、既定の段を指定するか、又は共通の段において抽出された一つ以上の固有表現をユーザ操作に応じて指定する表示条件指定手段と、

前記表示条件指示手段から既定の段が指定された場合、前記固有表現記憶手段力前記指定された段に対応して記憶されている全ての固有表現を取得し、また、前記表示条件指示手段から一つ以上の固有表現が指定された場合、前記固有表現記憶手段から、前記指定された各固有表現に対応する入力テキストについて前記共通の段の次の段に対応して記憶されている固有表現を取得する固有表現取得手段と、前記固有表現取得手段で取得された固有表現から重複を削除する重複削除手段と、

前記重複削除手段によって重複を削除されて残った固有表現を表示する表示手段と

を備えることを特徴とする固有表現抽出装置。

[16] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出方法であって、

抽出条件に応じて異なる固有表現パターンの使用順序を示す抽出順序を定める抽出順序設定ステップと、

前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ステップと

を含むことを特徴とする固有表現抽出方法。

[17] テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を複数記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固有表現を抽出する固有表現抽出方法であって、

一つ以上のテキストを情報データベースから取得するテキスト取得ステップと、前記テキスト取得ステップで取得される複数のテキストから、前記抽出順序記憶手段で記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ごとに抽出された固有表現を固有表現セットとする固有表現抽出ステップと、

前記固有表現抽出ステップで得られた固有表現セット毎に、その固有表現セットに含まれる類似する固有表現の数である類似固有表現数を算出し、類似固有表現数が最も少ない固有表現セットを出力する固有表現決定ステップと

を含むことを特徴とする固有表現抽出方法。

テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固有表現を抽出する固有表現抽出方法であって、

前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ステツプと、

前記入力テキスト、その入力テキストから前記固有表現抽出ステップで抽出された固有表現、及びその抽出が行われた前記順序における段を対応付けて記憶する固有表現記憶ステップと、

既定の段を指定するか、又は共通の段において抽出された一つ以上の固有表現をユーザ操作に応じて指定する表示条件指定ステップと、

前記表示条件指示ステップで既定の段が指定された場合、前記固有表現記憶ステップで記憶され、かつ前記指定された段に対応する固有表現を取得し、また、前記表示条件指示ステップで一つ以上の固有表現が指定された場合、前記固有表現記憶ステップで記憶され、かつ前記指定された各固有表現に対応する入力テキストについて前記共通の段の次の段に対応する固有表現を取得する固有表現取得ステツプと、

前記固有表現取得ステップで取得された固有表現から重複を削除する重複削除ステツプと、

前記重複削除ステップで重複を削除されて残った固有表現を表示する表示ステツプと

を含むことを特徴とする固有表現抽出方法。

[19] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置に用いられるコンピュータ実行可能なプログラムであって、

をコンピュータに実行させることを特徴とするプログラム。

[20] テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を複数記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固有表現を抽出するためのコンピュータ実行可能なプログラムであって、

[21] テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固有表現を抽出するためのコンピュータ実行可能なプログラムであって、前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ステツプと、

前記表示条件指示ステップで既定の段が指定された場合、前記固有表現記憶ステップで記憶され、かつ前記指定された段に対応する全ての固有表現を取得し、また、前記表示条件指示ステップで一つ以上の固有表現が指定された場合、前記固有表現記憶ステップで記憶され、かつ前記指定された各固有表現に対応する入力テキストについて前記共通の段の次の段に対応する固有表現を取得する固有表現取得ステツプと、