WO2006137412A1

WO2006137412A1 - データ表示装置及び方法

Info

Publication number: WO2006137412A1
Application number: PCT/JP2006/312350
Authority: WO
Inventors: Masaki Murata; Tamotsu Shirado; Hitoshi Isahara
Original assignee: National Institute Of Information And Communications Technology, Incorporated Administrative Agency
Priority date: 2005-06-20
Filing date: 2006-06-20
Publication date: 2006-12-28

Abstract

【課題】　テキストデータから所定の文字列を識別しやすい特異な書式で表示する際に、当該文字列を的確に抽出し表示させることのできる表示装置及び方法を提供すること。【解決手段】　タグ抽出処理手段１００が、テキストデータから書式設定タグを抽出して、タグ待避処理手段１０１が、該抽出されたタグをテキストデータ中の位置情報と共にタグ記憶手段１３に格納すると共に、タグを除去する。次いで特異表示文字列抽出処理手段１０２が、タグ待避後のテキストデータから特異書式を用いた表示を行う文字列を抽出し、特異書式タグ書き込み処理手段１０３が、該特異書式に応じた書式設定タグをテキストデータ中に書き込む。さらにタグ復帰処理手段１０４が、記憶手段１３を参照して書式設定タグを書き込み、表示処理手段１０５が、テキストデータを表示する。

Description

データ表示装置及び方法

技術分野

[0001] 本発明はコンピュータにおけるテキストデータの表示装置及び方法に関し、特にテキストデータを表示する際に所定の文字列に特異な書式を付与する技術に係るものである。

背景技術

[0002] 近年、インターネットにより情報収集することが日常的に行われている。一般的にィンターネット上の情報はウェブブラウザで表示するために HTML形式で記述されたテキストデータとして多くの情報が蓄積されて、る。

HTML形式は、テキストデータに加えて文字の色や大きさ、フォント、文字配置などの各種書式を規定するタグと、画像コンテンツ等のファイルを指定したり、リンク先のページのアドレスを指定するタグを含むものである。

[0003] このようにタグを含むテキストデータとしてはマークアップ言語又はページ記述言語と呼ばれる言語形式が代表的な例である。マークアップ言語として広く使われて！/、るのは、上記の HTMLの他、 JIS X 4159:2002に規定された XMLがあり、 XMLから派生した XHTML、数式を記述するための MathML、デジタル放送等で用いられている BMLが知られる。

さらに、主に学術論文などの執筆には Texと呼ばれる組版処理用の言語が好んで用いられている。

[0004] ところで、学術論文には多くの数式や記号が記述されており、それらが論文の内容を端的に表現していることが多い。従って研究者は論文集など多数の論文力所望のトピックの論文を抽出する際に、数式や記号などを概観して選び出す作業を行うことがある。

近年では学会において発行される論文誌は従来の紙媒体力 CD— ROMやインターネットに変わりつつあり、論文をパーソナルコンピュータ上で閲覧する機会も多い [0005] このような時に、論文を構成するテキストから数式や記号を迅速に識別することができれば効率がよい。しかし、特に英語などのラテン文字を用いる論文では、同じくラテン文字で記載されることの多、数式や記号がテキスト中に埋没してしま、、詳細に閲読しなければならな力つたり、肝心の数式や記号を見落とす恐れがあった。

[0006] 従来力ワードプロセッサにおいて文字種別に応じて表示色を変えることは行われている。例えばひらがな及び漢字は黒色、カタカナは緑色、半角英数字は茶色などのように区別して表示する製品が知られている。これは特に日本語と英語等では半角と全角の区別や長音とハイフンの区別が不明確になりやすいために、入力者に分力りやすく表示するものである。

[0007] この方法は日本語論文中に半角の英数字が含まれている場合には、数式や記号をある程度見やすくすることには寄与する力上述したようにすベてラテン文字で記述された論文の場合には全て同色となってしまうため判別しやすくならない。

[0008] また、特許文献 1には化学式の中から任意の化学物質につ!/、て、その化学物質が有する様々な特徴を容易に表示する技術が開示されている。すなわち、元素記号によって色を変えると共に、固体や気体などの場合には斜体ゃ太字にするなどの書式を変化させることが記載されて、る。

[0009] 特許文献 1：特開平 10-240748号公報

[0010] 本技術ではテーブルデータに単に元素記号の文字列を備えて一致した文字列の色を変化させるだけであるため、偶然に元素記号等と一致した文字列がテキスト中に存在すれば誤って色を変化させることになり、誤解を生じさせたり、かえって読みにくくなる結果を招きやすい。特に、ラテン文字を用いたテキスト中ではその誤りが頻出する問題がある。

[0011] このような学術論文を表示する場合だけでなぐウェブブラウザにおいて所望の文字列を識別する用途は広ヽ。例えば本件出願人らが特許文献 2及び 3におヽて提案して、る 2つの文書の差分を表示する技術や、キーワードを表示する技術を用いた場合にも、抽出された文字列を識別しやすく表示することが求められる。

[0012] 特許文献 2 :特許 3682535号

特許文献 3 :特開 2004— 280176号公報発明の開示

発明が解決しょうとする課題

[0013] このように文字を識別しやすく表示する場合に、上記したような書式設定タグを含むテキストデータに対して抽出する処理を行おうとすると、書式設定タグが障害となって適切な処理が行えな、場合が多、。

書式設定タグは人間が書式を付与するために付加する性質上、内容が判別できるようにテキストで記述されており、本文等を構成するテキストとデータ上は区別されるものではな!/、。加えて通常のテキストとやや異なり変則的な文字列が記載されることから、上記のようなテキスト処理において誤った抽出が行われることが多いという問題を抱えている。

[0014] 本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、書式設定タグを含むテキストデータ力所定の文字列を識別しやすい特異な書式で表示する際に、当該文字列を的確に抽出し表示させることのできる表示装置及び方法を提供することを目的とする。

[0015] また、書式設定タグを含まな!/ヽテキストデータ中の数式や記号を読者が識別容易に表示すると共に、特に読者が誤解を生じることなく必要な数式や記号を読み取ることのできる表示装置及び方法を提供することを目的とする。

課題を解決するための手段

[0016] 本発明は、上記の課題を解決するために、次のようなデータ表示装置を提供する。

すなわち、本発明の請求項 1に記載の発明は、少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装置である。

そして該装置が、テキストデータ力該書式設定タグの少なくとも一部を抽出するタグ抽出処理手段と、抽出された書式設定タグをそのテキストデータ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータ力除去するタグ待避処理を行うタグ待避処理手段とを有してテキストデータを抽出処理容易な態様に変換処理する。

[0017] その後、タグ待避後のテキストデータ力特異書式を用いた表示 (特異表示)を行う文字列を抽出する特異表示文字列抽出処理手段、該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書き込み処理手段、該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出力されたテキストデータに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰処理手段の各手段により特異書式タグを書き込んだテキストデータを生成する。

最後に該書式設定タグに従ってテキストデータを表示する表示処理手段を備える。

[0018] また、本発明の別な形態として請求項 2に記載のデータ表示装置は、タグ抽出処理手段と共に、抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換処理手段と、タグ置換後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、特異書式タグ書き込み処理手段と、タグ序列置換処理手段により置換された文字を、該タグ序列記憶手段力順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換処理手段と、表示処理手段を備えるものである。

[0019] 本発明の請求項 3に記載のデータ表示装置は、上記の所定の置換文字が、序列のある文字であることを特徴とする。序列のある文字として、例えば数字や文字コードの付与された文字'符号 (空白を含む)などを用いることができる。

[0020] さらに異なる形態として請求項 4に記載のデータ表示装置は、タグ抽出処理手段と、抽出された書式設定タグを予め備えたタグ置換データベースに基づいて所定の符号に置換するタグ置換処理手段と、タグ置換後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、特異書式タグ書き込み処理手段と、表示処理手段とを備えたことを特徴とする。

[0021] 請求項 5に記載の発明は、請求項 4のデータ表示装置が、タグ置換処理手段により置換された符号力予め備えたタグ逆置換データベースに基づいて所定の書式設定タグに置換するタグ逆置換処理手段を備えて、表示処理手段によるテキストデータの表示を行うものである。

[0022] 請求項 6に記載の発明は、上記データ表示装置に特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手段を備えることを特徴とする。

[0023] 請求項 7に記載の発明は、表示状態設定手段が、前記表示処理部によりテキストデータを表示する表示領域の近接領域に配置されることを特徴とするデータ表示装置を提供する。

[0024] 請求項 8に記載の発明は、前記特異書式タグ書き込み処理手段において、特異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タグを書き込むことを特徴とする。

[0025] 請求項 9に記載の発明は、前記テキストデータが少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含む構成に係る。そして、上記特異表示文字列抽出処理手段が、科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースと、科学記号データベースを参照してテキストデータ力科学記号候補文字列を抽出する科学記号抽出処理部と、該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理部とを備える。

さらに、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグを書き込むことを特徴とするものである。

[0026] 請求項 10に記載の発明は、少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含むテキストデータを表示するデータ表示装置であって、テキストデータを入力する入力処理部と、科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースと、該科学記号データベースを参照して該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理部と、該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理部と、決定された表示態様の科学記号候補文字列を含むテキストデータを表示する表示部とを備えることを特徴とする。

[0027] 請求項 11に記載の発明は、前記文字列表示決定処理部において、テキストデータの基本文字色を予め設定すると共に、該科学記号候補文字列の表示色を該テキストデータの表示に用いる基本文字色力変化させる処理を行うものである。 [0028] 請求項 12に記載の発明は、文字列表示決定処理部において、前記科学記号候補文字列が科学記号である確度を算出する科学記号確度算出部を備え、該算出結果に基づいて確度が閾値よりも高い科学記号候補文字列については基本文字色と色相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号候補文字列については基本文字色と彩度又は明度が異なる表示色を設定する。

[0029] 請求項 13に記載の発明は、前記データ表示装置に形態素解析処理部を備え、前記テキストデータを形態素解析処理すると共に、科学記号確度算出部において、前記科学記号候補文字列の前後所定個数の形態素の少なくとも文字列情報又は文法情報のいずれかを用い、前記科学記号データベースに備えた少なくとも文字列情報又は文法情報のいずれかを参照して確度を算出する。

[0030] 請求項 14に記載の発明は、前記科学記号確度算出部において、前記科学記号候補文字列の前後に同一又は異なる科学記号候補文字列が連続して出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処理を含むことを特徴とする。

[0031] 請求項 15に記載の発明は、前記科学記号抽出処理部が、予め定めた科学記号を構成する特定表現を抽出し、前記科学記号確度算出部において、該特定表現が前後所定個数の形態素内、又は同一文、又は同一テキストデータ中に出現した場合に、当該科学記号候補文字列の確度を所定値だけ高める処理を含むことを特徴とする

[0032] 請求項 16に記載の発明は、前記特定表現を、特定表現データベースに格納する構成において、着目している科学記号候補文字列と共に、テキストデータの同一文又は所定個数の形態素内に特定表現候補が出現する回数 N1を計数する一方、該特定表現候補がその他の文において単独に出現する回数 N2を計数し、 N1ZN2 ( N2≠0)又は NlZ (Nl +N2) (N2が 0のときも含む）の少なくともいずれかの値が閾値以上の場合に、該特定表現データベースに格納する処理を含む。

[0033] 請求項 17に記載の発明は、前記データ表示装置がテキストの差分を検出して表示する構成において、前記特異表示文字列抽出処理手段が、テキストデータの差分として出力する対象の単位である抽出単位とテキストデータの差分を検出するために比較する領域の単位である検出領域とを用いて下記の処理を行う。該抽出単位と検出領域とは予め定義されていてもよいし、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設定情報に基づいて該抽出'検出領域設定部で設定されてもよい。また、記憶部と抽出'検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域設定部で設定されてもよい。

[0034] そして、特異表示文字列抽出処理手段には情報を格納する格納部と、抽出部とを備える。

該構成において、抽出部は、入力されたテキストデータの現在の該検出領域以外の領域力全ての該抽出単位に相当するものを抽出して該格納部に格納し、現在の該検出領域にぉ、て、該格納部に格納されて、なヽ該抽出単位に相当するものを特異表示文字列として抽出すると共に、該抽出部の処理を該検出領域ごとに繰り返す。

そして、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグを書き込むことを特徴とするものである。

[0035] 請求項 18に記載の発明は、前記のデータ表示装置がキーワードとなる語句を特異書式で表示する構成において、特異表示文字列抽出処理手段が、予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定されるカゝ、のいずれか〖こより決まる抽出の単位を用いて下記の処理を行う。

そして、特異表示文字列抽出処理手段には特異書式で表示する抽出表現を設定する抽出表現設定部と、抽出領域の場所を設定する抽出領域設定部と、情報を格納する格納部と、抽出部とを備える。

[0036] 該構成において抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデータ中に現在の該抽出の単位に相当するものと同じもの力該格納部に格納されている場合は、それを特異表示文字列として抽出した後、前記特異書式タグ書き込み処理手段力表示態様に従った書式設定タグを書き込むことを特徴とする。

[0037] 請求項 19に記載の発明は、請求項 18における抽出領域の場所として、前記テキストデータのタイトル部分とすることを特徴とするものである。

[0038] 本発明は、次のようにデータ表示方法として提供することもできる。すなわち、請求項 20に記載の発明は少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方法に係る。

そして該方法において、次の各ステップを含む。

(1 1)タグ抽出処理手段が、該テキストデータ力該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ

(1 - 2)タグ待避処理手段が、該抽出された書式設定タグをそのテキストデータ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータから除去するタグ待避処理を行うタグ待避ステップ

(1 - 3)特異表示文字列抽出処理手段が、タグ待避後のテキストデータから特異書式を用、た表示を行う文字列を抽出する特異表示文字列抽出ステップ

(1 -4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書き込みステップ

(1 - 5)タグ復帰処理手段が、該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段力出力されたテキストデータに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰ステップ

(1 6)表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステツプ

また、別の態様として請求項 21に開示される次のステップを含むデータ表示方法でもよい。

(2—1)タグ抽出処理手段が、該テキストデータ力該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ

(2— 2)タグ序列置換処理手段が、該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換ステップ

(2— 3)特異表示文字列抽出処理手段が、タグ置換後のテキストデータから特異書式を用、た表示を行う文字列を抽出する特異表示文字列抽出ステップ

(2-4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書き込みステップ

(2— 5)タグ序列逆置換処理手段が、タグ序列置換ステップで置換された文字を、該タグ序列記憶手段力順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換ステップ

(2— 6)表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステツプ

[0040] ここで上記の所定の置換文字が、序列のある文字であることを特徴とする。序列のある文字として、例えば数字や文字コードの付与された文字'符号 (空白を含む)などを用いてもよい。

[0041] さらに異なる態様として請求項 22に開示されるデータ表示方法を提供することもできる。該方法は次のステップを含む。

(3— 1)タグ抽出処理手段が、該テキストデータ力該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ

(3— 2)タグ置換処理手段が、該抽出された書式設定タグを予め備えたタグ置換データベースに基づいて所定の符号に置換するタグ置換ステップ

(3— 3)特異表示文字列抽出処理手段が、タグ置換後のテキストデータから特異書式を用、た表示を行う文字列を抽出する特異表示文字列抽出ステップ

(3— 4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書き込みステップ

(3— 5)表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステツプ

[0042] ここで、データ表示方法は、（3— 3)特異文字列抽出ステップの後、（3— 5)表示ステツプの前の間のいずれかの時点において、（3— 3— 1)タグ逆置換処理手段により、前記タグ置換処理手段により置換された符号から予め備えたタグ逆置換データべースに基づいて所定の書式設定タグに置換するタグ逆置換ステップを実行してもよい。

[0043] 請求項 23に記載のデータ表示方法は、表示状態設定手段により特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能とする構成を提供する。

[0044] ここで、上記の（1 4) (2-4) (3— 4)特異書式タグ書き込みステップにおいて、特異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タグを書き込むようにしてもよい。

[0045] 請求項 24に記載のデータ表示方法は、テキストデータが少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含む構成において、 (1 - 3) (2- 3) (3— 3)特異表示文字列抽出ステップが、科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースを用い、 (1- 1)科学記号抽出処理部により該科学記号データベースを参照して該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理過程、（I 2)文字列表示決定処理部により該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理過程を含む。

そして、 (1 -4) (2-4) (3—4)特異書式タグ書き込みステップにおいて、該表示態様に従った書式設定タグを書き込むことを特徴とする。

[0046] 請求項 25に記載のデータ表示方法は、少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ)を含むテキストデータを表示するデータ表示装置におけるデータ表示方法であって、

(4 1)入力処理部がテキストデータを入力する入力ステップ、

(4- 2)次 (a)な、し (b)の各処理過程を含む科学記号文字列抽出ステップ：

(II l) (a)科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースを参照し、科学記号抽出処理部が該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理過程、

(II 2Kb)該発現条件と照合して文字列表示決定処理部が該科学記号候補文字列の表示態様を決定する文字列表示決定処理過程：

(4 3)表示部が決定された表示態様の科学記号候補文字列を含むテキストデータを表示する表示ステップ

の各ステップを含むことを特徴とする。

[0047] 請求項 26に記載のデータ表示方法は、前記 (I 2) (II 2)文字列表示決定処理過程において、テキストデータの基本文字色を予め設定すると共に、該科学記号候補文字列の表示色を該テキストデータの表示に用いる基本文字色力変化させる処理を行うことを特徴とする。

[0048] 請求項 27に記載のデータ表示方法は、（I 2) (II— 2)文字列表示決定処理過程において、科学記号確度算出部が、科学記号候補文字列が科学記号である確度を算出する科学記号確度算出処理過程を行った後に、該算出結果に基づいて確度が閾値よりも高い科学記号候補文字列については基本文字色と色相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号候補文字列については基本文字色と彩度又は明度が異なる表示色を設定する。

[0049] 請求項 28に記載のデータ表示方法は、形態素解析処理部が前記テキストデータを形態素解析する形態素解析処理過程を (I 1) (II- 1)科学記号抽出処理過程の前に実行し、科学記号確度算出処理過程において、該科学記号候補文字列の前後所定個数の形態素の少なくとも文字列情報又は文法情報の!、ずれかを用い、前記科学記号データベースに備えた少なくとも文字列情報又は文法情報のいずれかを参照して確度を算出することを特徴とする。

[0050] 請求項 29に記載のデータ表示方法は、（I 1) (II 1)科学記号確度算出処理過程において、科学記号候補文字列の前後に同一又は異なる科学記号候補文字列が連続して出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処理を含む。

[0051] 請求項 30に記載のデータ表示方法は、科学記号抽出処理過程において、予め定めた科学記号を構成する特定表現を抽出し、科学記号確度算出処理過程において、該特定表現が前後所定個数の形態素内、又は同一文、又は同一テキストデータ中に出現した場合に、当該科学記号候補文字列の確度を所定値だけ高める処理を含む。

[0052] 請求項 31に記載のデータ表示方法は、前記特定表現を、特定表現データベースに格納する構成において、着目している科学記号候補文字列と共に、テキストデータの同一文又は所定個数の形態素内に特定表現候補が出現する回数 N1を計数する一方、該特定表現候補がその他の文において単独に出現する回数 N2を計数し、 N 1/N2 (N2≠0)又は NlZ (Nl +N2) (N2が 0のときも含む）の少なくとも!/、ずれかの値が閾値以上の場合に、該特定表現データベースに格納する処理を含む。

[0053] 請求項 32に記載のデータ表示方法がテキストの差分を検出して表示する構成において、 (1 -3) (2-3) (3— 3)特異表示文字列抽出ステップにおいて、テキストデータの差分として出力する対象の単位である抽出単位とテキストデータの差分を検出するために比較する領域の単位である検出領域とにつ、て、予め定義されて、るか、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設定情報に基づヽて該抽出 ·検出領域設定部で設定されるか、記憶部と抽出 ·検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域設定部で設定されるか、のいずれか〖こより決まる該抽出単位及び該検出領域を用いる。

[0054] そして、抽出部が、入力されたテキストデータの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出して格納部に格納し、現在の該検出領域にお、て、該格納部に格納されて、なヽ該抽出単位に相当するものを特異表示文字列として抽出する抽出単位抽出処理を行い、該抽出単位抽出処理を該検出領域ごとに繰り返した後、（1 4) (2-4) (3— 4)特異書式タグ書き込みステップにおいて、該表示態様に従った書式設定タグを書き込む。

[0055] 請求項 33に記載のデータ表示方法がキーワードとなる語句を特異書式で表示する構成において、 (1 -3) (2-3) (3— 3)特異表示文字列抽出ステップにおいて、予め定義されているカゝ、抽出単位設定部を備えて該抽出単位設定部で設定されるカゝ、のいずれかにより決まる抽出の単位を用い、抽出表現設定部が、特異表示する抽出表現を設定する抽出表現設定処理、抽出領域設定部が、抽出領域の場所を設定する抽出領域設定処理、の各処理を同時又は、ずれかの順で処理する。

その後、抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを格納部に格納し、前記テキストデータ中に現在の該抽出の単位に相当するものと同じものが、該格納部に格納されている場合は、それを特異表示文字列として抽出した後、（1 4) (2-4) (3— 4)特異書式タグ書き込みステップにお、て、該表示態様に従った書式設定タグを書き込むことを特徴とする。発明の効果 [0056] 本発明は、上記構成を備えることにより次のような効果を奏する。

すなわち、請求項 1又は 20に記載の発明によれば、書式設定タグを抽出し、そのタグをタグ記憶手段に待避することにより、書式設定タグを含まないテキストデータに対して特異表示する文字列の抽出処理を行うことができる。書式設定タグは、通常の文字列とは異なり規則的に反復して現れるだけでなく記号を含むことが多いため、上記の文字列の抽出処理で誤って抽出されてしまう場合がある。本発明によれば、このような誤処理を防止することができると共に、テキストデータのデータ量が削減されるため、高速な処理に寄与する。

[0057] 請求項 2又は 21に記載の発明によれば、上記の効果の他、所定の置換文字で書式設定タグが配置された位置にポインタとなる文字を配置することができるので、位置を記憶することなく適正な順番で書式設定タグの待避と復帰の処理を行うことができる。

[0058] 請求項 3に記載の発明によれば、所定の置換文字として、番号やアルファベットなどの序列のある文字 (複数の文字でもよい)で置換することにより、置換文字が通信の障害等により欠落した場合でも、再度置換する際に該欠落を検出することが可能であり、書式設定が正しく行えない事態を当該書式設定タグだけに止めることができる。そして、他の書式設定を正常に行うことができる。

[0059] 請求項 4又は 22に記載の発明によれば、書式設定タグと所定の符号を予め対応づけたタグ置換データベースに従って置換することにより、置換後のテキストデータべ一スが小容量になる上に、文字列の抽出処理のエラーを抑制し、かつ待避する先がなくともよい。従って処理機構の簡素化を図ることができる。

[0060] 請求項 5に記載の発明によれば、タグ逆置換データベースを備えることで、テキストデータの表示に不可欠な書式設定タグでも置換処理し、文字列抽出の処理精度向上を図ることができる。そして、逆置換により適正な書式で表示を行うことができる。

[0061] 請求項 6及び 7、 23に記載の発明によれば、データ表示装置に特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手段を備えるので閲覧中に簡便に表示状態を切り替えることができる。特に、請求項 7に記載の発明では例えばウェブブラウザのツールバー上に当該ボタンを配置することができる。

[0062] 請求項 8に記載の発明によれば、前記特異書式タグ書き込み処理手段にお!、て、特異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タグを書き込むことを特徴とする。

[0063] 請求項 9、 24に記載の発明によれば、テキストデータが科学論文などであって、特に科学記号を抽出する際に本発明の技術を用いることができる。科学記号の場合には特に特異表示のために抽出する文字列と、書式設定タグが類似している場合が多ぐ本発明により好適な抽出処理に寄与する。

[0064] 請求項 10、 25に記載の発明によれば、高精度に科学記号の表示態様を変化させ、読者が科学記号を識別しやすい表示装置及び方法を提供することができる。とくにラテン文字により記述されたテキスト中であっても科学記号を適切に表示できるため必要な情報を容易に読み取ることができるようになる。

また、科学記号であるか否か、確度により表示態様を区別することで確度の低い科学記号候補は読者が気にならない程度の表示を行う一方、確度の高い科学記号候補は明確に色分けすることができる。本方式を採用することで、過剰な言語処理技術を用いて処理速度の遅延やデータベースの増大を引き起こすことなく簡便な装置に寄与する。

[0065] 請求項 11ないし 16、 26ないし 31に記載の発明によれば、上記請求項 9、 24の構成と、請求項 10、 25の構成とにおいて、それぞれより正確な科学記号の抽出に寄与する。

[0066] 請求項 17に記載の発明によれば、テキストデータの差分を検出'表示する際に本発明の技術を用いることができる。この場合にも、書式設定タグを取り除いて差分を検出するため、タグが差分として抽出されることがなくなり、好適な抽出処理に寄与する。

[0067] 請求項 18、 19に記載の発明によれば、キーワードとなる語句を特異書式で表示する際に本発明の技術を用いることができる。キーワードはタイトル部分など力も抽出するが、その際に書式設定タグを伴って抽出してしまうことを防止することができる。発明を実施するための最良の形態 [0068] 以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。

実施例 1

[0069] 図 1は本発明の第 1の実施例に係るデータ表示装置 (1) (以下、本装置と呼ぶ)の全体構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理やテキスト処理などを司る CPU (10)によって本発明の各ステツプを実行処理する。 CPU (10)は周知のようにメモリ（図示しない）と協働して動作し、キーボードやマウス（11)などの入力手段の他、出力結果を表示するモニタ（12) 、ハードディスク等の外部記憶装置（13)などを備えて!/、る。

また、テキストデータの取得などのためにデータの取得入力手段としてインターネット等のネットワークと接続するネットワークアダプタ（14)を設けてもよい。

[0070] そして、 CPU (10)にはタグ抽出処理手段であるタグ抽出処理部（100)と、タグ待避処理手段であるタグ待避処理部（101)と、特異表示文字列抽出処理手段である特異表示文字列抽出処理部（102)と、特異書式タグ書き込み処理手段である特異書式タグ書き込み処理部（103)と、タグ復帰処理手段であるタグ復帰処理部（104) と、表示処理手段である表示処理部（105)とを設けている。

[0071] 以下、本発明では HTML形式のテキストデータを入力することを例として説述する。図 2に処理の流れ図を示す。タグ付テキスト（2)はネットワークアダプタ（14)により外部のサーバ装置等から取得した HTMLデータであり、周知のように、 HTML書式に従ったさまざまなタグが含まれている。このようなタグにはリンク先を示すためのタグや、表示書式を定めるためのタグが含まれているが、本発明ではすべて書式設定タグと定義し、以下では略してタグと呼ぶ。

[0072] まず、タグ抽出処理部（100)において、タグ付テキスト（2)力タグの部分を抽出する。（ステップ S 1— 1)

テキストデータ中からタグ情報を抽出する方法は公知であり、 HTML形式の場合には、タグはく Hl〉のように〈と〉によって囲まれて記載される。従って、この〈と〉をデータ前方力も順に検索していくことでタグの抽出は行うことができる。

[0073] なお、ここで抽出するタグを限定して一部のタグだけを抽出するようにしてもよい。この場合、例えば記憶装置（13)に抽出すべきタグ又は抽出しないタグのデータべ一スを備え、該データベースを参照しながらタグ抽出処理部（100)がー致するタグを抽出するようにする。

[0074] このとき、データベースには後述する特異表示文字列抽出処理部（102)で抽出する文字列に合わせて、特に混同を生じやすいタグだけ抽出するようにしてもよい。例えば、科学記号について特異表示文字列として抽出する構成であれば、く Hl〉〜く H6 〉やく B〉やく I〉のように英字 1文字や数字との組合せ力なるタグを登録してそのようなタグにつヽて抽出することもできる。

[0075] そして、抽出されたタグをタグ待避処理部（102)が記憶装置（13)に待避処理する。（ステップ S 1— 2)

すなわち、タグと、そのタグが埋め込まれていたタグ付テキスト上の位置を記憶装置内のタグ待避テーブルに順次格納し、タグ自体はテキストデータから除去する。

[0076] 図 3は入力したタグ付テキスト（30)からタグが除去される様子を示している。このとき、タグ待避テーブルには表 1のようなデータが格納される。表 1は最初の 3つのタグのみを示して、る。位置としては全てのタグを除去する前の先頭文字力の文字数をカウントしている。

[0077] [表 1]

[0078] 次に、特異表示文字列抽出処理部（102)における処理 (S1— 3)を行う。該処理は、本発明の特徴であり、ウェブブラウザ上で文字列を強調して表示するために当該文字列を表示する。この処理部としては後述する科学記号の抽出や、差分抽出、キーワード抽出などがあるが、ここでは、最も簡単な例として記憶装置に格納された文字列を抽出する例で説明する。

[0079] 記憶装置（13)に、例えば、くつかの文字列として "H"、〃He"、 "Li"などの特異表示をする特異表示文字列を格納しておき、当該文字列に一致する文字列にっ、てタグを除去した後のテキストデータ力抽出処理する。特異表示とは、文字の色や大きさなど表示態様が他のテキストの表示態様と特異なものであり、ユーザがウェブブラウザで閲覧したときに他と区別して読むことができる。フォントの変更、太字、斜体、下線、網掛け、囲い文字、傍点、マーカー表示などの表示態様でもよい。

[0080] そして、抽出された文字列の前後に特異表示するための書式設定タグを書き込む

。それには特異書式タグ書き込み処理部（103)の作用により特異書式タグ書き込み処理 (S1— 4)が実行される。

具体的にはく font color="blue"〉とく/ font〉などの書式設定タグを当該文字列の前後に追カ卩的に書き込む。

このような特異表示文字列の抽出（S 1— 3)と特異書式タグ書き込み (S 1— 4)により特異表示文字列を強調して表示させるタグを書き込むことができる。

[0081] 特異書式タグが書き込まれたテキストデータに対して、タグ復帰処理部（104)がタグ待避処理 (S 1— 2)で待避したタグを、テキストデータ中に戻す処理を行う（ステップ

Sl— 5)。

該処理部（104)は記憶手段のタグ待避テーブル力順に待避したタグを読み出し、格納された位置に従ってタグを書き込む。すでに特異書式タグが埋め込まれている力位置がずれないように特異書式タグは文字数に含めずに位置をカウントする。

[0082] この処理を回避するために、特異表示文字列の抽出（S1— 3)後、抽出した文字列を一次的にメモリに格納してタグの復帰処理 (S 1— 5)を行、、その後特異書式タグの書き込み処理（S1— 4)を行ってもょ、。

[0083] 最後に表示処理部（105)によりモニタ（12)上でブラウザ表示を行う。（ステップ S1

6)

図 4はこのときのブラウザ画面を示して、る。インターネット等の情報を表示するゥェブブラウザは公知であり、一般的にはウィンドウ（40)の 1つとして表示される。ウィンドゥ（40)の最上段にはデータのタイトル (41)、 2段目にはウィンドウ又は OS上の処理を指定するコマンド列 (42)力 3段目には表示ページを戻したり進めたりするボタンや、読み込みの中止ボタン (43)等が、 4段目には閲覧しているサーバとファイルの格納ディレクトリが示されている。 [0084] 本発明では、これら一般的なブラウザの表示画面に加えて、特異表示を行うかどうかを切り替え可能なボタンをブラウザのウィンドウ内に配置することを提案する。すなわち、図 4に示されるように、テキストデータの表示領域 (45)の直上方にツールバー領域 (46)を設け、該ツールバーにボタン (47)を配置する。

ユーザがブラウザで閲覧する際に、通常はネットワークアダプタ（14)から取得したタグ付テキスト（2)を表示処理部（105)が表示領域 (45)に直接表示するが、該ボタン (47)を押すと上記ステップ S1— 1〜S1— 6の処理を実行し、特異表示を行う状態に切り替えする。

[0085] 特異表示は特定のコンテンツの場合に有効に作用するものであり、通常の閲覧時には特異表示を行うとかえつて読みにくい場合があるから、このようにボタン (47)により簡便に表示状態を切り替えると好適である。

特に、ツールバーのように表示領域に近接（隣接する欄及び表示領域から一定の距離内にある欄）した領域に配置することで上下 ·左右のスクロールバー (48)からも近く直感的な操作が可能である。

実施例 2

[0086] 本発明の第 2の実施形態を図 5及び図 6に示す。本実施例では、実施例 1においてタグを除去して記憶していたのに対し、所定の置換文字で置換することを特徴とする

[0087] 図 5は本発明の第 2の実施例に係るデータ表示装置 (5) (以下、本装置と呼ぶ)の全体構成図である。第 1の実施例と同一の構成要素については同一の符号で示している。これらの説明は省略する。

CPU (10)にはタグ抽出処理部（100)と、タグ待避処理手段であるタグ待避処理部（101)と、特異表示文字列抽出処理部（102)と、特異書式タグ書き込み処理部（ 103)と、表示処理部（105)の他、タグ序列置換処理部（110)とタグ序列逆置換処理部（111)とを設けている。

[0088] 図 6は本実施例の流れ図であり、まずタグ付テキスト（2)をネットワークアダプタ（14 )等力も入力してタグ抽出処理部（100)でタグを抽出（S2— 1)する。

[0089] そして、タグ序列置換処理部（110)力該タグを除去すると共に、所定の置換文字で置換処理 (S2— 2)する。置換文字としては、通常のテキストで用いられない特殊な文字 ·符号が適当であり、例えば使用されて、な、表示上は空白の文字コードや、特徴的な文字の組み合わせ、「(!%%!)」やギリシア文字とロシア文字の組み合わせ「 ζ Β」などを用いてもよい。

[0090] 置換処理（S2— 2)の詳細は、例えば図 3の例ではく TITLE〉から順に〈/TITLE〉、 <B ODY

BGCOし OR="FFFFFF"〉をそれぞれ (!％%!)【こ置換して!/、<。

一方、抽出されたタグは表 2に示すタグ序列テーブルとして記憶装置（13)に格納する。

[0091] [表 2]

[0092] 本処理 (S2— 2)により、テキストデータ中には (!％%!)等の文字が書き込まれ、元のタグは待避した状態になる。このようなテキストデータに対して、特異表示文字列抽出処理部（102)により特異表示する文字を抽出する処理 (S2— 3)、特異書式タグ書き込み処理部（103)により特異書式タグを書き込む処理 (S2— 4)を行う。これらは前記した通りである。

[0093] そして、特異書式タグが書き込まれたテキストに対して、タグ序列逆置換処理部（11

1)によりタグを復帰させる処理 (S2— 5)を行う。

該処理 (S2— 5)は、（!%%!)の文字列を検出し、置換文字の最初から順にタグ序列テ一ブルに格納されたタグの序列に従って再度逆置換を行う。本処理によってテキストデータに対してタグが復帰する。

[0094] 逆置換 (S2— 5)したタグ付テキストを表示処理部（105)の作用によってブラウザ表示（S2— 6)する。

本実施例のような処理によると、タグの位置をカウントし、記憶する必要がないため、タグの置換処理及び逆置換処理が簡便かつ迅速に行うことができる。

[0095] ここで、第 2実施例の別実施例として、所定の置換文字にさらに序列を付すこともできる。すなわち、上記の置換文字を序列のある文字とする。ここで序列のある文字列とは数字や英語のアルファベットなど、予め序列が定められたものである。視認可能な文字の他、空白（NULL)が割り当てられた文字コードでもよぐデータ上、文字コードが割り当てられていれば視認不可能なものであってもよい。すなわち、空白でも文字コードが順に増加 (又は減少）して、けば序列が識別できるので本発明では利用可能である。

[0096] 別実施例における置換処理（S2— 2)の詳細は、例えば図 3の例ではく TITLE〉を「# #1##Jに、〈/TITLE〉を「##2##」に、く BODY

BGCOLOR="FFFFFF"〉を Γ##3##]のように順に置換して!/、く。

一方、抽出されたタグは上記の表 2に示すタグ序列テーブルとして記憶装置（13) に格納する。

[0097] 本処理（S2— 2)により、テキストデータ中には ##1##等の文字が書き込まれ、元のタグは待避した状態になる。特異表示文字列抽出処理部（102)以下の処理は上記と同一である。

[0098] タグを復帰させる処理（S2— 5)は、 ##η## (ηは番号）の文字列を検出し、番号の序列に従って、タグ序列テーブルに格納されたタグに再度逆置換を行う。本処理によつてテキストデータに対してタグが復帰する。

[0099] 本構成によれば、置換文字自体に序列の情報を含むため単なるポインタとしての機能だけでなぐタグとの対応関係を確定させる機能をもたせることができる。例えば、通信の障害 (ネットワーク障害や、文字エンコードのエラーなど）によって一部の置換文字が欠落した場合でも、それ以外の置換文字は適切に元の書式設定タグに逆置換することができる。

実施例 3

[0100] 本発明の第 3の実施形態を図 7及び図 8に示す。本実施例では、タグ置換データべースを参照して、タグの種類に応じてタグを所定の符号に変換することを特徴とする。

[0101] 図 6は本発明の第 3の実施例に係るデータ表示装置 (7) (以下、本装置と呼ぶ)の全体構成図である。第 1の実施例と同一の構成要素については同一の符号で示している。これらの説明は省略する。 CPU (10)にはタグ抽出処理部（100)と、タグ待避処理手段であるタグ待避処理部（101)と、特異表示文字列抽出処理部（102)と、特異書式タグ書き込み処理部（ 103)と、表示処理部（105)の他、タグ置換処理部（120)とタグ逆置換処理部（121 )とを設けている。

[0102] 図 8は本実施例の流れ図であり、まずタグ付テキスト（2)をネットワークアダプタ（14 )等力も入力してタグ抽出処理部（100)でタグを抽出（S3— 1)する。

[0103] そして、タグ序列置換処理部（110) 1S 該タグを除去すると共に、表 3に示すようなタグ置換データベースを参照して所定の符号に置換処理 (S3— 2)する。

[0104] [表 3]

[0105] ここで、置換文字列として (！ _などの特徴的な符号で囲まれた文字列を用いることにより、タグとその他の記号とを明確に識別することができる。このうち、タグにカラーコードゃリンク先のアドレスなど、固有の情報を含む場合には、表 3の BODY

BGCOLORの項目で示したように置換文字列中に固有情報をコピーするようにしてもよい。

[0106] 置換されたテキストデータに対して、特異表示文字列抽出処理部（102)により特異表示する文字を抽出する処理 (S3— 3)を行う。このとき、（しと _！)で囲まれた文字列に対しては該処理 (S3— 3)を行わな!/、ようにすることで、誤ってタグを抽出する恐れがなぐ高精度な処理に寄与する。

特異書式タグ書き込み処理部（ 103)により特異書式タグを書き込む処理 (S 3— 4) を行う。これらは前記した通りである。

[0107] そして、特異書式タグが書き込まれたテキストに対して、タグ逆置換処理部（121) によりタグを復帰させる処理 (S3— 3— 1)を行う。

該処理 (S3— 3— 1)は、表 3のようなテーブルを参照して (！ _と_！)とで囲まれた置換文字列を、元のタグに逆置換する処理である。

本処理によってテキストデータに対してタグが復帰する。

[0108] 別実施例として、（しと _！)からなる符号内に、タグの序列 nを加えて例えば (し T_n_!) のようにすると共に、カラーコードなどの固有の情報は別に記憶装置（13)に格納することもできる。そして、タグ逆置換処理部（121)では序列 nに従って、固有情報を記憶装置（13)力も読み出し、タグを復帰させることもできる。

[0109] ところで、置換に用いるタグ置換データベースと、逆置換に用いるタグ逆置換データベースは必ずしも可逆的な関係である必要はなぐタグ置換データベースでは略同一な意味を有する複数の種類のタグを、同一の符号に変換し、タグ逆置換データべースで、ずれか 1種のタグに統一して変換するようにしてもょ、。

[0110] また、本発明では必ずしも逆置換するステップ (S3— 3— 1)は必須ではなぐタグ置換データベースとして、例えば表 4のようなテーブルを格納し、不要なタグや特に誤処理する可能性の高、タグのみを除去 (NULLに変換)するようにしてもよ、。

[0111] [表 4]

[0112] この場合、逆置換を行わないので一部のタグが失われるが、特異書式表示を行うため、必要な文字列についてはより効果的に表示することが可能である。本発明では、ユーザに特定の文字列を強調して示すことが目的であるから、本構成も有効に作用しうる。

[0113] 最後に、特異書式タグを書き込まれたタグ付テキストを表示処理部（105)の作用によってブラウザ表示（S3— 5)する。

本発明は、以上に示したとおり、特異表示文字列を抽出する際に、テキストデータ中のタグを実施例 1から 3の方法で置換するものであり、好適に特異表示することを目的としている。

以下、特異表示文字列の抽出処理について、詳細な例を示す。

[0114] (科学記号を抽出する実施例）

まず、特異表示文字列抽出処理部（102)において、科学記号を抽出する処理の例を説述する。本実施例における特異表示文字列抽出処理部（102)の構成図を図 9に示す。本図は上記実施例における CPU (10)内の特異表示文字列抽出処理部（ 102)の構成をさらに詳細に示す図であり、 CPUにおける処理として科学記号抽出処理部（120)と文字列表示決定処理部（121)を設ける。また、記憶装置（13)には科学記号と発現条件を格納したデータベース（122)を備えて!/ヽる。

[0115] 図 10に示すように、本処理部（102)に対してタグを待避《除去したタグ待避後テキスト（ 130)を入力（131)する。最初に入力するタグ付テキスト（2)としては英語等のラテン文字を用いた科学論文の場合に本発明は最も有効に作用する。

そして、該タグ待避後テキスト（130)から化学記号や物理記号、特に元素記号、電子配置、分光記号などの自然科学で用いる記号及び化学式、数式などの式を抽出表示する。本発明ではこれらを総称して科学記号と呼ぶ。

[0116] 入力されたテキストデータ力科学記号抽出処理部（120)において予め科学記号とその発現条件を格納したデータベース（122)を参照して科学記号の抽出処理（ 13

2)を行う。

図 11に示すような元素記号が含まれた論文を入力すると、文頭から各文字列を順に読み出し、データベース（122)に含まれる科学記号情報と照合する。合致する文字列があるとその文字列を抽出し、どのような表示態様で表示をおこなうか決する文字列表示決定処理部（121)にて処理を行う。

[0117] ここでデータベース（122)の内容例を図 12に示す。データベースには各元素記号等（140)に対応して、それが単体でテキスト上に発現したときの科学記号である確度 (141)が定義されている。例えば水素 (H)に対しては 0. 1、ヘリウム (He)に対しては、 0. 2、リチウム（Li)に対しては 0. 5と! /、うように定義して!/ヽる。

[0118] このように各元素に対して確度が異なるのは、元素記号が英単語と一致することがあり、その一致の可能性の大小によって定義している力もである。すなわち、 Heの場合、英単語の彼を表す Heと一致しているため、文頭に単独で発現した場合には「He (彼）」か「He (ヘリウム）」かの判断が難しい。そのため確度は 0. 1となる。一方、ネオン 6」の場合、英語で文頭に Neが書かれる場合は極めて希であるから、確度は 0. 7として!/、る。

[0119] このように確度は対象とする言語によっても異なるため、テキストの言語に応じてそれぞれ定義されることが望ましい。例えば日本語論文の中で Heが発現するのは通常は多くな、ため、より高、確度を定義してもよ、と考えられる。 [0120] 本発明の構成では、以上の確度を取得することにより、文字列表示決定処理部（1

21)で確度に応じた文字色を決定し、特異書式タグ書き込み処理部（103)で当該文字色に応じたタグを書き込む。

各確度に対する表示色は予め特異表示文字列抽出処理部（102)上に設定する。文字色としては次のような実施形態が挙げられる。

[0121] すなわち、テキストの全文又は一領域が黒色である場合、確度が閾値以上の場合にそれを赤色で表示する一方、閾値よりも低、場合には色を変化させな、ことができる。この場合、例えば閾値を 0. 2とすると Hは黒色のまま、 Heは赤色で表示されることとなる。データベース（122)の通り、元素名を表す英語名称 (hydrogenなど）は確度がいずれも 1であるから、すべて赤色で表示される。

[0122] この方法は科学記号が特有な場合には簡便であるが、元素記号のケースでは色を変化させられないものや、誤って変化させてしまうものが多く見られる。そのため元素記号などの場合には次のような実施形態をとることが望ましい。

すなわち、確度に応じて表示色を変化させる構成である。この場合に閾値を 2個以上備えておき、例えば閾値 0. 6以上の場合には赤色、 0. 1以上 0. 6未満の場合は灰色で表示すると定義しておく。

[0123] この場合、 Neや元素名称は赤色、それ以外の元素については灰色で表示される。

ここで赤色とはテキストを表示する基本文字色（黒色）と色相が異なる色の例であり、色相が異なることで読者は完全に当該文字列を識別することができる。黒色の基本文字色に対してピンク色、黄色なども好適である。

一方、灰色とは基本文字色と明度が異なる色の例である。基本文字色と明度が異なるだけの場合、読者は強い違和感を覚えることがない。特に意識しない限り閲読を妨害しないので快適に閲読することができる。逆に意識をして読むと、明らかに基本文字色と異なるので明確に視認することができる。

[0124] このように本方法によれば、確実に科学記号と判定できるものについては読者に強く提示する一方、不確実なものについては注意を促す程度の表示が可能である。明度と共に彩度を変化させる構成でもよ、。

なお、色相、明度、彩度は特異表示文字列抽出処理部（102)で周知の技術により変化させ、モニタ（12)力表示することが可能である。

[0125] ここで本発明の特徴として確度を算出する時に発現条件に基づいて行うことが挙げられる。以下にこの点を説述する。

本発明における発現条件とは確度を算出する科学記号がテキストデータ中でどのような条件下で発現して、るかを定義したものである。例えば上述した例では各元素が「文頭に単独で発現した」ことを条件として、る。すなわち文字列表示決定処理部（ 121)ではピリオド、読点、改行コードなどに基づいてその発現位置が文頭であるか否かを判定する。

[0126] 発現条件を用いた確度 Yの算出は文字列表示決定処理部（121)において次式に従って行う。

[0127] (数 1) Y=p(str)+∑a (str) X x

上記において p(str)は科学記号候補文字列 strの基礎となる確度（141)、 a(str)は科学記号候補文字列 strに対するデータベース（122)の発現条件 iで定められた確度であり、 Xは発現条件 iに該当するときに 1、該当しないときに 0をとる。

[0128] 従って、 strが「H」であるとき、後述するように文頭（142)になく（X =1)、連接（143)

cap

する文字列がなく（X =0)、イオン表記（34)でない (X =0)場合には、 0.1+0.1*1+0.2

cohere ion

*0+1*0=0.2が求める確度となる。

なお、上記の X x x

cap、x

cohere、 ionはそれぞれ数 1における ιの発現条件として「文頭にない」「連接する文字列がある」「イオン表記である」に対応するパラメータである。

[0129] タグ待避後テキスト（130)から科学記号抽出処理部（120)で抽出された科学記号候補文字列がピリオド等の直後に配置される場合には文頭に発現したものと判定できるので、上記データベース（122)の文頭位置に対応する各確度を取得する。

[0130] しかし、同時にデータベース（122)には当該文字列が文頭でない場合の確度を格納している。これに係る項目が図 12の capで表示された欄（142)である。データべ一ス（122)の 2行目は、文頭でない位置に「He」が出現した時にその確度は 1を加算することを意味している。従って、この場合確度は 1. 2となる。実際には本実施例では確度が 1を最大と規定しており、 1を超えた確度は全て 1として処理する。

[0131] なお、本発明の実施形態としてデータベース（122)中に大文字を含む文字列が掲載されて!ヽる場合には大文字と小文字を掲載されて！ヽる通りに区別し、小文字だけで表記された文字列については全て小文字の他、全て大文字、それらの混在、いずれも抽出対象としている。

英語の場合には文頭以外に先頭が大文字の文字列が配置されていれば固有名詞等である可能性が高ぐこのようにすることで 1文字目を一般的に大文字で表記する元素記号等を高精度に表示することができる。

[0132] 本発明の発現条件としては文頭力否かだけでなぐデータベース（122)上に掲載された他の文字と分かち書きを行わずに連接して表記されている場合の確度を定義している。本項目は欄（143)の cohereに続く数値でありこれに基づいて確度を算出する。例えばデータベース（122)の 8行目にある Oの場合、単独で文頭にある場合には確度は 0. 1である力仮に Hと連接して OHと記載されていた場合、確度は 0. 2 が加算されて 0. 3となる。

以上の構成により OHのように連接した場合には単体の Oよりも確度が高く評価されるため、正確な表示を行うことができるようになる。

[0133] なお、 OHのように 2個の連接でなぐ 3個以上の科学記号候補文字列が連接した場合にも確度はそれぞれについて 0. 2を上限として加算するようにしている。これは、略語など大文字が連続した場合でも必ずしも科学記号とは言えな、場合が多！ヽためであり、徒に確度が高まるのを防ぐようにして、る。

[0134] これと関連して、科学記号と判定されやすい特定の文字列について確度を下げるデータベースを外部記憶装置（13)に備えてもよい。科学記号除外文字列データべース（図示しない）として設け、科学記号抽出処理（132)において該データベースと一致した場合には抽出しないようにすることができる。すなわち、 Convergent Close- Couplingや Small Office Home Officeを示す CCC、 SOHO等の文字列の場合、これらを構成する文字列は、ずれも科学記号であって、連接することから確度が上昇しやすい。しかし、抽出処理の段階で科学記号除外文字列データベースに一致した文字列については抽出結果から取り除く処理を行う。

もちろん、科学記号除外文字列データベースを用いずに本発明は構成することができる。 [0135] あるいは、確度算出処理（133)において、該科学記号除外文字列データベースと一致する文字列につ、ては確度を 0になるように算出処理をおこなってもよ!/、。この場合、科学記号除外文字列データベースを別に設けず、上記科学記号及び発現条件を格納したデータベース（122)に例えば確度 10として登録してぉ、てもよ、。計算結果で負となる場合に確度 0として処理することで、これらの文字列は!、ずれも確度 0となり、科学記号候補から除外される。

[0136] 上記構成に加えて、連接する各文字列に対して、連接文字列中で最も確度が高くなる文字列と等し、確度を設定することができる。

上記の OHを例にとると、 Oの確度は文頭であって Hと連接するため確度は 0. 3、 H の確度は文頭でなく Oと連接することから 0. 8となる。このような場合、 Oの確度は連接文字列中で最も高い 0. 8と設定する。

本構成により、一連の連接する文字列間で確度に整合性がとれるだけでなぐ文字色を確度によって変化させた場合に視認しゃすい表示に寄与する。

[0137] 科学記号候補文字列の並びについては他にも次のような処理が可能である。

まず、分子構造を表す場合などハイフンを用いて元素を接続することがある。本実施例では上記連接の場合と同様にハイフンで接続された文字列も処理する。このように科学記号を接続するのに用いられる文字記号を予め記憶させておき、該文字記号で接続されてヽる場合には連接してヽるのと同様の処理を行わせてもよ、。

[0138] あるいは上記のように連接した場合に連接文字列中で最も高、確度を各文字列に設定するのではなぐ所定の確度以上の文字列と連接する場合に、各確度を上昇させるように構成してもよい。すなわち、データベース（122)に例えば highという項目を設けて、閾値 0. 6以上の科学記号候補文字列と連接した場合に、確度 + 0. 7又は 0 . 8を定義する。この場合、上記 OHの例で言えば、 Hの確度が 0. 8で閾値以上であるため、 Oの確度も例えば 0. 7加算されて 1となる。

[0139] さらに、連接の概念をより広めて構成することもできる。すなわち、本発明に言う連続とは、科学記号候補文字列が連接した場合、ハイフンで接続された場合に加えて、当該テキストデータの言語における接続詞等を用いて接続した場合を含めても良い。英語であれば、複数の名詞を並列する場合に、 A,B and Cのように、コンマと文字列 andで接続される。

このとき、抽出された科学記号候補文字列間にコンマ又は andや orなどを含む場合に、連接しているのと同様 (この場合を並列と呼ぶ。）に処理することができる。

[0140] 並列の場合にも、全ての並列する科学記号候補文字列の確度を並列文字列中で最大確度に合わせてもよいし、データベース（122)に定めた値を加算するようにしてもよい。後者の場合には、連接の場合とは異なる数値を定めることもできる。

以上のように連接や並列の場合に、他の科学記号候補文字列の確度を互いに影響させることで高精度な表示を行うことができる。

[0141] 発現条件は対象とする科学記号に合わせて適宜定義することができる。例えば元素記号の場合にはイオンを示すプラス ·マイナス記号が付されることが多ぐこれらが付された場合には極めて高い確度で科学記号と判定できる。

具体的にはタグ待避後テキスト（130)中に、タグなどによって書式指定がされ、 Inく s up〉+〈/sup〉のように、上添字の +によるイオン表記となる科学記号を検出する。同様に (n+)や (n— ) (nは任意)などの所定の書式の場合に、図 12における欄（144)に従って確度を 1とする。

[0142] 同様に例えば分光記号における SPDFなどの文字列や、原子軌道を示す s軌道、 p 軌道の電子配置、遺伝子の塩基配列における A、 G、 T、 C、 Uなどの文字列を他の文字との組み合わせで確度を算出するようにしてもょ、。

これらの科学記号は文字の記載順序など確立されたルールに従って発現するため

、本発明のように発現条件を付与可能なデータベース（122)を用いることで効果的に抽出することができる。

[0143] イオン表記や、他の文字との組み合わせで確度が高くなつた科学記号について、同一のテキストデータ中で単独で出現した場合にもその確度を上げる処理をおこなつてもよい。

すなわち、一度全部のテキストデータにつ、て確度算出（ 133)を行ってイオン表記等による確度の確定を行い、同ステップ（133)内において再び抽出された各科学記号候補文字列につ、て確度の再定義処理を行う。

本処理では、イオン表記など所定の発現条件に合致した文字列について、単独で現れているものを抽出し、その確度に所定値、例えば +0. 7を加算する。あるいは、上記イオン表記等で定義された確度と同一値を与えてもよい。

本処理によれば、イオン表記や他の文字との組み合わせの出現によって単体でも現れる蓋然性の高、文字列にっ、て高、確度を定義することができる。

[0144] 本発明の別実施例として、図 13に示すような形態素解析処理部（150)を備えた特異表示文字列抽出処理部（102)を提供することができる。

形態素解析については公知の技術であり、日本語の形態素解析技術として例えば茶筌 (非特許文献 2に開示されている)を用いることができる。

非特干文献 2： chasen.aist-nara.ac.jp

[0145] また、分かち書きをする英語などのラテン文字を用いるテキストデータでは形態素への分割は容易であるが HMMなどの統計的手法により同様に解析処理が行える。形態素解析を用いて品詞を見分けることも行われて、る。

[0146] 形態素解析処理は図 14に示すように前述の実施例における科学記号抽出ステツプ（22)の前に行う。このとき周知のように外部記憶装置（13)に格納された形態素解析辞書（152)を用いながら解析する。上記実施例ではデータベース（122)に掲載された情報と照合することで科学記号を抽出（132)したが、本実施例では解析の結果得られた形態素と該データベース（122)の内容とを比較して一致するものを抽出（1

32)する。

[0147] 形態素解析をすると、形態素の区切りがより正確になるためデータベース（122)との照合も確実に行うことができる。さらに形態素解析で各形態素の品詞を取得することができる。これを利用し、データベース（122)に文字列と共に品詞情報を付与し、上記と同様にその場合の確度を定義しておくこともできる。

本構成によると、例えば Heが名詞であれば元素名である確度を高く定義する一方、代名詞であれば科学記号である可能性は極めて低!、ため確度を 0となるように「-10 」と定義することちできる。

以上のような別実施例によりさらに高精度なデータの表示装置を提供することが可能である。

[0148] さらに本発明では、ある科学記号は特定の文字列と共にテキストデータ中に現れるときに、科学記号である確度が高いことに着目して次のような処理を行うこともできる。すなわち、特定の文字列を手がかり表現とし、テキストデータ中の同一文あるいは前後所定の形態素数内にぉ、て科学記号と共起しやす!、文字列（手がかり表現)が抽出されるときに、対応する科学記号の確度を高める。本構成は、科学記号抽出処理部（120)において、科学記号を抽出すると共に、図 15に示すように手がかり表現テ一ブル ( 154)を参照して手がかり表現を抽出（ 153)する。

[0149] 手力かり表現テーブルには、例えば元素記号と共起しやすい表現である「-like ion

」などと、各元素記号との組み合わせを格納しておく。

そして、共起文字列「-like ion」が抽出された場合には、組み合わせとして定義されている各科学記号候補文字列の確度を確度算出（133)において上昇させる。上昇値は上記のようにデータベース（122)中に定義しておくか、手がかり表現テーブル（共起文字列テーブル） (154)中に共起した場合の確度の値を定義しておく。

[0150] 上記では手が力り表現テーブルを予め人手によって定義する力これを自動化して該テーブルを構成することもできる。本処理を図 16に示す。

本処理には一般的な例文として科学記号を含むテキストコ一パス（155)を用いる。該コーパスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定義されて!/ヽる。文字列が科学記号か否かも定義されて！ヽる。

なお、本発明では単語列の形態素、品詞などが定義されていないコーパスを用いても良ぐその場合には公知の形態素解析器（図示しない)や辞書データベースを用 V、てこれらを自動的に付与した後に、次の処理に進んでもょ、。

[0151] まず、テキストコ一パス（155)からデータベース（122)を参照して科学記号候補文字列を抽出（156)する。

そして、該テキストコ一ノス（155)中の当該科学記号候補文字列を含む同一文に共起する文字列（手が力り表現候補)を抽出する。テキストコ一パス（155)内の全文について手力かり表現候補が科学記号候補文字列と共起する回数 N1をカウント（1 57)する。

[0152] 次に、当該手が力り表現候補を含む文について、当該科学記号候補文字列が現れない回数 N2をカウント（158)する。すなわち、科学記号候補文字列と手がかり表現候補が共起せず手力 Sかり表現候補のみが単独で現れる回数である。さらに、 N2が 0でなければ N1ZN2を算出（159)することにより、共起する割合が所定の閾値以上である力否かを確認する。 N2が 0の場合には閾値以上のときと同様に処理を行っても良いし、 N1が所定回数、例えば 3回以上の場合にだけ同様の処理を行っても良い。

あるいは、 N2がすべての場合に適用しうるように、 N1ZN2の算出（159)に替えて NlZ (N1 +N2)を算出する構成でもよ、。

[0153] 加えて、上記の回数 N1が回数 N2よりも有意に大きいことを二項検定などの公知の統計的検定の手法に基づいて確認（160)し、確認が取れた場合に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テーブル（154)に記録する。

[0154] 本実施例で二項検定を行う方法を説述する。

初期値として、一回の試行で科学記号候補文字列と手がかり表現候補とが共起する確率及び、科学記号候補文字列と手がかり表現候補とが共起せず後者だけが単独で出現する確率をそれぞれ 0. 5とする。

そして、 N1 +N2の総出現のうち N2回以下、科学記号候補文字列と手がかり表現候補とが共起せず手が力り表現候補のみが出現した確率を求める。

すなわち、この確率

[0155] (数 2)

P1 =∑

C(N1+N2,x) * 0.5^X * 0.5^N1+N2_X ただし、∑は、 x=0から x=N2の和、 C(A,B)は A個の異なったものから B個のものを取り出す場合の数である。

[0156] で表され、この確率の値が十分小さければ N1と N2は等価な確率でない、すなわち、 N1が N2に比べて有意に大きいことが判断できる。

そして、 5%検定ならば上記 P1が 5%よりも小さいこと、 10%検定ならば P1が 10% よりも小さ、こと、が有意に大き、かどうかの判断基準となる。 [0157] 上記では同一文としたが、単に同一文ではなぐ共起する表現を前方で連接する単語列 (前方 1単語列に共起する)や共起する表現を後方で連接する単語列 (後方 1 単語列に共起する）手力 Sかり表現候補に限定してもよい。単語列としては形態素や、形態素の集合を用いることができる。

[0158] 科学記号候補文字列の確度を高精度に算出する別の方法として、次の技術を組み合わせて用いることもできる。

本技術は科学記号候補文字列が、一般的な文章に比して多く出現する場合には当該文字列が科学記号である確度が高いと判定するものである。例えば、 leadという文字列を考えたとき、これは科学記号 (元素名）である可能性と、「導く」などを意味する英単語である可能性とがある。

[0159] 後者の意味の英単語は一般的な文章において頻繁に出現することは少ないが、科学論文において鉛を話題にした文章では頻繁に出現する。この場合、科学記号として処理するのが好適である。

そこで、図 17に示すように、まずタグ待避後テキスト（130)から科学記号を抽出したとき、抽出された当該科学記号の個数と該タグ待避後テキスト（130)を構成する全単語数との比、すなわち出現率 R1 (当該科学記号候補文字列の出現数 Z全文字列総数)を算出（162)する。

[0160] 次に、一般的なテキストコ一パス（163) (例えば新聞記事)を用いて、同様に該テキストコーパス（₁₆3)における当該科学記号候補文字列の出現数 Z全文字列総数を算出（164)する。これを出現率 R2とする。

そして、出現率の比 R1ZR2を算出（165)し、所定の閾値より大きいか否かを判定する。

カロえて、上記の R1が R2よりも有意に大きいことを比の検定、またはカイ二乗検定などの公知の統計的検定の手法に基づヽて確認（160)し、確認が取れた場合 (例えばカイ 2乗検定で 1%水準、又は 5%水準等で有意と認められた場合）に、当該手がカゝり表現候補と科学記号候補文字列との組み合わせを手がかり表現テーブル（154 )に記録する。

[0161] 上記カイ 2乗検定について説述すると、 R1を計算する分母、分子をそれぞれ Nl、 Flとし、 R2を計算する分母、分子をそれぞれ N2、 F2とする。

N=N1 +N2として、カイ 2乗値は次式により求められる。

[0162] (数 3)

カイ二乗値 =

(N*(F1*(N2-F2)-(N1- F1)*F2)²)/((F1+F2)*(N-(F1+F2))*N1*N2)

[0163] そして、このカイ二乗値が大きいほど R1と R2は有意差があると言え、例えばカイ二乗値が 3.84よりも大き、とき危険率 5%の有意差があると言え、カイ二乗値が 6.63よりも大きいとき危険率 1%の有意差があると言える。

[0164] 次に比の検定を用いる場合を説述する。まず、

[0165] (数 4)

P =

(F1+F2)/(N1+N2)

Pl =

Rl

p2 =

R2 と定義する。

そして、 2群の比率の差の検定における検定統計量は、

[0166] (数 5)

Z =

|pl-p2|/^(p*(l-p)*(l/Nl+l/N2) ) で表される。

このとき、 Zが大きいほど、 R1と R2は有意差があると言え、 Zが 1.96よりも大きいとき危険率 5%の有意差があると言え、 Zが 2.58よりも大きいとき危険率 1%の有意差があると言える。 [0167] これらの実施例において確度をデータベース（122)に予め定義する構成を説述した。しかし以下のようにテキストデータ力も確度を自動的に修正する構成を用いることちでさる。

図 18に示すように、テキストを入力（131)した後、科学記号を抽出（ 132)する際に、タグ待避後テキスト（130)中の科学記号候補文字列の数をカウント（170)する。該カウントは CPUにより公知の方法で実行処理することができる。

[0168] そして、該カウントが予め定めた閾値 (例えば 500ワード中に 5回以上などと定義する）である場合（171)には、データベース（122)に定義された確度を上昇させる書き換え処理（172)を行う。

このように書き換えられたデータベース（ 122)を用、て確度の算出を行うことで、頻繁に出現する文字列につ、ては科学記号であるとの判定が出やすくする。本方法が有効であるのは例えば英語の前置詞と元素記号が同一スペルの場合に、そのスぺルの文字列が一定以上多い場合には、そのテキストデータには当該元素記号に係る内容が含まれている可能性が高ぐこれらをもれなく抽出表示するためである。

[0169] また、 Nや Oなどの大文字 1文字の場合にも有効であり、文頭以外の場所に頻繁にこれらの文字が発現する場合には、文頭に発現した際にも科学記号であるとの判定が出やすくなる。

[0170] なお補足すると、データベース（122)には確度ではなく表示色を直接定義してもよい。この場合、発現条件毎に表示色を直接定義し、上記同様の効果を奏する。また、本実施例では表示色を変更する構成を開示したが、色ではなく書式を変化させる構成でもよ、。周知のようにテキストデータの表示態様としては文字フォントの変更ゃ下線の付与、網掛け表示、括弧による範囲表示などが知られており、これらを用 V、て文字色を変化させる代わりに所望の範囲を読者に表示することができる。

[0171] 以下には、本発明の具体的な実施例として、表示色と各科学記号候補文字列の判定ルールにつ、て説述する。

図 19は、本発明における表示色の定義である。図示のように、ルール 1, 3, 4, 5, 6, 7, 8を定め、それぞれにルール 1では原子 '分子'イオンを表現する場合に桃色で表示すること、ルール 3では電子配置の表現に黄色で表示すること、のように定義している。

なお、ルール 2は欠番である。

[0172] 上述した発現条件と関連して、ルール 1の判定には電子 eや、 +/_の上下添字、原子名に上下添字、 IVXivxの表現、 "like'Tic"についても同様に桃色で表示することを定義する。

ルール 3の判定では、「数字 *」（*はあってもなくても良いことを示す。以下同じ。 )

「s/p/d/f/g」「上下添字 *」の一回以上の繰り返しでかつ、数字が少なくとも 1回は含まれることを条件とする。

[0173] ルール 4の判定では、「上下添字 *」「S/P/D/F/G」「上下添字 *」の一回以上の繰り返しでかつ、「上下添字」が少なくとも 1回は含まれることを条件とする。

また、上記ルール 1と競合した場合は下のより厳密な規則を採用する。

すなわち、「上添字 *」「S/P/D/F/G」「下添字 *」の一回以上の繰り返しでかつ、添字の中身は 1から 4に限られ、上下添字の、ずれかは出現する条件とする。

[0174] ルール 5の判定では、「n/l」「=/〈/〉」の一回以上の繰り返しや、数字を条件として水色で表示する。

ルール 6の判定では、「（ルール 3の表現）のゼロ回以上の繰り返し」「数字/ n/n-bar 1」が出現した場合に、橙色で表示する。

[0175] ルール 7の判定では、英語アルファベット大文字一文字力なる原子名について、まわりに手がかり表現 (-like ion等)などがなければ、原子名でな、可能性が高、と判断してルール 7に分類する。また、英語アルファベット大文字一文字カゝらなる原子名が連続した表現や "Rev"、の場合にも手力かり表現がなければ同様にルール 7に分類する。

As,In,At,Heが文頭に出現した場合、前置詞や代名詞の可能性が高いためルール 7に分類する。

[0176] さらに以上のような表示色のルールによっていずれの条件にも合致しなかったものの、科学記号候補文字列として抽出されたものをルール 8とし、濃い灰色で表示した以上のような表示色のルールは、上記確度の算出結果に連動しており、データべース（ 122)の構成を適切に設計することによって実現して、る。

[0177] (タグを含まない科学論文等を対象とするテキスト表示装置の実施例）

本発明において、科学記号を含むテキストを対象とする場合には、書式設定タグを含まない通常のテキストを表示させることもできる。具体的には上記のタグ待避後テキスト（130)は、タグが待避されて書式設定タグを含まないテキストであるから、これのかわりに最初力も通常のテキストを入力すればょ、ことになる。

[0178] 図 20は本実施例に係るデータ表示装置 (20)の全体構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理やテキスト処理などを司る CPU (21)によって本発明の各ステップを実行処理する。 CPU (21 )は周知のようにメモリ（22)と協働して動作し、キーボード（23)やマウスなどの入力手段の他、出力結果を表示するモニタ（24)、ハードディスク等の外部記憶装置（29) などを備えている。

[0179] 図 21に示すように、本装置（20)に対して論文などのテキストデータ（200)を入力処理部（25)の作用によって装置に取得 (201)する。テキストデータ（200)としては英語等のラテン文字を用いた科学論文の場合に本発明は最も有効に作用する。そして、該テキストデータ（200)から化学記号や物理記号、特に元素記号、電子配置、分光記号などの自然科学で用いる記号及び化学式、数式などの式を抽出表示する。本発明ではこれらを総称して科学記号と呼ぶ。

[0180] 入力されたテキストデータ力科学記号抽出処理部（26)において予め科学記号とその発現条件を格納したデータベース（203)を参照して科学記号の抽出処理（202 )を行う。該データベース（203)は外部記憶装置（29)内に格納される。該処理（202 )は、上記における科学記号抽出処理（132)と同様である。

そして、上記における確度算出処理（133)と同様の確度算出処理 (204)を文字列表示決定処理部（27)で行い、さらに確度に応じた文字色を決定（205)し、表示部（ 28)の処理によってモニタ（24)上にテキストを表示（206)する。

[0181] (文書差分を抽出する実施例）

本発明の特異表示文字列抽出部（102)の処理に、本件出願人が特許文献 2で記載した文書差分検出装置の構成を用いることができる。すなわち、図 22は本実施例における特異表示文字列抽出部（102)の原理説明図である。特異表示文字列抽出部（102)には抽出'検出領域設定部（180)が設けられ、格納手段（ 13)が接続されて!、る。

[0182] 詳細はすでに特許文献 2に開示されている力抽出'検出領域設定部（180)は、テキストデータの差分として出力する対象の単位である抽出単位とテキストデータの差分を検出するために比較する領域の単位である検出領域とをキーボードやマウス等の入力手段（11)からの入力された設定情報、又はメモリ又は外部記憶装置（13) 力なる記憶部に記録された設定情報の、ずれかに基づ、て設定する。

[0183] 抽出単位としては、「単語」「漢字」「名詞句」などが考えられる。また、検出領域の単位とは、差分を検出するために比較する領域の単位のことである。検出領域の単位には、「文字」「単語」「文」「箇条書きの項目」「段落」などを用いることができる。

[0184] なお、本発明では必ずしも抽出'検出領域設定部（180)を設けずに予め抽出単位と検出領域を定義しておき、処理の度に設定しな、ように構成してもよ!/、。

[0185] (1)該構成において、特異表示文字列抽出部（102)は、入力されたテキストデータの現在の該検出領域以外の領域力全ての該抽出単位に相当するものを抽出して該格納部（13)に格納し、現在の該検出領域において、該格納部に格納されていなぃ該抽出単位に相当するものを特異表示文字列として抽出すると共に、該抽出部の処理を該検出領域ごとに繰り返す。

[0186] (2)あるいは、特異表示文字列抽出部（102)が、入力されたテキストデータの現在の前記検出領域において、前記格納部（13)に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力し、前記強調表示したものを前記格納部（13)に格納することを、前記検出領域ごとに繰り返す。このため、新しく出現する抽出単位に相当するもの（例えば単語)を容易に抽出して表示することができる。

[0187] (3)前記（1)又は（2)の特異表示文字列抽出部（102)において、前記格納部（13) に予め前記強調表示しない前記抽出単位のデータを格納する。このため、予めそれほど重要でな、表現を強調表示しな、ようにでき、見やすくすることができる。

[0188] (4)前記（1)〜（3)の特異表示文字列抽出部（102)において、前記抽出単位として、単語の単位とする。このため、新しく出現する単語を抽出表示することができる。

[0189] (5)：前記（1)〜(4)の特異表示文字列抽出部（102)において、前記検出領域の単位として、箇条書きの単位とする。このため、箇条書き間の違いを容易に理解することができる。

[0190] (6)：前記（1)〜(4)の特異表示文字列抽出部（102)において、前記検出領域の単位として、特許請求の範囲の単位とする。このため、特許請求の範囲の特徴や違いを容易に理解することができる。

[0191] (キーワードを抽出する実施例）

本発明の特異表示文字列抽出部（102)の処理に、本件出願人が特許文献 3で記載したキーワード強調装置の構成を用いることができる。

すなわち、図 23は本実施例における特異表示文字列抽出部（102)の原理説明図である。特異表示文字列抽出部（102)には抽出単位設定部（181)、抽出表現設定部（182)、抽出領域設定部（183)が設けられ、格納手段（13)が接続されている。

[0192] (A)抽出単位設定部（181)は抽出の単位を設定し、抽出表現設定部（182)は特異書式で表示する抽出表現を設定する。抽出領域設定部（183)は抽出領域の場所を設定する。

該構成において特異表示文字列抽出部（102)が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデータ中に現在の該抽出の単位に相当するものと同じもの力該格納部に格納されてヽる場合は、それを特異表示文字列として抽出する。

[0193] なお、本発明では抽出単位設定部（181)を用いずに予め抽出の単位を定義してお!、て、処理の度に抽出の単位を設定しな、ようにすることもできる。

[0194] (B)前記 (A)の特異表示文字列抽出部（102)において、入力されたデータをデータ前方から調べて、現在の抽出の単位に相当するものと同じものが前記格納手段に格納されている場合で、一つ前の抽出の単位が強調表示されるものである場合は、前記一つ前の抽出の単位と現在の抽出の単位に相当するものを特別強調表示するため抽出する。このため、入力されたデータ中で抽出領域の説明に該当する場所をより明確に見つけることができる。 [0195] (C)前記 (A)〜(B)の特異表示文字列抽出部（102)において、前記抽出表現設定部（ 182)で強調表示する抽出表現の設定の少なくとも 1つが名詞である。このため、名詞等の重要なもののみ強調表示することができる。

[0196] (D)前記 (A)〜(C)の特異表示文字列抽出部（102)において、前記抽出領域の場所として、入力されたデータのタイトル部分とする。このため、入力されたデータ中で重要なものとされているタイトル部分の説明に該当する場所を容易に見つけることができる。

[0197] (E)：前記 (A)〜(C)の特異表示文字列抽出部（102)において、前記抽出領域の場所として、入力されたデータのユーザが指定した部分とする。このため、入力されたデータ中でユーザが指定した部分の説明に該当する場所を容易に見つけることができる。

[0198] (F)：前記 (E)の特異表示文字列抽出部（102)において、前記ユーザが指定した部分として、複数部分を指定し、該指定した部分により、異なる強調表示をする。このため、入力されたデータ中でユーザが指定した複数部分の説明に該当する場所を容易に見つけることができる。

[0199] (G)：前記 (E)又は (F)の特異表示文字列抽出部（102)において、入力されたデータのうちで初めて出てくる抽出の単位に相当するものを強調表示する前述の文書差分検出装置の構成 (文書差分検出機構)を備え、ユーザが指定した部分として、該機構が強調表示した部分を指定する。このため、入力されたデータ中でユーザが指定した部分の説明に該当する場所をより明確に見つけることができる。

[0200] (H)：前記 (E)又は (F)の特異表示文字列抽出部（102)において、入力されたデータの差分を検出するために比較する領域の単位である検出領域を設定し、入力されたデータの現在の検出領域以外の領域力全ての前記抽出の単位に相当するものを抽出し、現在の検出領域において、検出領域以外の領域にない抽出の単位に相当するものを強調表示する文書差分検出機構を備え、前記ユーザが指定した部分として、該機構が強調表示した部分を指定する。このため、入力されたデータ中でユーザが指定した部分の説明に該当する場所をより明確に見つけることができる。

[0201] (I)：特異表示文字列抽出部（102)に抽出の単位を設定する抽出単位設定部（181 )と、抽出領域の場所を設定する抽出領域設定部（182)と、入力されたデータのうちで初めて出てくる前記抽出の単位に相当するものを強調表示する文書差分検出機構 (図示しない)とを備え、情報を格納する格納手段（13)とを接続する。

そして、特異表示文字列抽出部（102)が、抽出領域の場所として文書差分検出機構が強調表示した部分とし、抽出領域より抽出の単位に相当するものを抽出して格納手段（13)に格納し、入力されたデータを前方から調べて現在の前記抽出の単位に相当するものと同じもの力前記格納手段（13)に格納されている場合は、それを強調表示のため抽出する。このため、入力されたデータ中で初めて出てくる単語等の抽出の単位に相当する部分の説明に該当する場所を簡単な手段で明確に見つけることがでさる。

[0202] CO：特異表示文字列抽出部（102)に抽出の単位を設定する抽出単位設定部（181 )と、抽出領域の場所を設定する抽出領域設定部（182)とを備え、情報を格納する格納手段（13)を接続する。

特異表示文字列抽出部（102)が、入力されたデータの差分を検出するために比較する領域の単位である検出領域を設定し、入力されたデータの現在の検出領域以外の領域力全ての抽出の単位に相当するものを抽出する。そして、現在の検出領域において、検出領域以外の領域にない抽出の単位に相当するものを強調表示する文書差分検出機構 (図示しない)を備える。

抽出領域の場所として該機構が強調表示した部分とし、抽出領域より抽出の単位に相当するものを抽出して格納手段（13)に格納し、入力されたデータを前方力調ベて現在の抽出の単位に相当するものと同じもの力格納手段（13)に格納されている場合は、それを強調表示する。このため、入力されたデータ中で初めて出てくる単語等の抽出の単位に相当する部分の説明に該当する場所を簡単な手段で明確に見つけることができる。

[0203] 本発明では、以上説述したとおり、特異表示文字列抽出処理部（102)に科学記号を抽出する機構、文書差分を検出する機構、キーワードを抽出する機構を用いたときに、各機構の処理時にタグの影響を抑制し、高精度かつ高速な処理を可能にするものである。特にインターネットのウェブブラウザに上記したようなボタンを表示させ、ユーザが随意に特異表示を切り替えられるようにすることで、各機構による表示効果を最大限に禾 IJ用することがでさる。

図面の簡単な説明

[図 1]本発明のデータ表示装置 (第 1実施例)の全体構成図である。

[図 2]本発明のデータ表示方法 (第 1実施例）の流れ図である。

[図 3]本発明におけるタグ待避の様子を示す図である。

[図 4]本発明によるウェブブラウザの表示画面を示す説明図である。

[図 5]本発明のデータ表示装置 (第 2実施例)の全体構成図である。

[図 6]本発明のデータ表示方法 (第 2実施例）の流れ図である。

[図 7]本発明のデータ表示装置 (第 3実施例)の全体構成図である。

[図 8]本発明のデータ表示方法 (第 3実施例）の流れ図である。

[図 9]本発明で用いる科学記号を抽出する特異表示文字列抽出処理部の構成図である。

[図 10]本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図である。

[図 11]本発明で用いる論文データの一例である。

[図 12]図 9のデータベースの内容例である。

[図 13]本発明で用いる科学記号を抽出する特異表示文字列抽出処理部の構成図（別実施例)である。

[図 14]本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図 (別実施例）である。

[図 15]本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図 (別実施例）である。

[図 16]テキストコ一パスから手力かり表現テーブルを構築する処理の流れ図である。

[図 17]タグ待避後テキストから手力かり表現テーブルを構築する処理の流れ図である

[図 18]テキストデータ力も確度を自動的に修正する処理の流れ図である。 [図 19]本発明における表示色の定義である。

[図 20]本発明によるタグを含まな！/、テキストのデータ表示装置の全体構成図である。

[図 21]同、データ表示方法の流れ図である。

圆 22]本発明で用いる文書差分を検出する特異表示文字列抽出処理部の構成図である。

圆 23]本発明で用いるキーワードを抽出する特異表示文字列抽出処理部の構成図である。

符号の説明

1 データ表不装置

2 タグ付テキス卜

10 CPU

11 キーボード 'マウス

12 モニタ

13 記憶装置

14 ネットワークアダプタ

100 タグ抽出処理部

101 タグ待避処理部

102 特異表示文字列抽出処理部

103 特異書式タグ書き込み処理部

104 タグ復帰処理部

105 表示処理部

S1 - 1 タグを抽出する処理

S1 - 2 タグを待避する処理

S1 - 3 特異表示する文字列を抽出する処理

S1 -4 特異書式タグを書き込む処理

S1 - 5 タグを復帰させる処理

S1 -6 ブラウザで表示させる処理

Claims

請求の範囲

[1] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装置であって、

該テキストデータから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手段と、

該抽出された書式設定タグをそのテキストデータ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータから除去するタグ待避処理を行うタグ待避処理手段と、

タグ待避後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、

該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書き込み処理手段と、

該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出力されたテキストデータに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰処理手段と、

該書式設定タグに従ってテキストデータを表示する表示処理手段と

を備えたことを特徴とするデータ表示装置。

[2] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装置であって、

該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換処理手段と、タグ置換後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、

タグ序列置換処理手段により置換された文字を、該タグ序列記憶手段力順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換処理手段を備え該書式設定タグに従ってテキストデータを表示する表示処理手段と

を備えたことを特徴とするデータ表示装置。

[3] 前記所定の置換文字が、序列のある文字である

請求項 2に記載のデータ表示装置。

[4] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装置であって、

該抽出された書式設定タグを予め備えたタグ置換データベースに基づいて所定の符号に置換するタグ置換処理手段と、

タグ置換後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、

を備えたことを特徴とするデータ表示装置。

[5] 前記データ表示装置が、

タグ置換処理手段により置換された符号から予め備えたタグ逆置換データベースに基づいて所定の書式設定タグに置換するタグ逆置換処理手段を備え、前記表示処理手段によるテキストデータの表示を行う

請求項 4に記載のデータ表示装置。

[6] 前記データ表示装置が、

特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手段を備える

請求項 1な!、し 5の、ずれかに記載のデータ表示装置。

[7] 前記表示状態設定手段が、前記表示処理部によりテキストデータを表示する表示領域の近接領域に配置される

請求項 1な!、し 6の、ずれかに記載のデータ表示装置。

[8] 前記特異書式タグ書き込み処理手段において、

特異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タグを書き込む

請求項 1な!、し 7の、ずれかに記載のデータ表示装置。

[9] 前記テキストデータが少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含む構成において、

前記特異表示文字列抽出処理手段が、

科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースと、

該科学記号データベースを参照して該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理部と、

該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理部とを備え、

前記特異書式タグ書き込み処理手段が、

該表示態様に従った書式設定タグを書き込む

請求項 1な!、し 8の、ずれかに記載のデータ表示装置。

[10] 少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含むテキストデータを表示するデータ表示装置であって、

テキストデータを入力する入力処理部と、

該科学記号データベースを参照して該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理部と、該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理部と、

決定された表示態様の科学記号候補文字列を含むテキストデータを表示する表示部と

を備えることを特徴とするデータ表示装置。

[11] 前記文字列表示決定処理部において、

テキストデータの基本文字色を予め設定すると共に、

該科学記号候補文字列の表示色を該テキストデータの表示に用いる基本文字色から変化させる処理を行う

請求項 9又は 10に記載のデータ表示装置。

[12] 前記文字列表示決定処理部において、

前記科学記号候補文字列が科学記号である確度を算出する科学記号確度算出部を備え、

該算出結果に基づいて確度が閾値よりも高い科学記号候補文字列については基本文字色と色相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号候補文字列については基本文字色と彩度又は明度が異なる表示色を設定する請求項 9又は 10に記載のデータ表示装置。

[13] 前記データ表示装置に形態素解析処理部を備え、

前記テキストデータを形態素解析処理すると共に、

科学記号確度算出部にお!、て、

前記科学記号候補文字列の前後所定個数の形態素の少なくとも文字列情報又は文法情報の、ずれかを用い、前記科学記号データベースに備えた少なくとも文字列情報又は文法情報のいずれかを参照して確度を算出する

請求項 12に記載のデータ表示装置。

[14] 前記科学記号確度算出部において、

前記科学記号候補文字列の前後に同一又は異なる科学記号候補文字列が連続して出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処理を含む請求項 12又は 13に記載のデータ表示装置。 [15] 前記科学記号抽出処理部が、

予め定めた科学記号を構成する特定表現を抽出し、

前記科学記号確度算出部において、

該特定表現が前後所定個数の形態素内、又は同一文、又は同一テキストデータ中に出現した場合に、当該科学記号候補文字列の確度を所定値だけ高める処理を含む

請求項 12なヽし 14のヽずれかに記載のデータ表示装置。

[16] 前記特定表現を、特定表現データベースに格納する構成において、

着目している科学記号候補文字列と共に、テキストデータの同一文又は所定個数の形態素内に特定表現候補が出現する回数 N1を計数する一方、該特定表現候補がその他の文において単独に出現する回数 N2を計数し、 NlZN2 (N2≠0)又は N 1/ (N1 +N2) (N2が 0のときも含む）の少なくともいずれかの値が閾値以上の場合に、該特定表現データベースに格納する処理を含む

請求項 12ないし 15のいずれかに記載のデータ表示装置。

[17] 前記データ表示装置がテキストの差分を検出して表示する構成において、

前記特異表示文字列抽出処理手段が、

テキストデータの差分として出力する対象の単位である抽出単位とテキストデータの差分を検出するために比較する領域の単位である検出領域とについて、予め定義されているか、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設定情報に基づいて該抽出'検出領域設定部で設定されるか、記憶部と抽出'検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域設定部で設定されるか、のいずれかにより決まる該抽出単位及び該検出領域を用い情報を格納する格納部と、

抽出部とを備え、

該抽出部は、入力されたテキストデータの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出して該格納部に格納し、現在の該検出領域にぉ、て、該格納部に格納されて、な、該抽出単位に相当するものを特異表示文字列として抽出すると共に、

該抽出部の処理を該検出領域ごとに繰り返し、

前記特異書式タグ書き込み処理手段が、

該表示態様に従った書式設定タグを書き込む

請求項 1な!、し 8の、ずれかに記載のデータ表示装置。

[18] 前記データ表示装置がキーワードとなる語句を特異書式で表示する構成において前記特異表示文字列抽出処理手段が、

予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定される力のいずれかにより決まる抽出の単位を用い、

特異表示する抽出表現を設定する抽出表現設定部と、

抽出領域の場所を設定する抽出領域設定部と、

情報を格納する格納部と、

抽出部とを備え、

該抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデータ中に現在の該抽出の単位に相当するものと同じもの力該格納部に格納されている場合は、それを特異表示文字列として抽出した後、

前記特異書式タグ書き込み処理手段が、

該表示態様に従った書式設定タグを書き込む

請求項 1な!、し 8の、ずれかに記載のデータ表示装置。

[19] 前記抽出領域の場所として、前記テキストデータのタイトル部分とすることを特徴とする

請求項 18に記載のデータ表示装置。

[20] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方法であって、

タグ抽出処理手段が、該テキストデータ力該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ、

タグ待避処理手段が、該抽出された書式設定タグをそのテキストデータ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータ力除去するタグ待避処理を行うタグ待避ステップ、

特異表示文字列抽出処理手段が、タグ待避後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、

特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書き込みステップ、

タグ復帰処理手段が、該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段力出力されたテキストデータに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰ステップ、

表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステップを含むことを特徴とするデータ表示方法。

少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方法であって、

タグ序列置換処理手段が、該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換ステップ、

特異表示文字列抽出処理手段が、タグ置換後のテキストデータ力特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、

タグ序列逆置換処理手段が、タグ序列置換ステップで置換された文字を、該タグ序列記憶手段から順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換ステップ、表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステップを含むことを特徴とするデータ表示方法。

[22] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方法であって、

タグ置換処理手段が、該抽出された書式設定タグを予め備えたタグ置換データべースに基づいて所定の符号に置換するタグ置換ステップ、

[23] 前記データ表示方法において、

表示状態設定手段により特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能とする

請求項 20な、し 22の、ずれかに記載のデータ表示方法。

[24] 前記テキストデータが少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含む構成において、

前記特異表示文字列抽出ステップが、

科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースを用い、

科学記号抽出処理部により該科学記号データベースを参照して該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理過程、

文字列表示決定処理部により該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理過程を含み、

前記特異書式タグ書き込みステップにお!、て、該表示態様に従った書式設定タグを書き込む

請求項 20な、し 23の、ずれかに記載のデータ表示方法。

[25] 少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ）を含むテキストデータを表示するデータ表示装置におけるデータ表示方法であって、

入力処理部がテキストデータを入力する入力ステップ、

次 (a)な、し (b)の各処理過程を含む科学記号文字列抽出ステップ：

(a)科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号データベースを参照し、科学記号抽出処理部が該テキストデータから科学記号候補文字列を抽出する科学記号抽出処理過程、

(b)該発現条件と照合して文字列表示決定処理部が該科学記号候補文字列の表示態様を決定する文字列表示決定処理過程：

表示部が決定された表示態様の科学記号候補文字列を含むテキストデータを表示する表示ステップ

を含むことを特徴とするデータ表示方法。

[26] 前記文字列表示決定処理過程において、

テキストデータの基本文字色を予め設定すると共に、

請求項 24又は 25に記載のデータ表示方法。

[27] 前記文字列表示決定処理過程において、

科学記号確度算出部が、科学記号候補文字列が科学記号である確度を算出する科学記号確度算出処理過程を行った後に、

該算出結果に基づいて確度が閾値よりも高い科学記号候補文字列については基本文字色と色相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号候補文字列については基本文字色と彩度又は明度が異なる表示色を設定する請求項 26に記載のデータ表示方法。 [28] 前記データ表示方法において、

形態素解析処理部が前記テキストデータを形態素解析する形態素解析処理過程を前記科学記号抽出処理過程の前に実行し、

科学記号確度算出処理過程において、該科学記号候補文字列の前後所定個数の形態素の少なくとも文字列情報又は文法情報の!、ずれかを用い、前記科学記号データベースに備えた少なくとも文字列情報又は文法情報のいずれかを参照して確度を算出する

請求項 27に記載のデータ表示方法。

[29] 前記科学記号確度算出処理過程において、

前記科学記号候補文字列の前後に同一又は異なる科学記号候補文字列が連続して出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処理を含む請求項 27又は 28に記載のデータ表示方法。

[30] 前記科学記号抽出処理過程において、

予め定めた科学記号を構成する特定表現を抽出し、

前記科学記号確度算出処理過程において、

請求項 27な、し 29の、ずれかに記載のデータ表示方法。

[31] 前記特定表現を、特定表現データベースに格納する構成において、

請求項 27な、し 30の、ずれかに記載のデータ表示方法。

[32] 前記データ表示方法がテキストの差分を検出して表示する構成にぉ、て、

前記特異表示文字列抽出ステップにおいて、テキストデータの差分として出力する対象の単位である抽出単位とテキストデータの差分を検出するために比較する領域の単位である検出領域とについて、予め定義されているか、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設定情報に基づいて該抽出'検出領域設定部で設定されるか、記憶部と抽出'検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域設定部で設定されるか、のいずれかにより決まる該抽出単位及び該検出領域を用い抽出部が、入力されたテキストデータの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出して格納部に格納し、現在の該検出領域において、該格納部に格納されていない該抽出単位に相当するものを特異表示文字列として抽出する抽出単位抽出処理を行い、

該抽出単位抽出処理を該検出領域ごとに繰り返した後、

請求項 20な、し 23の、ずれかに記載のデータ表示方法。

前記データ表示方法がキーワードとなる語句を特異書式で表示する構成において前記特異表示文字列抽出ステップにおいて、

抽出表現設定部が、特異表示する抽出表現を設定する抽出表現設定処理、抽出領域設定部が、抽出領域の場所を設定する抽出領域設定処理、

の各処理を同時又は!/、ずれかの順で処理した後、

抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを格納部に格納し、前記テキストデータ中に現在の該抽出の単位に相当するものと同じもの力該格納部に格納されている場合は、それを特異表示文字列として抽出した後、

請求項 20な、し 23の、ずれかに記載のデータ表示方法。