WO2010038540A1

WO2010038540A1 - テキストセグメントを有する文書から用語を抽出するためのシステム

Info

Publication number: WO2010038540A1
Application number: PCT/JP2009/063584
Authority: WO
Inventors: 洋平伊川; 広宜竹内; 紫穂根岸
Original assignee: インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date: 2008-10-02
Filing date: 2009-07-30
Publication date: 2010-04-08
Also published as: US9043339B2; US8463794B2; JP5106636B2; EP2315129A1; EP2315129A4; CN102144229B; KR20110081194A; US20110208728A1; JPWO2010038540A1; KR101498331B1; BRPI0913815A2; US20130253916A1; CN102144229A; BRPI0913815B1

Abstract

文書から用語の抽出を行い、該抽出した用語を文書の概要理解又は内容理解に有用な観点で分類し、該分類した用語を利用者に提示する手法を提供する。コンピュータ・システムは、第１のテキスト処理情報を用いて、テキストセグメントを有する文書データから名詞語を抽出し、第２のテキスト処理情報を用いて、該文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、該名詞語についての用語候補を抽出し、該名詞語及び該用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第３のテキスト処理情報を用いてどの種類に重みを付与するかを選択し、該名詞語及び該用語候補それぞれに、上記選択された種類について重みを付与し、上記付与された重みによって該名詞語及び該用語候補が属する該種類を決定し、決定された種類に関連づけて、該名詞語及び該用語候補を出力する。

Description

[規則37.2に基づきISAが決定した発明の名称]　テキストセグメントを有する文書から用語を抽出するためのシステム

　本発明は、テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。

　現在、技術文書、例えば要求文書及び仕様書の量は膨大である。よって、技術文書の内容を素早く理解するための技術が必要とされている。そのために、技術文書中に出現する用語を抽出して提示することは有用な解決策である。これまでに、テキストから用語を抽出する手法が多く提案されている。しかし、用語を単に抽出するだけでは、多くの用語が列挙されるだけである。また、一般的な用語を抽出する手法は技術文書に特化していないので、用語が抽出された後に、ユーザが、用語の種類を手動で分類しなければならず実用的ではない。さらに、ＮＥ（named entity）抽出技術、すなわち人名、地名及び組織名といった特定の種類の用語を自動的に抽出するための技術を利用する場合、用語抽出のために辞書及び抽出ルールの整備が不可欠である。しかし、ユーザが技術文書の内容を精査し、どれが用語となりうるかを判断し、そして辞書を作成する作業は膨大なコストを必要とする。

　下記特許文献１は、テキストデータから所定の語句を抽出し、語句の文字と品詞と文法情報との少なくとも一つに基づいて仮重要度を算出する仮重要度算出すること、及びテキストデータでの語句の出現状態に対応して仮重要度から本重要度を算出することを記載する。

特開平１０－１７７５７５号公報

　本発明の目的は、文書、特に技術文書の言語的及び構造的な特徴を生かして用語の抽出を行い、該抽出した用語を文書の概要理解又は内容理解のために有用な観点で自動的に分類し、そして該分類した用語を利用者に提示する手法を提供することである。

　本発明は、テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・システムを提供する。該コンピュータ・システムは、
　第１のテキスト処理情報を用いて、上記文書データから名詞語を抽出する第１の抽出部と、
　第２のテキスト処理情報を用いて、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記抽出された名詞語についての用語候補を抽出する第２の抽出部と、
　上記抽出された名詞語及び上記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第３のテキスト処理情報を用いて上記複数の種類のうちのどの種類に重みを付与するかを選択し、上記抽出された名詞語及び上記抽出された用語候補それぞれに、上記選択された種類について重みを付与する重付部と、
　上記付与された重みに基づいて、上記抽出された名詞語及び上記抽出された用語候補が属する上記種類を決定する決定部と、
　上記決定に従い、上記抽出された名詞語及び上記抽出された用語候補を上記決定された種類に関連付けて出力する出力部と
　を含む。

　本発明の１つの実施態様では、
　上記重付部が、第４のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行い、
　上記決定部が、上記抽出された名詞語及び上記抽出された用語候補それぞれについて上記複数の種類の各重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する。

　本発明の１つの実施態様では、上記第１のテキスト処理情報が、文書の構造的な情報、言語の表層的な情報、言語の品詞情報又は形態素解析による情報であり、上記第２のテキスト処理情報、上記第３のテキスト処理情報及び上記第４のテキスト処理情報が語の係り受け情報である。

　本発明の１つの実施態様では、上記第１の抽出部が、
　上記文書データを形態素解析して名詞語（Ki（i=1,2,…,n））を抽出し、
　該抽出したKiが文書データ中に存在する位置及び割合の少なくとも１に従い、Ki夫々に重みを付与すること
　をさらに含む。

　本発明の１つの実施態様では、上記Kiが文書データ中に存在する位置に従い重みを付与することが、Kiが文中にあるかどうか、テキストセグメント中にあるかどうか、又は括弧中にあるかどうかに従い重みを付与することであり、
　上記Kiが文書データ中に存在する割合に従い重みを付与することが、Kiがテキストセグメント中又は括弧中の文字列を占める所定の割合に従い重みを付与することである。

　本発明の１つの実施態様では、上記Kiの上記位置が文中でない場合に、
　　該Kiが上記テキストセグメント全体を占めているかどうかを判断し、
　　　該Kiがテキストセグメント全体を占めている場合に、該KiにスコアＷを付与し、
　　　該Kiがテキストセグメント全体を占めていない場合に、該KiにスコアＹを付与し、
　上記Kiの上記位置が文中である場合に、
　　該Kiが該文中において括弧中にあり且つ括弧中の文字列全体を占めているかどうかを判断し、
　　　該Kiが括弧中にあり且つ括弧中の文字列全体を占めている場合に、該KiにスコアＸを付与し、
　　　該Kiが括弧中にない又は括弧中の文字列全体を占めていない場合に、該KiにスコアＺを付与する。
　ここで、スコアＷ＞スコアＸ＞スコアＹ＞スコアＺである。

　本発明の１つの実施態様では、上記第１の抽出部が、
　上記Kiについて同じ名詞語をまとめてSi（i=1,2,…,k）（n≧k）とし、
　上記Siそれぞれについて各Kiに付与された重みに基づいて重みを付与し、
　上記Siの重みが所定の閾値以上のSiを抽出すること
　をさらに含む。

　本発明の１つの実施態様では、上記第１の抽出部が、
　上記Siについての重みが所定の閾値の範囲内にない場合に、該Siの重みを０に設定する。

　本発明の１つの実施態様では、上記第１の抽出部が、
　上記Siの文字種が数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に、該Siの重みを０に設定する。

　本発明の１つの実施態様では、上記第１の抽出部が、
　上記Siそれぞれの重みが所定の閾値の範囲内にあるかどうかを判断し、
　　該Siの重みが所定の閾値の範囲内にある場合に、
　　　該Siの文字種の用語としての適否を判断し、
　　　　適している場合に、該Siを抽出すべき名詞語とし、
　　　　適していない場合に、該Siの重みを０に設定し、
　　該Siの重みが所定の閾値の範囲内にない場合に、該Siの重みを０に設定する。

　本発明の１つの実施態様では、上記Siの文字種の適否が、該Siの数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に適していないと判断される。

　本発明の１つの実施態様では、上記第２の抽出部が、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、所定の文法的要件を満たす用語候補を抽出することを含む。

　本発明の１つの実施態様では、上記所定の文法的要件を満たす用語候補を抽出することが、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語を抽出することを含む。

　本発明の１つの実施態様では、上記重付部が、
　上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語及び上記抽出された用語候補それぞれに対して所有格語が係る回数を求めること、
　該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
　を含む。

　本発明の１つの実施態様では、上記重付部がさらに、選択された種類について重みを付与する。

　本発明の１つの実施態様では、上記複数の種類が、コンポーネント・タイプ（Vc）、パラメータ・タイプ（Vp）、及びスキーマ・タイプ（Vs）であり、
　上記Vcが、コンポーネントに属する用語の度合いを表し、
　上記Vpが、パラメータを表す用語の度合いを表し、
　上記Vsが、スキーマを表す用語の度合いを表す。

　本発明の１つの実施態様では、上記重付部が
　　上記抽出された名詞語について求めた回数が所定の閾値よりも低い場合に、上記抽出された名詞語についての上記VcにスコアＡを付与し、
　　上記抽出された名詞語について求めた回数が所定の閾値以上である場合に、上記抽出された名詞語についての上記Vp及び上記VsにスコアＡを付与する。

　本発明の１つの実施態様では、上記重付部が
　　上記抽出された用語候補について求めた回数が所定の閾値よりも低い場合に、上記抽出された用語候補についての上記VsにスコアＢを付与し、
　　上記抽出された用語候補について求めた回数が所定の閾値以上である場合に、上記抽出された用語候補についての上記Vp及び上記VsにスコアＢを付与する。
　ここで、スコアＡ>スコアＢ＞スコアＣ>スコアＤである。

　本発明の１つの実施態様では、
　上記第２の抽出部が、
　上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出し、
　上記重付部が、
　該抽出した名詞語NPiが数字を含む場合に、上記抽出された名詞語についての上記VpにスコアＣを付与する。

　本発明の１つの実施態様では、上記重付部が、
　上記抽出された名詞語のうち上記文書データのテキストセグメントの１行目に出現する名詞語tiに対して所有格語が係る回数を、上記文書データにおいて又は該記文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて求めること、
　該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
　を含む。

　本発明の１つの実施態様では、
　上記重付部が、
　　上記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VsにスコアＤを付与し、
　　上記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアＡを付与する。

　本発明の１つの実施態様では、上記重付部が、
　スキーマになりうる用語（S-seed）のリスト入力に応答して、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、該S-seedに後接する名詞語と、該S-seedが所有格語として係る名詞語の頻度を求めること、
　該上記S-seedに後接する名詞語及び該S-seedが所有格語として係る名詞語のうち、上記頻度が１以上である名詞語をリストとして格納すること
　を含む。

　本発明の１つの実施態様では、上記重付部が、
　上記抽出された名詞語のうち上記文書データのテキストセグメントの１行目に出現する名詞語tiが上記リスト中に記憶された名詞語と一致する場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアＤを付与する。

　本発明の１つの実施態様では、上記決定部が、上記抽出された名詞語及び上記抽出された用語候補それぞれについて、上記Vc、上記Vp及び上記Vsの重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する。

　本発明は、テキストセグメントを有する文書データから用語を抽出するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
　第１のテキスト処理情報を用いて、上記文書データから名詞語を抽出し、該抽出した名詞を記憶部に格納するステップと、
　第２のテキスト処理情報を用いて、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記抽出された名詞語についての用語候補を抽出し、該抽出した名詞語を上記記憶部に格納するステップと、
　上記抽出された名詞語及び上記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第３のテキスト処理情報を用いて上記複数の種類のうちのどの種類に重みを付与するかを選択し、上記抽出された名詞語及び上記抽出された用語候補それぞれに、上記選択された種類について重みを付与し、該与えられた重みを上記記憶部に格納するステップと、
　上記付与された重みに基づいて、上記抽出された名詞語及び上記抽出された用語候補が属する上記種類を決定するステップと、
　上記決定に従い、上記抽出された名詞語及び上記抽出された用語候補を上記決定された種類に関連付けて表示装置上に出力するステップと
　を含む。

　本発明の１つの実施態様では、
　上記与えられた重みを上記記憶部に格納するステップが、第４のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行うステップをさらに含み、
　上記決定するステップが、上記抽出された名詞語及び上記抽出された用語候補それぞれについて上記複数の種類の各重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定するステップをさらに含む。

　本発明の１つの実施態様では、上記名詞語を抽出するステップは、
　上記文書データを形態素解析して名詞語（Ki（i=1,2,…,n））を抽出するステップと、
　該抽出したKiが文書データ中に存在する位置及び割合の少なくとも１に従い、Ki夫々に重みを付与するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記Kiが文書データ中に存在する位置に従い重みを付与するステップが、Kiが文中にあるかどうか、テキストセグメント中にあるかどうか、又は括弧中にあるかどうかに従い重みを付与するステップを含み、
　上記Kiが文書データ中に存在する割合に従い重みを付与するステップが、Kiがテキストセグメント中又は括弧中の文字列を占める所定の割合に従い重みを付与するステップを含む。

　本発明の１つの実施態様では、上記Kiの位置が文中でない場合に、
　　該Kiが上記テキストセグメント全体を占めているかどうかを判断するステップと、
　　　該Kiがテキストセグメント全体を占めている場合に、該KiにスコアＷを付与するステップと、
　　　該Kiがテキストセグメント全体を占めていない場合に、該KiにスコアＹを付与するステップと
　をさらに含み、
　上記Kiの位置が文中である場合に、
　　該Kiが該文中において括弧中にあり且つ括弧中の文字列全体を占めているかどうかを判断するステップと、
　　　該Kiが括弧中にあり且つ括弧中の文字列全体を占めている場合に、該KiにスコアＸを付与するステップと、
　　　該Kiが括弧中にない又は括弧中の文字列全体を占めていない場合に、該KiにスコアＺを付与するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記名詞語を抽出するステップが、
　上記Kiについて同じ名詞語をまとめてSi（i=1,2,…,k）（n≧k）とするステップと、
　上記Siそれぞれについて各Kiに付与された重みに基づいて重みを付与するステップと、
　上記Siの重みが所定の閾値以上のSiを抽出するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記名詞語を抽出するステップが、
　上記Siについての重みが所定の閾値の範囲内にない場合に、該Siの重みを０に設定するステップをさらに含む。

　本発明の１つの実施態様では、上記名詞語を抽出するステップが、
　上記Siの文字種が数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に、該Siの重みを０に設定するステップをさらに含む。

　本発明の１つの実施態様では、上記名詞語を抽出するステップが、
　上記Siそれぞれの重みが所定の閾値の範囲内にあるかどうかを判断するステップと、
　　該Siの重みが所定の閾値の範囲内にある場合に、
　　　該Siの文字種の用語としての適否を判断するステップと、
　　　　適している場合に、該Siを抽出すべき名詞語とするステップと、
　　　　適していない場合に、該Siの重みを０に設定するステップと、
　　該Siの重みが所定の閾値の範囲内にない場合に、該Siの重みを０に設定するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記名詞語を抽出するステップが、上記Siの文字種が、数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に適していないと判断するステップを含む。

　本発明の１つの実施態様では、上記第２のテキスト処理情報を用いて上記用語候補を抽出するステップが、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、所定の文法的要件を満たす用語候補を抽出するステップを含む。

　本発明の１つの実施態様では、上記所定の文法的要件を満たす用語候補を抽出するステップが、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語を抽出するステップを含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語及び上記抽出された用語候補それぞれに対して所有格語が係る回数を求めるステップと、
　該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択するステップと
　を含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、選択された種類について重みを付与するステップをさらに含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　　上記抽出された名詞語について求めた回数が所定の閾値よりも低い場合に、上記抽出された名詞語についての上記VcにスコアＡを付与するステップと、
　　上記抽出された名詞語について求めた回数が所定の閾値以上である場合に、上記抽出された名詞語についての上記Vp及び上記VsにスコアＡを付与するステップと
　を含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　　上記抽出された用語候補について求めた回数が所定の閾値よりも低い場合に、上記抽出された用語候補についての上記VsにスコアＢを付与するステップと、
　　上記抽出された用語候補について求めた回数が所定の閾値以上である場合に、上記抽出された用語候補についての上記Vp及び上記VsにスコアＢを付与するステップと
　を含む。

　本発明の１つの実施態様では、
　上記用語候補を抽出するステップが、
　上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出するステップをさらに含み、
　上記重みを付与するステップが、
　該抽出した名詞語NPiが数字を含む場合に、上記抽出された名詞語についての上記VpにスコアＣを付与するステップをさらに含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　上記抽出された名詞語のうち上記文書データのテキストセグメントの１行目に出現する名詞語tiに対して所有格語が係る回数を、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて求めるステップと、
　該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択するステップと
　を含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　　上記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VsにスコアＤを付与するステップと、
　　上記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアＡを付与するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　　上記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VsにスコアＤを付与し、
　　上記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアＡを付与するステップをさらに含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、
　スキーマになりうる用語（S-seed）のリスト入力に応答して、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、該S-seedに後接する名詞語と、該S-seedが所有格語として係る名詞語の頻度を求めるステップと、
　該上記S-seedに後接する名詞語及び該S-seedが所有格語として係る名詞語のうち、上記頻度が１以上である名詞語をリストとして格納するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記重みを付与するステップが、上記抽出された名詞語のうち上記文書データのテキストセグメントの１行目に出現する名詞語tiが上記リスト中に記憶された名詞語と一致する場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアＤを付与するステップと
　をさらに含む。

　本発明の１つの実施態様では、上記決定をするステップが、上記抽出された名詞語及び上記抽出された用語候補それぞれについて、上記Vc、上記Vp及び上記Vsの重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定するステップを含む。

　本発明はまた、テキストセグメントを有する文書データから用語を抽出するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
　形態素解析による情報及び言語の品詞情報を用いて、記憶部に格納された上記文書データから名詞語を抽出し、文書の構造的な情報及び言語の表層的な情報の少なくとも１を用いて上記抽出した名詞語から所定の要件を満たす名詞語（以下、シード表現）を抽出し、該シード表現を記憶部に格納するするステップと、
　第１の語の係り受け情報を用いて、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記シード表現についての用語候補を抽出し、該抽出した用語候補を上記記憶部に格納するステップと、
　上記シード表現及び上記用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第２の語の係り受け情報を用いて上記複数の種類のうちのどの種類に重みを付与するかを選択し、上記シード表現及び上記用語候補それぞれに、上記選択された種類について重みを付与し、該与えられた重みを上記記憶部に格納するステップであって、
　上記複数の種類が、コンポーネント・タイプ（Vc）、パラメータ・タイプ（Vp）、及びスキーマ・タイプ（Vs）であり、
　上記Vcが、コンポーネントに属する用語の度合いを表し、
　上記Vpが、パラメータを表す用語の度合いを表し、
　上記Vsが、スキーマを表す用語の度合いを表す、
　上記格納するステップと、
　第３の語の係り受け情報を用いて上記選択をすることと上記重みを付与することとを複数回繰り返すステップと、
　上記シード表現及び上記用語候補それぞれについて上記種類Vc、Vp及びVsの各重みを比較して、上記シード表現語及び上記用語候補それぞれが最も高い重み（最大値（Vc,Vp,Vs））を付与された種類に属する名詞語であると決定するステップと、
　上記決定に従い、上記抽出された名詞語及び上記抽出された用語候補を上記決定された種類に関連付けて表示装置上に出力するステップと
　を含む。

　本発明はさらに、テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、コンピュータ・システムに、上記方法のいずれか一つに記載の各ステップを実行させることを含む。

　本発明の実施態様に従うコンピュータ・システムは、文書データから名詞語を抽出し、該名詞語を例えば３つの種類のうちのいずれの種類に属する名詞語であるかを決定し、該決定された種類に応じて上記抽出した名詞語を出力する。決定された種類に応じて上記抽出した名詞語を出力することは、利用者に文書の理解のための有用な手掛かりを与えることを可能にする。

技術文書、例えば要求文書及び仕様書に含まれている情報を示す。本発明の実施態様である、テキストセグメントの例を示す。本発明の実施態様である、名詞語の複数の種類の例を示す。本発明の実施態様である、コンピュータ・システムのブロック図を示す。本発明の実施態様である、シード表現の抽出を示すフローチャートを示す。本発明の実施態様である、シード表現の抽出を示すフローチャートを示す。本発明の実施態様である、用語候補を抽出する際及び重みを付与する際に使用するテキスト処理情報を示す。本発明の実施態様である、重みを付与する際に使用する種語後続語のリストの生成を示す。本発明の実施態様である、シード表現に対する重みの付与の例を示す。本発明の実施態様である、用語候補の抽出及び該用語候補に対する重みの付与の例を示す。本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。本発明の実施態様である、名詞語の種類の決定を示す。従来の手法による名詞語の抽出結果を示す。本発明の実施例において、シード表現が抽出された結果を示す。本発明の実施例において、テキスト処理情報を利用してシード表現に基づいて用語候補を抽出した結果を示す。本発明の実施例における、重みの計算過程を示す。従来の名詞語抽出による結果と、本発明の実施例である名詞語抽出の結果とを対比して示す。本発明の実施形態である、コンピュータ・ハードウェアのブロック図を示す。

　本発明の実施態様において、「文書データ」とは、文書の電子データであり、テキストセグメントを有していればどんな種類の文書データであってもよい。また、文書データは、例えば、ワードプロセッサソフトウェアで作成された文書データ、スプレッドシートソフトウェアで作成された文書データ、プレゼンテーションシートソフトウェアで作成された文書データ、又は図面及びテキストデータを含む文書データを含むがこれらに限定されない。
　「文書」は例えば、要求文書、仕様書、製品説明書及び設計文書を含む技術文書であるがこれらに限定されない。

　本発明の実施態様において、「テキストセグメント」は例えば、構造的に識別可能なセグメントであり、文書データの構成要素の最小単位でテキストを含むセグメントである。セグメントが前後左右のセグメントと結びつけられてもその意味が変わらない場合、該セグメントはテキストセグメントである。一方、セグメントが前後左右のセグメントと結びつけられてその意味が変わる場合、該セグメントはテキストセグメントでない。
　「構造的に識別可能なセグメント」は、下記図１Ｂに示されるように、句点で区切られるセグメント、タグ単位で区切られるセグメント、改行で区切られるセグメント、段落で区切られるセグメント、表のセルからなるセグメント、見出しセグメント又は図中のテキストセグメントを含むがこれらに限定されない。

　本発明の実施形態において、「名詞」の定義は、言語によって異なりうるが、日本語の場合、名詞は、自立語に属し、活用がない品詞のことをいう。名詞は、単名詞及び複合名詞を含む。
　日本語は、次のように分類される名詞を含む：固有名詞、代名詞、数詞（数名詞）、形式名詞及び普通名詞。
　英語は、次のように分類される名詞を含む：固有名詞、普通名詞、集合名詞、物質名詞、抽象名詞、可算名詞及び不可算名詞。

　本発明の実施形態において、「コーパス」とは、集積されたテキスト（文書）データである。コーパスの１つの例は、機械可読言語文書の集合体であり、電子化された自然言語の文章からなる巨大なテキストデータであるがこれに限定されない。本発明の実施形態において、コーパスは、上記文書データと同じ言語で記載されたコーパスを使用するので、上記文書データで用いられている言語によって変更する必要がある。また、効率的な用語の抽出を行うために、コーパスは、上記文書データの内容に従い、特定の分野のコーパス（以下、参照コーパスともいう）を使用するとよい。
　コーパスは、本発明の実施形態であるコンピュータ・システム内の記憶装置内若しくは該システムに接続された記憶装置内に格納され、又は該システムとネットワークを介して接続されたサーバ・システム、例えばデータベース・サーバ・システム、プロキシ・サーバ・システム、プロバイダー・サーバ・システムの記憶装置内に格納される。

　本発明の実施態様において、「テキスト処理情報」とは、テキスト処理、例えば構文解析により得られる情報である。「テキスト処理情報」は例えば、文書の構造的な情報、言語の表層的な情報、言語の品詞情報及び形態素解析による情報、並びに語の係り受け情報を含む。

　本発明の実施態様において、「第１のテキスト処理情報」は、特には、文書の構造的な情報、言語の表層的な情報、言語の品詞情報若しくは形態素解析による情報又はそれらの組み合わせである。但し、第１のテキスト処理情報として、語の係り受け情報を用いてもよい。

　文書の構造的な情報とは、あるテキストセグメントの文書データにおける位置情報、又はあるテキストセグメントが存在する文書中オブジェクトのクラス情報を含む。あるテキストセグメントの文書における位置情報は例えば、章などの階層構造を含む。あるテキストセグメントが存在する文書中オブジェクトのクラス情報は例えば、段落、タイトル及び表のセルを含む。
　下記に示す図３Ａでは、文書の構造的な情報は例えば、ステップ３０４の名詞語がテキストセグメント全体を占めているかどうかの判定において使用されている。

　言語の表層的な情報とは、文書データにでてくる生のテキスト情報であり、例えば正規形に置き換えるなどの処理を行わないテキスト情報である。生のテキスト情報とは、形態素解析を行わなくても、文字の種類などで分かる情報であり、例えば単語であれば出現した形式そのままである。例えば、「１」は数字であり、「あ」は平仮名であり、「■」は記号である。
　下記に示す図３Ｂでは、言語の表層的な情報が例えば、ステップ３０７の名詞語が括弧中にあるかどうかの判断、及びステップ３１４の文字種の用語としての適否の判断において使用されている。

　言語の品詞情報は、形態素解析により形態素への分割が行われ、さらに、形態素に対して品詞を付与する処理を行って初めて分かる情報である。
　下記に示す図３Ａでは、言語の品詞情報がステップ３０１の名詞語の抽出において使用されている。
　形態素解析による情報は、形態素解析によって得られる情報である。形態素解析とは、自然言語で書かれた文を、言語で意味を持つ最小単位である形態素に分割する技術である。
　下記に示す図３Ａでは、言語の品詞情報が例えば、ステップ３０１の名詞語の抽出、及びステップ３０３の名詞語が文書データ中の文中にあるかどうかの判断において使用されている。

　本発明の実施態様において、「第２のテキスト処理情報」、「第３のテキスト処理情報」及び「第４のテキスト処理情報」それぞれは、特には、語の係り受け情報である。語の係り受け情報は、自然文が所定の文法要件を満たすかどうかの情報である。但し、「第２のテキスト処理情報」、「第３のテキスト処理情報」及び「第４のテキスト処理情報」として、文書の構造的な情報、言語の表層的な情報、言語の品詞情報及び形態素解析による情報のいずれかを用いてもよい。

　語の係り受け情報は、例えば、下記図４Ａに示されている以下を挙げることができる。
　　　　１．所有格語に対して名詞語が係ること、又は名詞語が所有格である名詞語に係ること：
　　　　　　（例：名詞A（NounA）の（所有格）名詞B（NounB））。
　　　　２．名詞語が動詞語に直接的に係ること、又は動詞語の目的語となる名詞語に係ること：
　　　　　　（例：（名詞P（NounP）,名詞Q（NounQ）, 名詞R（NounR）, … ） →動詞X（VerbX）（動詞X（VerbX）に直接係り受けする））。
　　　　３．名詞を直接目的語して動詞語に係ること、又は動詞語の直接目的語なる名詞語に係ること：
　　　　　　（例：名詞K（Nounk）を（直接目的語）動詞（Verb）する）。

　本発明の実施形態において、「第２のテキスト処理情報」は、抽出された名詞語についての用語候補を抽出するステップにおいて用いられる。
　下記に示す図５Ｂでは、第２のテキスト処理情報が、名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語の抽出において使用される。
　なお、名詞語を直接目的語とする動詞語の同定において、言語の品詞情報及び形態素解析による情報が使用されている。

　本発明の実施形態において、「第３のテキスト処理情報」及び「第４のテキスト処理情報」は、抽出された名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、複数の種類のうちのどの種類に重みを付与するかの選択において使用される。
　下記に示す図５Ａでは、第３又は第４のテキスト処理情報が、シード表現siに対して所有格語が係る回数を調べるために使用されている。
　下記に示す図５Ｂでは、第３又は第４のテキスト処理情報が、用語候補xijに対して所有格語が係る回数を調べるために使用されている。
　下記に示す図５Ｃでは、第３又は第４のテキスト処理情報が、名詞語s'を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出するために使用されている。
　下記に示す図５Ｄでは、第３又は第４のテキスト処理情報が、シード表現のうち文書データ中の表の１行目に出現する用語候補tiに対して、対象文書又は参照コーパスの中に所有格語が係る回数を求めるために使用されている。
　下記に示す図５Ｅでは、第３又は第４のテキスト処理情報が、種語後続語の全てについて、tiのタイプと一致するかどうかを判断するために使用されている。

　　本発明の実施形態において、「複数の種類」とは、コンポーネント・タイプ（Vc）、パラメータ・タイプ（Vp）、及びスキーマ・タイプ（Vs）を含むが、これらに限定されない。また、これらに分類されない種類が別途設けられてもよい。また、これらと異なる名称である種類が設けられてもよい。
　コンポーネント・タイプ（Vc）は、コンポーネントに属する用語の度合いを表す。コンポーネントとは、例えば、モジュール（コンポーネント）名、機能（ファンクション）名を表す用語である。
　パラメータ・タイプ（Vp）は、パラメータを表す用語の度合いを表す。パラメータとは、例えば、属性名、データ名及びパラメータ名を表す用語であり、特定のコンポーネントのみが有する属性である。
　スキーマ・タイプ（Vs）は、スキーマを表す用語の度合いを表す。スキーマとは、データベースのスキーマになりうる用語であり、全てのコンポーネントが有する属性である。

　本発明の実施形態において、「名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるか」は、名詞語及び用語候補の各種類らしさを表す重みによって特徴付けられる。該重みは、第３のテキスト処理情報、さらに第４の言語処理情報を用いて、例えば、「●●の××」といった所有を表す言語表現に着目し、●●はコンポーネント・タイプ、××はパラメータ・タイプである可能性が高いとして重み付けを行う。
　本発明の実施形態において、「名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定する」とは、例えば複数の種類が上記コンポーネント・タイプ、パラメータ・タイプ、及びスキーマ・タイプの３種類である場合に、名詞語及び用語候補が３種類のうちのどの種類に属する名詞であるかを決定することである。

　本発明のテキストセグメントを有する文書データから用語を抽出する手法は、大きく分けて、次の工程を含む。
　工程１：第１のテキスト処理情報を使用して、文書データから、名詞語、すなわち抽出結果として表示されることが確かな表現（シード表現ともいう）を抽出する工程。
　第１のテキスト処理情報は、上記の通り、文書の構造的な情報、言語の表層的な情報、言語の品詞情報及び形態素解析による情報のいずれかを含む。この理由は、工程１では、シード表現である名詞語として確かな表現を得ることが必要であるために、より確実な情報である第１のテキスト処理情報を用いることが有用であるためである。
　シード表現は、下記に述べる用語候補とは異なり、最終的に抽出結果として表示される名詞語である。その意味で、シード表現は、「確かな表現」である。
　工程２：第２のテキスト処理情報を使用して、抽出された名詞語から新たな用語候補を抽出する工程。
　第２のテキスト処理情報は、上記の通り、語の係り受け情報を含む。この理由は、シード表現を拡張するために、条件の緩い情報である第２のテキスト処理情報を用いることが有用であるためである。
　工程３：抽出された名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第３のテキスト処理情報を用いて、複数の種類のうちのどの種類に重みを付与するかを少なくとも１つ選択し、シード表現及び用語候補それぞれに該選択された種類について重みを付与する工程。さらに、任意に、第４のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返す工程。
　第３のテキスト処理情報及び第４の言語処理情報は、上記の通り、語の係り受け情報を含む。この理由は、名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、条件の緩い情報である第３のテキスト処理情報、さらに第４の言語処理情報を用いることが有用であるためである。
　工程４：付与された重みに基づいて、抽出された名詞語及び用語候補が属する種類を決定する工程。特には、複数の種類の各重みを比較して、抽出された名詞語及び抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する工程。
　該決定によって、抽出された名詞語及び用語候補が、どの観点の名詞語に分類されるのかが決定される。
　工程５：抽出された名詞語及び用語候補を上記決定された種類に関連付けて出力する工程。

　以下、図面に従って、本発明の実施形態を説明する。本実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。

　図１Ａは、技術文書、例えばシステムの要求文書及び仕様書に含まれている情報を示す。
　該分析は、主に、文書内容を理解するために行われる。
　要求文書及び仕様書（１０１）には、典型的には、振る舞い（１０２）、構造（１０３）、要求品質（１０４）及び制約（１０５）に関する情報が記載されている。
　振る舞い（１０２）とは、要求文書又は仕様書で述べられている対象システムが有する状態及び遷移、並びに状態でのアクションを抽出することである。
　構造（１０３）とは、上記対象システムを構成するコンポーネントの構造又は関係と、該コンポーネントが有する機能とを抽出することである。
　要求品質（１０４）とは、数値ではそのままあらわされない、品質的な要求を抽出することである。
　制約（１０５）とは、諸元又は目標性能など、数値で決められた仕様又は制約関係を抽出することである。

　図１Ｂは、本発明の実施態様である、テキストセグメントの例を示す。
　文書データは、テキストセグメントを１又は複数含む。
　テキストセグメントは、構造的に識別可能なセグメントであり、例えば次の例を挙げることができる。
　・句点で区切られるセグメント（１０６）。文書データは、区点で区切られるセグメントを１又は複数有しうる（１０６Ａ～１０６Ｄ）。区点は、例えば、日本語の場合”。”であるが、他の言語の場合、該言語での区点である。
　・タグ単位で区切られるセグメント（１０７）。文書データは、タグ単位で区切られるセグメントを１又は複数有しうる（１０７Ａ～１０７Ｂ）。タグは、例えば、ＨＴＭＬ及びＸＭＬの記載法に従うタグを含みうる。タグは、通常、括弧（<　　　>）で示されるがこれに限定されない。括弧は、通常、開始タグ（<　　　>）及びその後に記述される終了タグ（</　　　>）の対からなる。
　・改行で区切られるセグメント（１０８）。文書データは、改行で区切られるセグメントを１又は複数有しうる（１０８Ａ～１０８Ｃ）。改行は、通常、文書データ内に表示されないが、コンピュータ・システムは改行コードによって、改行を認識しうる。
　・段落で区切られるセグメント（１０９）。文書データは、段落で区切られるセグメントを１又は複数有しうる（１０９Ａ～１０９Ｂ）。
　・表のセルからなるセグメント（１１０）。文書データは、複数のセルを有しうる（１１０Ａ～１１０Ｎ）。本発明の実施形態において、セルの大きさは抽出に関係ない。
　・見出しセグメント（１１１）。文書データは、通常、文書のタイトルである見出しセグメントを１つ有しうる（１１１Ａ）。また、文書データは、複数の見出し、例えば章毎に複数の見出しセグメントを有しうる。
　・図中のテキストセグメント（１１２）。図中に埋め込まれたテキストセグメントである（１１２Ａ～１１２Ｂ）。

　図１Ｃは、本発明の実施態様である、名詞語の複数の種類の例を示す。
　本発明の実施態様において、名詞語の「複数の種類」とは、文書データから抽出したい用語の観点に基づく分類である。
　図１Ｃに示されるように、技術文書において、該技術文書で用いられている用語は、３つの種類に分類されうる。技術文書では抽出したい情報の種類が固定されているために、該３つの種類を用意することで、文書に記載されている内容を理解する上で必要となる全ての情報を抽出することが可能になる。しかし、該分類は、言語、対象となる文書によって変更されうる。さらに、該分類は、利用目的によって、分類の名称の変更、さらにはさらなる細分化がおこなわれてよい。
　・コンポーネント
　コンポーネントとは、例えば、モジュール（コンポーネント）名、機能（ファンクション）名を表す用語である。コンポーネントは例えば、名詞語「電源ボタン」及び「速度調節機能」である。
　・パラメータ
　パラメータとは、例えば、属性名、データ名及びパラメータ名を表す用語であり、特定のコンポーネントのみが有する属性である。パラメータは例えば、名詞語「最大出力数」及び「最低速度」である。
　・スキーマ
　スキーマとは、データベースのスキーマになりうる用語であり、全てのコンポーネントが有する属性である。スキーマは、例えばテーブルカラムのカラムタイトルである。スキーマは例えば、名詞語「機能」、「構成要素」、「入力」及び「出力」である。

　図２は、本発明の実施態様である、コンピュータ・システムのブロック図を示す。
　コンピュータ・システム（２０１）は、第１の抽出部（２０２）、第２の抽出部（２０８）、重付部（２１０）、決定部（２１１）及び出力部（２１２）を含む。

　第１の抽出部（２０２）は、テキスト・位置情報抽出部（２０３）及びシード表現抽出部（２０４）を含む。
　テキスト・位置情報抽出部（２０３）は、文書解析技術を用いて、文書データ（２０５）中のテキスト及びその位置情報を得る。テキスト・位置情報抽出部（２０３）はまた、抽出されたテキスト及び位置情報の各データを記憶媒体、例えばデータベース（２０６）内に格納する。
　文書解析技術は、例えば、OpenOfficeで提供されている技術であり、該技術を用いて、テキスト及びその位置情報を得ることが可能である。
　テキストの取得は、例えば、テキストを形態素解析して行われる。形態素解析技術は、例えばChaSenで提供されている技術であり、該技術を用いて、名詞語が抽出される。例えば、文「コンポーネントが信号をアンテナより送った。」に対して形態素解析を行うと、次の結果が得られる。
　　コンポーネント　　：名詞
　　が　　　　　　　　：助詞
　　信号　　　　　　　：名詞
　　を　　　　　　　　：助詞
　　アンテナ　　　　　：名詞
　　より　　　　　　　：助詞
　　送った　　　　　　：動詞、正規形：送る
　位置情報は、例えば文書データがＸＭＬ形式で記述されている場合、XPathが使用されうる。ワードプロセッサソフトウェアで作成された文書データの場合、段落番号が位置情報である。例えば、文書データの場合、「段落(13)」である。スプレッドシートソフトウェアで作成された文書データの場合、セルの座標又は該セルの座標及びシート名が位置情報である。例えば、「シート(1)、セル(3,5)」である。プレゼンテーションシートソフトウェアで作成された文書データの場合、シート上の位置座標が位置情報でありうる。例えば、「45，22」である。
　文書データがＸＭＬ形式で記述されている場合、コンピュータ・システムは、該文書データを直接解析することによって位置情報を得られうる。文書データがＸＭＬ形式でない場合、コンピュータ・システムは、該文書データを作成したアプリケーションが位置情報を提供するようにさせてもよい。コンピュータ・システムは、例えば、アプリケーションが提供している、文書データを操作するためのＡＰＩ（マクロ言語）を利用することによって、位置情報を取得しうる。
　シード表現抽出部（２０４）は、上記記憶媒体（２０６）からテキストデータを読み出して、形態素解析技術を用いて、テキストデータ中の名詞語を抽出する。シード表現抽出部（２０４）はまた、抽出された名詞語の位置情報又は出現頻度に基づいてシード表現を抽出する。
　本発明の１つの実施態様では、シード表現抽出部（２０４）は、シード表現として、例えばテキストセグメント全体を占める名詞語を採用する。この理由は、例えば技術文書において、テキストセグメントに単独で記述される名詞語は、該技術文書において特徴を有する名詞語である可能性が高い、という観察に基づくためである。採用されたシード表現は、記憶媒体、例えばデータベース（２０７）内に格納される。なお、記憶媒体（２０６及び２０７）は、同一の記憶媒体であってよい。
　なお、従来の用語抽出の手法の多くは人出で選別された正解データをシード表現として用いている。一方、本発明では、コンピュータ・システム（２０１）がシード表現を自動的に選択する。

　第２の抽出部（２０８）は、テキスト処理情報を用いて、文書データ（２０５）から又は該文書データと同じ言語で記載されたテキストデータを含むコーパス（図示せず）から、シード表現（２０７）についての用語候補を抽出する。この理由は、シード表現（２０７）だけでは、十分な数の用語を収集できない可能性があるためである。抽出された用語候補は、記憶媒体、例えばデータベース（２０９）内に格納される。なお、記憶媒体（２０６、２０７及び２０９）は、同一の記憶媒体であってよい。

　重付部（２１０）は、シード表現（２０７）及び用語候補（２０９）が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、テキスト処理情報を用いて複数の種類のうちのどの種類に重みを付与するかを判断し、シード表現（２０７）及び用語候補（２０９）それぞれに、該選択された種類について重みを付与する。
　本例では、複数の種類は、コンポーネント・タイプ（Vc）、パラメータ・タイプ（Vp）及びスキーマ・タイプ（Vs）である。

　決定部（２１１）は、上記シード表現（２０７）及び上記用語候補（２０９）それぞれについて上記選択された複数の種類の重みを比較して、シード表現（２０７）及び用語候補（２０９）それぞれが最も高い重みが付与された種類に属する名詞語であると決定する。

　出力部（２１２）は、上記決定部（２１１）の決定に従い、上記シード表現（２０７）及び上記用語候補（２０９）を表示装置上に出力する。該出力において、シード表現（２０７）及び用語候補（２０９）が、上記決定された種類に関連付けて上記表示装置上に表示されてもよい。
　「種類に関連付けて表示」とは、上記決定された種類毎に異なる書式を用いて、上記シード表現（２０７）及び上記用語候補（２０９）を上記表示装置上に表示することを含む。代替的に、「種類に関連付けて表示」とは、また、図２Ｂの例では、コンポーネント、パラメータ及びスキーマというタイトルの下に上記シード表現（２０７）及び上記用語候補（２０９）をそれぞれ関連付けられて、コンポーネント用語リスト（２１３）、パラメータ用語リスト（２１４）及びスキーマ用語リスト（２１５）として表示装置上に出力することを含む。

　図３Ａ～図３Ｂは、本発明の実施態様である、シード表現の抽出を示すフローチャートを示す。
　コンピュータ・システム（２０１）は、テキスト・位置情報抽出部（２０３）を使用して、文書データ中のテキスト及び位置情報を既に抽出し、記憶媒体（２０６）内に格納している。

　図３Ａは、本発明の実施態様である、シード表現を抽出するステップのうち、各名詞語が文書データ中に存在する位置及び割合に基づいて各名詞語に重み付けをするステップである。
　コンピュータ・システム（２０１）は、シード表現抽出部（２０４）を使用して、下記のステップを実行する。
　ステップ３０１では、コンピュータ・システム（２０１）は、対象文書データ（２０５）から抽出されたテキスト及び位置情報のデータを記憶部（２０６）から読み出して、シード表現抽出部（２０４）に入力する。コンピュータ・システム（２０１）は、入力されたテキストについて形態素解析及び構文解析を行い、言語の品詞情報及び形態素解析による情報を使用して、１又は複数の名詞語を抽出する。抽出された名詞語を、k1, k2, …, kn とする。コンピュータ・システム（２０１）は、各名詞語の重みを０に設定する。
なお、名詞語が１つも抽出されなかった場合、シード表現を抽出する工程は、ステップ３０１で終了する。
　ステップ３０２では、コンピュータ・システム（２０１）は、k1, k2, …, knのうちから、未処理の名詞語を取り出してkとし、各 ki (i = 1, 2, …,n)の全てについて下記ステップ３０３の処理がおわるまで該操作を繰り返す。
　ステップ３０３では、コンピュータ・システム（２０１）は、言語の品詞情報を使用して、kが文書データ（２０５）中の文中にあるかどうかを調べる。ここで、文は、好ましくは主部及び述部を有するが、主部が省略されていてもよい。kが文中にある場合、ステップ３０７に進む。一方、kが文中にない場合、ステップ３０４に進む。
　ステップ３０４では、コンピュータ・システム（２０１）は、文書の構造的な情報を使用して、kがテキストセグメント全体を占めているかを調べる。kがテキストセグメント全体を占めている場合、ステップ３０５に進む。一方、kがテキストセグメント全体を占めていない場合、ステップ３０６に進む。
　ステップ３０５では、コンピュータ・システム（２０１）は、kにスコアＷを付与する。図３Ａの例では、名詞語k1にスコアＷが付与されている。
　ステップ３０６では、コンピュータ・システム（２０１）は、kにスコアＹを付与する。図３Ａの例では、名詞語k2にスコアＹが付与されている。
　ステップ３０７では、コンピュータ・システム（２０１）は、言語の品詞情報を使用して、kが括弧中にあり且つ括弧中の文字列全体を占めているかを調べる。kが括弧中にあり且つ括弧中の文字列全体を占めている場合、ステップ３０８に進む。一方、kが括弧中にない又は括弧中の文字列全体を占めていない場合、ステップ３０９に進む。
　ステップ３０８では、コンピュータ・システム（２０１）は、kにスコアＸを付与する。
　ステップ３０９では、コンピュータ・システム（２０１）は、kにスコアＺを付与する。図３Ａの例では、名詞語knにスコアＺが付与されている。
　ステップ３１０では、コンピュータ・システム（２０１）は、各ki(i = 1, 2, …, n)の全てについて処理が終わっている場合、図３Ｂのステップ３１１に進む。一方、コンピュータ・システム（２０１）は、各ki(i = 1, 2, …, n)の全てについて処理が終わっていない場合、ステップ３０２に戻る。

　スコアＷ、Ｘ、Ｙ及びＺの大小関係は、次の通りである；スコアＷ＞スコアＸ＞スコアＹ＞スコアＺ。
　スコアＷは、kが文中に存在せず、且つテキストセグメント全体を占めている場合に付与される。
　スコアＸは、kが文中に存在し、及びkが括弧中にあり且つ括弧中の文字列全体を占めている場合に付与される。
　スコアＹは、kが文中に存在せず、且つテキストセグメント全体を占めていない場合に付与される。
　スコアＺは、kが文中に存在し、及びkが括弧中にない又は括弧中の文字列全体を占めていない場合に付与される。

　図３Ｂは、本発明の実施態様である、シード表現の抽出をするステップのうち、抽出された名詞語の位置情報又は出現頻度に基づいて、シード表現を抽出するステップである。
　ステップ３１１では、コンピュータ・システム（２０１）は、k1, k2, …, knを集計し、同じ名詞語をまとめてsi (i = 1, 2, …, k)とする(n ≧ k)。同じ名詞語をまとめる際に、各kiに付与されている重みを足し合わせて、sの重みとする。図３Ｂの例では、s1の重みは、重みＷを有する名詞語及び重みＹを有する名詞語の重みを合計した重み（Ｗ＋Ｙ）である。同様に、s2の重みは、重みＹを有する名詞語及び重みＺを有する名詞語の重みを合計した重み（Ｙ＋Ｚ）である。なお、siは、該siと同じ名詞語がないために、その重みはＺのままである。
　ステップ３１２では、コンピュータ・システム（２０１）は、s1, s2, …, skのうちから、未処理の名詞語を取り出してsとし、各 si (i = 1, 2, …, n)の全てについて下記ステップ３１３の処理がおわるまで該操作を繰り返す。
　ステップ３１３では、コンピュータ・システム（２０１）は、各si(i = 1, 2, …, k)が文書データ内に出現する頻度、すなわち各siが文書データ内に存在する回数を求める。si(i = 1, 2, …, k)それぞれについて、出現する頻度が所定の範囲内である場合、ステップ３１４に進む。一方、出現する頻度が所定の範囲内でない場合、ステップ３１５に進む。所定の範囲とは例えば、[1, (s の最大頻度)×0.8]）である。このように設定する理由は、あまりにも多くの頻度で出ている語は、一般語として排除するためである。一般語とは、技術用語として抽出する必要があまりない語である。上記所定の範囲の開始を1から始まるのは、「少なくとも1回は出現している」語を拾うためである。出現の頻度が1回の語を排除することがユーザによって決められた場合、[2, xxx]にすることもあり得る。　ステップ３１４では、コンピュータ・システム（２０１）は、言語の表層的な情報を使用して、ｓの文字種の用語としての適否を判断する。適している場合、ステップ３１６に進む。一方、適していない場合、ステップ３１５に進む。sの文字種の用語としての適否は、例えば、sの文字種が数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に、適していないと判断する。
　文字種が数字、記号、平仮名のみである例は、下記の通りである；「120」、「■」、「のののの」。また、sの文字種が数字と記号のみの組み合わせである例は、下記の通りである；例えば文書データ内で文献の引用をする場合に、該文書データにおいて、「[1]では…」のような使い方をする場合である。この場合、[1]は、数字と記号のみの文字列であるが、名詞的に使用されている。
　また、上記「のみ」に該当する場合、形態素解析エラーの可能性も考えられる。すなわち、形態素解析のエラーにより、数値や記号が名詞語として検出されることがある。
　ステップ３１４は、上記「のみ」に該当する場合を除去することを目的としている。
　ステップ３１５では、ｓの重みを０に設定する。このことによって、所定の範囲内にない名詞語、及び用語として適切でない名詞語が排除される。
　ステップ３１６では、コンピュータ・システム（２０１）は、各 ki (i = 1, 2, …, n)の全てについて処理が終わっている場合、ステップ３１７に進む。一方、コンピュータ・システム（２０１）は、各si (i = 1, 2, …, k)の全てについて処理が終わっていない場合、ステップ３１２に戻る。
　ステップ３１７では、コンピュータ・システム（２０１）は、各 ki (i = 1, 2, …, n)について、所定の閾値以上の重みを有するｋをシード表現として出力する。所定の閾値は、対象文書データ、言語等によって異なりうる。閾値は、例えば、(s の最大重み)×0.5であり、該閾値以上のｓをシード表現（s1, s2, …, sn）とする。閾値は、対象とする文書データ又は言語によって変わりうる。コンピュータ・システム（２０１）は、出力されたｋをシード表現として記憶部（２０７）に格納する。

　図４Ａは、本発明の実施態様である、用語候補を抽出する際及び重みを付与する際に使用するテキスト処理情報を示す。
　該テキスト処理情報は、用語候補を抽出する前、若しくは重みを付与する前に用意される。
　ステップ４０１では、コンピュータ・システム（２０１）は、対象文書データ（２０５）に対して、形態素解析及び構文解析を適用する。
　対象文書データの内容が、次の通りであるとする。
　　　　エンジンの最大出力が関係する。
　　　　入力データをセンサーから読み込む。
　　　　センサーの感度を測定する。
　　　　ギアを制御し、処理結果を通知する。
　コンピュータ・システム（２０１）は、対象文書データを形態素解析することによって、テキストデータを得る。引き続き、コンピュータ・システム（２０１）は、該テキストデータについて、構文解析を行う。
　ステップ４０２では、コンピュータ・システム（２０１）は、上記テキストデータから、下記パターン１～３に適合するものを抽出する。
　　　　パターン
　　　　１．所有格語に対して名詞語が係ること、又は名詞語が所有格である名詞語に係ること：
　　　　　　名詞A（NounA）の（所有格）名詞B（NounB）
　　　　２．名詞語が動詞語に直接的に係ること、又は動詞語の目的語となる名詞語に係ること：
　　　　　　（名詞P（NounP）, 名詞Q（NounQ）,名詞R（NounR）, … ） → 動詞X（VerbX）（動詞X（VerbX）に直接係り受けする）
　　　　３．名詞を直接目的語して動詞語に係ること、又は動詞語の直接目的語なる名詞語に係ること：
　　　　　　名詞K（Nounk）を（直接目的語）動詞（Verb）する
　その結果、次の結果が得られる。
　　　前処理結果１（パターン１に適合する）
　　　　エンジン　→　の　→　最大出力
　　　　センサー　→　の　→　感度
　　　前処理結果２（パターン２に適合する）
　　　　最大出力　→　関係する
　　　　(入力データ, センサー)　→　読み込む
　　　　感度　→　測定する
　　　　ギア　→　制御する
　　　　処理結果　→　通知する
　　　前処理結果３（パターン３に適合する）
　　　　感度　　を　→　測定する
　　　　ギア　　を　→　制御する
　　　　処理結果　　を　→　通知する
　ステップ４０３では、コンピュータ・システム（２０１）は、前処理結果１、２及び３を記憶部に格納する。

　図４Ｂは、本発明の実施態様である、重みを付与する際に使用する種語後続語(S-Seed Subsequence)のリストの生成を示す。
　該種語後続語のリストは、用語候補を抽出する前、若しくは重みを付与する前に用意される。
　ステップ４０４では、スキーマになりうる用語（以下、種語（S-Seed）という）のリストがユーザから入力されることに応答して、コンピュータ・システム（２０１）は、ステップ４０５に進む。代替的に、種語のリストが参照コーパスから選択され、該選択された種語のリストがコンピュータ・システム（２０１）に入力される。種語の数は、例えば、１～５である。
　図４Ｂの例では、種語は、sd1、sd2及びsd3である。
　ステップ４０５では、コンピュータ・システム（２０１）は、対象文書データの全部又は一部分から又は参照コーパスから、名詞語が連続して種語に後接する後接語（a following term）と、種語が所有格語として係る語（N）とを抽出し、出現頻度を数える。種語が所有格語として係る語（N）とは、“種語のN”という表現中のNである。
　ステップ４０６では、コンピュータ・システム（２０１）は、上記出現頻度が１以上のものについて、後接、又は、種語が所有格語として係る語とペアにして、種語後続語のリストとして記憶する。
　コンピュータ・システム（２０１）は、種語後続語を記憶部に格納する。
　図４Ｂの例では、種語sd1、sd2、sd3について、種語のNとともに、後接語又は所有格として係る語のいずれかのタイプ及び出現頻度が示されている。

　図４Ｂの処理の具体例は、下記の通りである。
　文章又は参照コーパス中に「機能リスト」及び「機能の概要」という語があるとする。
　種語として“機能”が入力されることに応じて、「リスト」は種語「機能」の後接する語であるので、名詞語「リスト」が種語後続語リストに追加される。同様に、種語として“機能”が入力されることに応じて、「概要」は種語「機能」が所有格として修飾する語であるので、名詞語「概要」が種語リストに追加される。

　図５Ａ～図５Ｆは、本発明の実施態様である、テキスト処理情報を用いてシード表現についての用語候補の抽出並びにシード表現及び用語候補に対する重みの付与の例を示す。
　該例では、付与される重みは、スコアＡ、スコアＢ、スコアＣ及びスコアＤとする。該重みの値は、コンピュータ・システムに事前に与えられている。これら重みの大小関係は、スコアＡ＞スコアＢ＞スコアＣ＞スコアＤである。

　図５Ａは、本発明の実施態様である、シード表現に対する重みの付与の例を示す。
　ステップ５０１では、コンピュータ・システム（２０１）は、シード表現s1, s2, …, sn(i=1,2, …)から、未処理のsを取り出して、siとする。コンピュータ・システム（２０１）はまた、各SiのVc、Vp及びVsの重みを０に設定する。
　ステップ５０２では、コンピュータ・システム（２０１）は、シード表現siに対して、対象文書データ（２０５）又は参照コーパスにおいて所有格語が係る回数を調べて、fcとする。シード表現siに対して所有格語が修飾とは、“○○のsi”という表現である。ステップ５０２では、図４Ａの前処理結果１が使用されうる。
　ステップ５０３では、コンピュータ・システム（２０１）は、所定の閾値に対して、fc<thであるかどうかを判定する。閾値は例えば、siの出現頻度が、siの全出現頻度の10%である。すなわち、siが文書全体に10回出てくるならth=1回と定める。出現頻度は、文書の種類、言語等によって適宜変更されうる。fc<thである場合、ステップ５０４に進む。一方、fc>=th である場合、ステップ５０５に進む。
　ステップ５０４では、コンピュータ・システム（２０１）は、siのVcにスコアＡを付与する。図５Ａの例では、i=1の場合である。
　ステップ５０５では、コンピュータ・システム（２０１）は、siのVpにスコアＡを及びVsにスコアＢを付与する（Ａ＞Ｂ）。図５Ａの例では、i=2及びnの場合である。ここで、VpにVsよりも高いスコアを付与する理由は、スキーマに対する判定は下記図５Ｄにおいて行うこと、及びスキーマはテーブルカラムのカラムタイトルのような特殊なカテゴリーであるためにパラメータよりも現れやすいためである。
　ステップ５０６では、コンピュータ・システム（２０１）は、全てのsについて、上記ステップ５０１～５０５の処理が行われたかどうかを判断する。処理が行われていれば、図５Ｂのステップ５０７に進む。一方、処理が行われていなければ、ステップ５０１に戻る。全てのsiについて上記重み付けが終わるまで、上記ステップ５０１～５０５の処理が繰り返される。

　図５Ａの処理の具体例は、下記の通りである。
　文章中に「ボタンAの色」及び「ボタンBの色」という語があるとする。
　シード表現が、ボタンA”、“ボタンB”及び“色”である場合、“ボタンA”、“ボタンB”の各VcにスコアＡを付与し、一方“色”のVpにスコアＡを付与し且つVsにスコアＢを付与する。

　図５Ｂは、本発明の実施態様である、用語候補の抽出及び該用語候補に対する重みの付与の例を示す。
　ステップ５０７では、コンピュータ・システム（２０１）は、シード表現 s1, s2,… , sn から、Vc > 0 であるSnを随時取り出す。ここで、Snは、以下のステップ５０８～５１４の処理が行われていないものである。コンピュータ・システム（２０１）は、取り出したSnをSiとする。
　ステップ５０８では、コンピュータ・システム（２０１）は、対象文書データ（２０５）においてSiを直接目的語とする動詞語を、構文解析技術を使用して同定し、該動詞語と同じ動詞語の目的語となる名詞語xijを網羅的に抽出する。該抽出した名詞語が、用語候補である。代替的に、コンピュータ・システム（２０１）は、Siと同じ一文内に出現している名詞語xijを抽出してもよい。この理由は、名詞語xijがSiと同一文内にあることから対象文書データ全体との比較において抽出された名詞語の精度は低いものの、対象文書データ全体から抽出するよりも速度の点で有用である場合があるからである。さらには、対象文書データ全体から抽出することの方が同一文内から抽出するよりも精度が低い場合があるからである。
　ステップ５０８について例を挙げて説明する。Siが「AAA」という名詞語であり、文が「AAAがBのCCCを発信する」であるとする。ステップ５０８では、該文から、「AAA」と同様に「発信する」を修飾する「CCC」だけを抽出するが、代替的に、該文に出現しているAAA以外の名詞語「B」及び「CCC」両方を抽出してもよい。
　ステップ５０８では、図４Ａの前処理結果２が使用されうる。
　ステップ５０９では、コンピュータ・システム（２０１）は、x11, … , xnk から未処理のものを取り出して、xijとする。
　ステップ５１０では、コンピュータ・システム（２０１）は、xijに対して所有格語が係る回数を調べて、fcを求める。ステップ５１０では、図４Ａの前処理結果１が使用されうる。
　ステップ５１１では、コンピュータ・システム（２０１）は、所定の閾値（th）に対して、fc<thであるか否かを判定する。fc<thである場合、ステップ５１２に進む。一方、fc<thでない場合、ステップ５１３に進む。
　ステップ５１２では、コンピュータ・システム（２０１）は、ｘのVcにスコアＢを付与する。図５Ｂの例では、ij=11の場合である。
　ステップ５１３では、コンピュータ・システム（２０１）は、ｘのVpにスコアＢを付与し、且つVsにスコアＣを付与する（Ｂ＞Ｃ）。図５Ｂの例では、ij=12の場合である。ここで、VpにVsよりも高いスコアを付与する理由は、スキーマに対する判定は下記図５Ｄにおいて行うこと、及びスキーマはテーブルカラムのカラムタイトルのような特殊なカテゴリーであるためにパラメータよりも現れやすいためである。
　ステップ５１４では、コンピュータ・システム（２０１）は、全てのxについて、上記ステップ５０９～５１３の処理が行われたかどうかを判断する。処理が行われていれば、ステップ５１５に進む。一方、処理が行われていなければステップ５０９に戻る。全てのxijについて上記処理が終わるまで、上記ステップ５０９～５１３の処理が繰り返される。
　ステップ５１５では、コンピュータ・システム（２０１）は、全てのsについて、上記ステップ５０７～５１４の処理が行われたかどうかを判断する。処理が行われていれば、図５Ｃのステップ５１６に進む。一方、処理が行われていなければステップ５０７に戻る。全てのsnについて上記処理が終わるまで、上記ステップ５０７～５１４の処理が繰り返される。

　図５Ｂの処理の具体例は、下記の通りである。
　文章中に「ボタンAが光る」及び「電源ボタンが光る」という語があるとする。
　シード表現が、”ボタンA”である場合、“ボタンA”が修飾する動詞語は「光る」である。よって、該動詞語「光る」と同じ動詞語を修飾する他の名詞語「電源ボタン」が用語候補として抽出される。該抽出された用語候補「電源ボタン」についても、図５Ａに示した処理が行われる。

　図５Ｃは、本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。
　ステップ５１６では、コンピュータ・システム（２０１）は、シード表現s1, s2, …, sn及び用語候補x11,… , xnkから未処理のものを取り出してS’とする。
　ステップ５１７では、コンピュータ・システム（２０１）は、文書データ（２０５）においてS’を直接目的語とする動詞語を同定し、該動詞語と同じ動詞語の目的語となる名詞語NPiを抽出する。ステップ５１７の動詞語の同定では、図４Ａの前処理結果３が使用されうる。また、ステップ５１７の名詞語NPiの抽出では、図４Ａの前処理結果２が使用されうる。S’を直接目的語とする動詞語は、例えば、”S’を△△する”のうちの△△する”である。代替的に、コンピュータ・システム（２０１）は、名詞語NPiの抽出について、S’の直後の名詞語NPiを抽出するようにしてもよい。この理由は、直接目的語の格助詞「を」は動詞に近い位置で使われることが自然な日本語の中では多いので、直接目的語の文節の直後の名詞を取ると、同じ動詞語の目的語となる名詞句であることが多いからである。該代替の方法では、名詞語の取り逃がしもあるが、その分、ノイズも少ないために有用である。直接目的語の格助詞「を」が動詞に近い位置で使われることが自然な日本語の中では多いとは、例えば、「コンピュータを私が買う」よりも「私がコンピュータを買う」の方が多いということである。
　ステップ５１８では、コンピュータ・システム（２０１）は、名詞語NPiが数字を含むかどうかを判定する。名詞語NPiが数字を含む場合、ステップ５１９に進む。一方、名詞語NPiが数字を含まない場合、ステップ５２０に進む。
　ステップ５１９では、コンピュータ・システム（２０１）は、S’のVpにスコアＣを付与する。図５Ｃの例では、S’がシード表現Sn及び用語候補x12の場合である。
　ステップ５２０では、コンピュータ・システム（２０１）は、全てのS’について、上記ステップ５１６～５１９の処理が行われたかどうかを判断する。処理が行われていれば、図５Ｄのステップ５２１に進む。一方、処理が行われていなければステップ５１６に戻る。全てのシード表現s1, s2, …, sn及び用語候補x11,… , xnkについて上記処理が終わるまで、上記ステップ５１６～５１９の処理が繰り返される。

　図５Ｃの処理の具体例は、下記の通りである。
　文章中に「値Ａを入力する」及び「値Ｂを入力する」という語があるとする。
　シード表現又は用語候補が値Ａである場合、“値Ａ”が修飾する動詞語は「入力する」である。よって、該動詞語「入力する」と同じ動詞語を修飾する他の名詞語「値Ｂ」が収集される。しかし、値Ｂが数値を含むために、“値Ａ”のVpにスコアＣが付与される。

　図５Ｄは、本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。
　ステップ５２１では、コンピュータ・システム（２０１）は、シード表現のうち、表の１行目に出現する名詞語をt1, t2, …, tmとする。シード表現のうちから、未処理のものを取り出してtiとする。
　ステップ５２２では、tiに対して、対象文書データ（２０５）又は参照コーパスにおいて所有格語が係る回数を調べて、fcとする。tiに対して所有格語が係るとは、“○○のti”という表現である。ステップ５２２では、図４Ａの前処理結果１が使用されうる。
　ステップ５２３では、コンピュータ・システム（２０１）は、所定の閾値に対して、fc<thであるかどうかを判定する。閾値は例えば、tiの出現頻度が、tiの全出現頻度の10%である。すなわち、tiが文書全体に10回出てくるならth=1回と定める。fc<thである場合、ステップ５２４に進む。一方、fc>=th である場合、ステップ５２５に進む。
　ステップ５２４では、コンピュータ・システム（２０１）は、tiのVｓにスコアＤを付与する。図５Ｄの例では、i=mの場合である。
　ステップ５２５では、コンピュータ・システム（２０１）は、tiのVcにスコアＡを付与する。図５Ｄの例では、i=2の場合である。
　なお、スコアＣ＞スコアＤである。
　ステップ５２６では、コンピュータ・システム（２０１）は、全てのtiについて、上記ステップ５２１～５２５の処理が行われたかどうかを判断する。処理が行われていれば、図５Ｅのステップ５２７に進む。一方、処理が行われていなければ、ステップ５２１に戻る。全てのtiについて上記重み付けが終わるまで、上記ステップ５２１～５２５の処理が繰り返される。

　図５Ｅは、本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。
　ステップ５２７では、コンピュータ・システム（２０１）は、シード表現のうち、表の１行目に出現する名詞語をt1, t2, …, tmとする。シード表現のうちから、未処理のものを取り出してtiとする。
　ステップ５２８では、コンピュータ・システム（２０１）は、種語後続語の全てについて、tiのタイプと一致するかどうかを判定する。ステップ５２８では、図４Ｂの種語後続語が使用されうる。一致する場合、ステップ５２９に進む。一方、一致しない場合、ステップ５３０に進む。
　ステップ５２９では、コンピュータ・システム（２０１）は、tiのVsにスコアＣを付与する。図５Ｅの例では、i=1の場合である。
　ステップ５３０では、コンピュータ・システム（２０１）は、全てのtiについて、上記ステップ５２７～５２９の処理が行われたかどうかを判断する。処理が行われていれば、図５Ｆのステップ５３１に進む。一方、処理が行われていなければ、ステップ５２７に戻る。全てのtiについて上記重み付けが終わるまで、上記ステップ５２７～５２９の処理が繰り返される。

　図５Ｅの処理の具体例は、下記の通りである。
　文章又は参照コーパス中に「機能リスト」及び「機能の概要」という語があるとする。
　種語として“機能”が入力されることに応じて、「リスト」は種語「機能」の後接する語であるので、名詞語「リスト」が種語後続語リストに追加される。同様に、種語として“機能”が入力されることに応じて、「概要」は種語「機能」が所有格語として修飾する語であるので、名詞語「概要」が種語リストに追加される。
　次に、文書データ中に「ボタンＡの機能」及び「ボタンＢの機能」という語があるとする。上記種語「機能」のタイプと、「ボタンＡの機能」のうちの「機能」のタイプ及び「ボタンＢの機能」のうちの「機能」のタイプは一致する。
　よって、名詞語「機能」のVsにスコアＣを付与する。

　上記説明では、図５Ｄに記載のステップ（５２１～５２６）、引き続き図５Ｅに記載のステップ（５２７～５３０）の順に行われることを説明した。しかし、図５Ｄに記載のステップと図５Ｅに記載のステップの実行順序は逆でもよく、又は同時に行われてもよい。

　図５Ｆは、本発明の実施態様である、名詞語の種類の決定を示す。
　ステップ５３１では、コンピュータ・システム（２０１）は、シード表現s1, s2, …, sn及び用語候補 x11, … , xnkのそれぞれについて、Vc、Vp及びVsを比較し、最も高い重みを有する種類を採用し、シード表現及び用語候補の種類を決定する。
　図５Ｆの表に示した例では、シード表現及び用語候補の種類は下記の通りである。
　シード表現s1では、VcのみにスコアＡが付与されているので、s1の種類はVcであると決定される。
　用語候補x11では、VcのみにスコアＢが付与されているので、x11の種類はVpであると決定される。
　用語候補x12では、VpにスコアＢ＋Ｃが付与され、VsにスコアＣが付与されている。Ｂ＋Ｃ＞Ｃであるので、x12の種類はVpであると決定される。
　シード表現s2では、VpにスコアＡが付与され、VsにスコアＢ＋Ｃが付与されている。ここで、Ａ、Ｂ及びＣの各値は、言語、文書の種類によって異なりうる任意のパラメータであるので、スコアＢ＋Ｃ＞Ａであればs2の種類はVsであり、一方、スコアＡ＞Ｂ＋Ｃであればs2の種類はVpである。図５Ｆの例では、スコアＢ＋Ｃ＞Ａであることを前提としているので、s2の種類はVsであると決定される。
　シード表現snでは、VpにスコアＡ＋Ｃが付与され、VsにスコアＢ＋Ｄが付与されている。Ａ＋Ｃ＞Ｂ＋Ｄであるので、snの種類はVpであると決定される。
　ステップ５３２では、コンピュータ・システム（２０１）は、シード表現 s1, s2, …, sn及び用語候補 x11, … , xnkのそれぞれに対して、抽出された名詞語の重要度として、max（Vc, Vp, Vs）を付与する。代替的に、重要度は、各名詞語の出現頻度をＦとして、max（Vc, Vp, Vs）=Tとすると、例えば、出現頻度でフィルターをかけるために、logF*Tを重要度して求めてもよい。
　図５Ｆの表に示した例では、シード表現及び用語候補の重要度としてmax（Vc, Vp, Vs）を付与した例を示す。
　シード表現s1では、VcのみにスコアＡが付与されているので、s1の重要度はＡである。
　用語候補x11では、VcのみにスコアＢが付与されているので、x11の重要度はＢである。
　用語候補x12では、VpにスコアＢ＋Ｃが付与され、VsにスコアＣが付与されている。Ｂ＋Ｃ＞Ｃであるので、x12の重要度はＢ＋Ｃである。
　シード表現s2では、VpにスコアＡが付与され、VsにスコアＢ＋Ｃが付与されている。上記に述べたように、スコアＢ＋Ｃ＞Ａであればs2の重要度はＢ＋Ｃであり、一方、スコアＡ＞Ｂ＋Ｃであればs2の重要度はＡである。図５Ｆの例では、スコアＢ＋Ｃ＞Ａであることを前提としているので、s2の重要度はＢ＋Ｃである。
　シード表現snでは、VpにスコアＡ＋Ｃが付与され、VsにスコアＢ＋Ｄが付与されている。Ａ＋Ｃ＞Ｂ＋Ｄであるので、snの重要度はＡ＋Ｃである。

　図６Ａ～図６Ｅは、本発明を適用した実施例を示す。

　図６Ａは、従来の手法による名詞語の抽出結果を示す。
　図６Ａの文書は携帯電話の説明書であり、技術文書の一例である。該説明書は、図及び表を用いて、コンポーネント及び機能について説明している。
　従来の名詞語の抽出技術を用いると、説明書中の名詞語が全て抽出される。図６Ａでは、抽出された名詞語が、イタリック下線付きで示されている。

　図６Ｂは、本発明の実施例において、シード表現が抽出された結果を示す。
　コンピュータ・システム（２０１）は、上記説明書中のテキストセグメントを占める名詞語を、技術用語として確かなシード表現として抽出する。
　該例では、テキストセグメントは、図内の文字（図中のテキストセグメントである）、及び表の文字（表のセルからなるセグメントである）である。よって、図及び表中の「ディスプレイ」「ボタンＡ」及び「ボタンＢ」、並びに表中の「ID」、「名称」及び「色」がシード表現として抽出される。図６Ｂでは、シード表現が、イタリック下線付きで示されている。

　図６Ｃは、本発明の実施例において、テキスト処理情報を利用してシード表現に基づいて用語候補を抽出した結果を示す。
　コンピュータ・システム（２０１）は、例えば、「ボタンＡ…押す」という表現に基づいて、シード表現「ボタンＡ」が修飾する動詞語「押す」と同じ動詞語を修飾する語を収集する。上記説明書は、「ボタンＸ…押す」という文を有する。よって、コンピュータ・システム（２０１）は、文「ボタンＸ…押す」のうちの「ボタンＸ」を用語候補として抽出する。
　また、コンピュータ・システム（２０１）は、「ボタンＡの色は…」という表現に基づいて、「ボタンＡ」のコンポーネントとしてのスコアVcを付与する。
　このようにして、コンピュータ・システム（２０１）は、シード表現の抽出及び用語候補の抽出と各用語の種類毎に重み付けを行い、所定の種類（Vc,Vp,Vs）に関連付けて各用語を出力する。
　図６Ｃでは、Vc（コンポーネント）に分類される名詞語が斜線一重下線付きで、Vp（パラメータ）に分類される名詞語が囲み付き文字で、及びVs（スキーマ）に分類される名詞語が二重下線付きでそれぞれ示されている。

　図６Ｄは、本発明の実施例における、重みの計算過程を示す。
　該例では、各スコアの値が、スコアＷ=100、スコアＸ=70、スコアＹ=40、スコアＺ=10、スコアＡ=100、スコアＢ=70、スコアＣ=40、及びスコアＤ=10として、コンピュータ・システムに予め設定されている。
　名詞語「情報」、「電話」、「機能」及び「携帯端末」は、それらのスコアが所定の閾値未満であったために、シード表現とされていない。
　コンピュータ・システム（２０１）は、図３Ａ及び図３Ｂに示されるステップに従って、名詞語「ディスプレイ」、「ボタンＡ」、「ボタンＢ」、「色」、「ＩＤ」及び「名称」をシード表現として抽出する。それらの重みは、図６Ｄに示す通りである（夫々、「２Ｗ＋３Ｚ」、「２Ｗ＋２Ｚ」、「２Ｗ＋３Ｚ」、「Ｚ」、「Ｗ＋２Ｚ」、「Ｗ」及び「Ｗ」）。
　名詞語「ボタンＸ」は、図５Ｂに示されるステップによって得られる、シード表現からの用語候補である。
　コンピュータ・システム（２０１）は、上記シード表現及び上記用語候補それぞれについて、図５Ａ～図５Ｆに示されるステップに従い、Vc、Vp及びVsの各重みを付与する。そして、コンピュータ・システム（２０１）は、上記シード表現及び上記用語候補それぞれについて、max（Vc, Vp, Vs）を決定する。コンピュータ・システム（２０１）は、得られたmax（Vc, Vp, Vs）に基づいて、上記シード表現及び上記用語候補の種類を決定する。図６Ｄでは、網掛け部分が、各名詞語について決定された分類を示す。
　さらに、コンピュータ・システム（２０１）は、得られたmax（Vc, Vp, Vs）に基づいて、上記シード表現及び上記用語候補の重要度を求める。

　図６Ｅは、従来の名詞語抽出による結果と、本発明の実施例である名詞語抽出の結果とを対比して示す。
　従来の名詞語抽出による結果に示されるように、技術文書では、出現頻度の低い表現でも抽出すべき用語となりうる。従って、単純な頻度ベースによる抽出手法では、多くの用語が列挙されてしまう。一方、本発明の実施態様によれば、技術用語が複数の種類のうちのいずかれに属することが決定され、該決定された種類に関連付けて技術用語を出力することが可能である。それぞれの種類で分類された用語リストは、膨大の技術文書の内容を利用者が理解するための助けとなりうる。

　図７は、本発明の実施形態である、コンピュータ・ハードウェアのブロック図を示す。
　本発明の実施例に係るコンピュータ・システム（７０１）は、ＣＰＵ（７０２）とメイン・メモリ（７０３）と含み、これらはバス（７０５）に接続されている。ＣＰＵ（７０２）は好ましくは、３２ビットまたは６４ビットのアーキテクチャに基づくものであり、例えば、インテル社のＸｅｏｎ（商標）シリーズ、Ｃｏｒｅ（商標）シリーズ、Ａｔｏｍ（商標）シリーズ、Ｐｅｎｔｉｕｍ（商標）シリーズ及びＣｅｌｅｒｏｎ（商標）シリーズ、並びにＡＭＤ社のＰｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズ、Ｔｕｒｉｏｎ（商標）シリーズ及びＳｅｍｐｒｏｎ（商標）シリーズなどを使用することができる。バス（７０５）には、音声の入出力をおこなうためのインターフェースとして、サウンド・カード（７０４）が接続される。バス（７０５）にはまた、ディスプレイ・コントローラ（７０６）を介して、ＬＣＤモニタなどのディスプレイ（７０７）が接続される。ディスプレイ（７０７）は、そのコンピュータ（７０１）上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス（７０５）にはまた、ＩＤＥ又はＳＡＴＡコントローラ（７０８）を介して、ハードディスク又はシリコン・ディスク（７０９）と、ＣＤ－ＲＯＭ、ＤＶＤ又はＢｌｕ－ｒａｙドライブ（７１０）が接続されている。ＣＤ－ＲＯＭ、ＤＶＤ又はＢＤドライブ（７１０）は、必要に応じて、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又はＢＤからプログラムをハードディスク又はシリコン・ディスク（７０９）に導入するために使用される。バス（７０５）には更に、キーボード・マウスコントローラ（７１１）を介して、或いはＵＳＢコントローラ（図示せず）を介して、キーボード（７１２）及びマウス（７１３）が接続されている。

　通信インタフェース（７１５）は、例えばイーサネット（商標）プロトコルに従う。通信インタフェース（７１５）は、通信コントローラ（７１４）を介してバス（７０５）に接続され、コンピュータ（７０１）及び通信回線（７１６）を物理的に接続する役割を担い、コンピュータ（７０１）のオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワーク・インターフェース層を提供する。通信回線は、有線ＬＡＮ環境、或いは例えばＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎなどの無線ＬＡＮ接続規格に基づく無線ＬＡＮ環境であってもよい。

　以上、実施形態に基づき本発明を説明してきたが、本実施形態に記載されている内容は、本発明の一例であり、当業者なら、本発明の技術的範囲を逸脱することなく、さまざまな変形例に想到できることが明らかであろう。

Claims

　テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・システムであって、
　第１のテキスト処理情報を用いて、前記文書データから名詞語を抽出する第１の抽出部と、
　第２のテキスト処理情報を用いて、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記抽出された名詞語についての用語候補を抽出する第２の抽出部と、
　前記抽出された名詞語及び前記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第３のテキスト処理情報を用いて前記複数の種類のうちのどの種類に重みを付与するかを選択し、前記抽出された名詞語及び前記抽出された用語候補それぞれに、前記選択された種類について重みを付与する重付部と、
　前記付与された重みに基づいて、前記抽出された名詞語及び前記抽出された用語候補が属する前記種類を決定する決定部と、
　前記決定に従い、前記抽出された名詞語及び前記抽出された用語候補を前記決定された種類に関連付けて出力する出力部と
　を含む、前記コンピュータ・システム。
　前記重付部が、第４のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行い、
　前記決定部が、前記抽出された名詞語及び前記抽出された用語候補それぞれについて前記複数の種類の各重みを比較して、前記抽出された名詞語及び前記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する、請求項１に記載のコンピュータ・システム。
　前記第１のテキスト処理情報が、文書の構造的な情報、言語の表層的な情報、言語の品詞情報又は形態素解析による情報であり、前記第２のテキスト処理情報、前記第３のテキスト処理情報及び前記第４のテキスト処理情報が語の係り受け情報である、請求項２に記載のコンピュータ・システム。
　前記第１の抽出部が、
　前記文書データを形態素解析して名詞語（Ki（i=1,2,…,n））を抽出し、
　該抽出したKiが文書データ中に存在する位置及び割合の少なくとも１に従い、Ki夫々に重みを付与すること
　をさらに含む、請求項１に記載のコンピュータ・システム。
　前記Kiが文書データ中に存在する位置に従い重みを付与することが、Kiが文中にあるかどうか、テキストセグメント中にあるかどうか、又は括弧中にあるかどうかに従い重みを付与することであり、
　前記Kiが文書データ中に存在する割合に従い重みを付与することが、Kiがテキストセグメント中又は括弧中の文字列を占める所定の割合に従い重みを付与することである、請求項４に記載のコンピュータ・システム。
　前記Kiの前記位置が文中でない場合に、
　　該Kiが前記テキストセグメント全体を占めているかどうかを判断し、
　　　該Kiがテキストセグメント全体を占めている場合に、該KiにスコアＷを付与し、
　　　該Kiがテキストセグメント全体を占めていない場合に、該KiにスコアＹを付与し、
　前記Kiの前記位置が文中である場合に、
　　該Kiが該文中において括弧中にあり且つ括弧中の文字列全体を占めているかどうかを判断し、
　　　該Kiが括弧中にあり且つ括弧中の文字列全体を占めている場合に、該KiにスコアＸを付与し、
　　　該Kiが括弧中にない又は括弧中の文字列全体を占めていない場合に、該KiにスコアＺを付与し、
　ここで、スコアＷ＞スコアＸ＞スコアＹ＞スコアＺである、
　請求項４に記載のコンピュータ・システム。
　前記第１の抽出部が、
　前記Kiについて同じ名詞語をまとめてSi（i=1,2,…,k）（n≧k）とし、
　前記Siそれぞれについて各Kiに付与された重みに基づいて重みを付与し、
　前記Siの重みが所定の閾値以上のSiを抽出すること
　をさらに含む、請求項４に記載のコンピュータ・システム。
　前記第１の抽出部が、
　前記Siそれぞれの重みが所定の閾値の範囲内にあるかどうかを判断し、
　　該Siの重みが所定の閾値の範囲内にある場合に、
　　　該Siの文字種の用語としての適否を判断し、
　　　　適している場合に、該Siを抽出すべき名詞語とし、
　　　　適していない場合に、該Siの重みを０に設定し、
　　該Siの重みが所定の閾値の範囲内にない場合に、該Siの重みを０に設定する、
　請求項７に記載のコンピュータ・システム。
　前記Siの文字種の適否が、前記Siの文字種が、数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に適していないと判断される、請求項８に記載のコンピュータ・システム。
　前記第２の抽出部が、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、所定の文法的要件を満たす用語候補を抽出することを含む、請求項１に記載のコンピュータ・システム。
　前記所定の文法的要件を満たす用語候補を抽出することが、前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、前記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語を抽出することを含む、請求項１０に記載のコンピュータ・システム。
　前記重付部が、
　前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、前記抽出された名詞語及び前記抽出された用語候補それぞれに対して所有格語が係る回数を求めること、
　該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
　を含む、請求項１に記載のコンピュータ・システム。
　前記複数の種類が、コンポーネント・タイプ（Vc）、パラメータ・タイプ（Vp）、及びスキーマ・タイプ（Vs）であり、
　前記Vcが、コンポーネントに属する用語の度合いを表し、
　前記Vpが、パラメータを表す用語の度合いを表し、
　前記Vsが、スキーマを表す用語の度合いを表す、
　請求項２に記載のコンピュータ・システム。
　前記重付部が、
　　前記抽出された名詞語について求めた回数が所定の閾値よりも低い場合に、前記抽出された名詞語についての前記VcにスコアＡを付与し、
　　前記抽出された名詞語について求めた回数が所定の閾値以上である場合に、前記抽出された名詞語についての前記Vp及び前記VsにスコアＡを付与する、
　請求項１３に記載のコンピュータ・システム。
　前記重付部が、
　　前記抽出された用語候補について求めた回数が所定の閾値よりも低い場合に、前記抽出された用語候補についての前記VsにスコアＢを付与し、
　　前記抽出された用語候補について求めた回数が所定の閾値以上である場合に、前記抽出された用語候補についての前記Vp及び前記VsにスコアＢを付与し、
　ここで、スコアＡ>スコアＢである、請求項１４に記載のコンピュータ・システム。
　前記第２の抽出部が、
　前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出し、
　前記重付部が、
　該抽出した名詞語NPiが数字を含む場合に、前記抽出された名詞語についての前記VpにスコアＣを付与し、
　ここで、スコアＢ＞スコアＣである、請求項１５に記載のコンピュータ・システム。
　前記重付部が、
　前記抽出された名詞語のうち前記文書データのテキストセグメントの１行目に出現する名詞語tiに対して所有格語が係る回数を、前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて求めること、
　該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
　を含む、請求項１６に記載のコンピュータ・システム。
　前記重付部が、
　　前記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、前記名詞語tiに対応する前記抽出された名詞語についての前記VsにスコアＤを付与し、
　　前記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、前記名詞語tiに対応する前記抽出された名詞語についての前記VcにスコアＡを付与し、
　ここで、スコアＡ>スコアＢ＞スコアＣ＞スコアＤである、請求項１７に記載のコンピュータ・システム。
　前記重付部が、
　スキーマになりうる用語（S-seed）のリスト入力に応答して、前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、該S-seedに後接する名詞語と、該S-seedが所有格語として係る名詞語の頻度を求めること、
　該前記S-seedに後接する名詞語及び該S-seedが所有格語として係る名詞語のうち、前記頻度が１以上である名詞語をリストとして格納すること
　を含む、請求項１８に記載のコンピュータ・システム。
　前記重付部が、
　前記抽出された名詞語のうち前記文書データのテキストセグメントの１行目に出現する名詞語tiが前記リスト中に記憶された名詞語と一致する場合に、前記名詞語tiに対応する前記抽出された名詞語についての前記VcにスコアＤを付与する、
　請求項１９に記載のコンピュータ・システム。
　前記決定部が、前記抽出された名詞語及び前記抽出された用語候補それぞれについて、前記Vc、前記Vp及び前記Vsの各種類の重みを比較して、前記抽出された名詞語及び前記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する、請求項１３に記載のコンピュータ・システム。
　テキストセグメントを有する文書データから用語を抽出するための方法であって、
　第１のテキスト処理情報を用いて、前記文書データから名詞語を抽出し、該抽出した名詞語を記憶部に格納するステップと、
　第２のテキスト処理情報を用いて、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記抽出された名詞語についての用語候補を抽出し、該抽出した名詞を前記記憶部に格納するステップと、
　前記抽出された名詞語及び前記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第３のテキスト処理情報を用いて前記複数の種類のうちのどの種類に重みを付与するかを選択し、前記抽出された名詞語及び前記抽出された用語候補それぞれに、前記選択された種類について重みを付与し、該与えられた重みを前記記憶部に格納するステップと、
　前記付与された重みに基づいて、前記抽出された名詞語及び前記抽出された用語候補が属する前記種類を決定するステップと、
　前記決定に従い、前記抽出された名詞語及び前記抽出された用語候補を前記決定された種類に関連付けて表示装置上に出力するステップと
　を含む、前記コンピュータ・システム。
　前記与えられた重みを前記記憶部に格納するステップが、第４のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行うステップをさらに含み、
　前記決定するステップが、前記抽出された名詞語及び前記抽出された用語候補それぞれについて前記複数の種類の各重みを比較して、前記抽出された名詞語及び前記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定するステップをさらに含む、請求項２２に記載の方法。
　テキストセグメントを有する文書データから用語を抽出するための方法であって、
　形態素解析による情報及び言語の品詞情報を用いて、記憶部に格納された前記文書データから名詞語を抽出し、文書の構造的な情報及び言語の表層的な情報の少なくとも１を用いて前記抽出した名詞語から所定の要件を満たす名詞語（以下、シード表現）を抽出し、該シード表現を記憶部に格納するするステップと、
　第１の語の係り受け情報を用いて、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記シード表現についての用語候補を抽出し、該抽出した用語候補を前記記憶部に格納するステップと、
　前記シード表現及び前記用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第２の語の係り受け情報を用いて前記複数の種類のうちのどの種類に重みを付与するかを選択し、前記シード表現及び前記用語候補それぞれに、前記選択された種類について重みを付与し、該与えられた重みを前記記憶部に格納するステップであって、
　上記複数の種類が、コンポーネント・タイプ（Vc）、パラメータ・タイプ（Vp）、及びスキーマ・タイプ（Vs）であり、
　上記Vcが、コンポーネントに属する用語の度合いを表し、
　上記Vpが、パラメータを表す用語の度合いを表し、
　上記Vsが、スキーマを表す用語の度合いを表す、
　前記格納するステップと、
　第３の語の係り受け情報を用いて上記選択をすることと上記重みを付与することとを複数回繰り返すステップと、
　前記シード表現及び前記用語候補それぞれについて前記種類Vc、Vp及びVsの各重みを比較して、前記シード表現語及び前記用語候補それぞれが最も高い重み（最大値（Vc,Vp,Vs））を付与された種類に属する名詞語であると決定するステップと、
　前記決定に従い、前記抽出された名詞語及び前記抽出された用語候補を前記決定された種類に関連付けて表示装置上に出力するステップと
　を含む、前記方法。
　コンピュータに、請求項２３又は２４のいずれかに記載の方法の各ステップを実行させることを含む、コンピュータ・プログラム。