WO2020095655A1

WO2020095655A1 - 選定装置および選定方法

Info

Publication number: WO2020095655A1
Application number: PCT/JP2019/041114
Authority: WO
Inventors: 山田　剛史
Original assignee: 日本電信電話株式会社
Priority date: 2018-11-05
Filing date: 2019-10-18
Publication date: 2020-05-14
Also published as: US11971918B2; JP2020077054A; US20210383057A1

Abstract

算出部（１５ａ）が、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する。算出部（１５ａ）は、最後尾の単語が後続するという条件の下でこの最後尾の単語より前の単語が文書中に存在する確率である条件付確率を用いて、関連度合いを算出する。選定部（１５ｂ）が、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する。学習部（１５ｃ）が、選定された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。付与部（１５ｄ）が、学習された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係に基づいて文書中に所定のタグを付与する。

Description

選定装置および選定方法

　本発明は、選定装置および選定方法に関する。

　近年、非エンジニアが自然言語を用いて記載した設計書等の文書から、開発の要求条件に対する試験項目を自動的に抽出する技術が検討されている（特許文献１参照）。この技術は、例えば、機械学習（ＣＲＦ、Conditional　Random　Fields）の手法を用いて設計書の重要な記載部分にタグを付与し、タグが付与された部分から自動的に試験項目を抽出するものである。機械学習では、文書が形態素解析で単語単位に分解され、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向が学習される。

特開２０１８－０１８３７３号公報

　しかしながら、従来の技術は、文書に適切にタグを付与することが困難な場合があった。例えば、文書を単語単位に分解する際に、複数の名詞等の単語が結合されて意味を成す複合語まで単語単位に分解してしまうため、複合語による機械学習を行うことができず、学習結果の精度が低くなる場合があった。したがって、学習結果を用いて自動抽出された試験項目と、実際の開発で抽出された試験項目とでは、多数の不一致が生じる場合があった。

　本発明は、上記に鑑みてなされたものであって、適切な複合語を用いて、文書中に適切にタグを付与することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る選定装置は、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する算出部と、算出された前記関連度合いが所定の閾値より高い前記複合語候補を複合語として選定する選定部と、選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する学習部と、学習された前記位置関係に基づいて文書中に前記タグを付与する付与部と、を備えることを特徴とする。

　本発明によれば、適切な複合語を用いて、文書中に適切にタグを付与することが可能となる。

図１は、本実施形態の選定装置の処理概要を説明するための図である。図２は、本実施形態の選定装置の処理概要を説明するための図である。図３は、本実施形態の選定装置の処理概要を説明するための図である。図４は、本実施形態の選定装置の概略構成を例示する模式図である。図５は、算出部の処理を説明するための図である。図６は、学習フェーズにおける選定処理手順を示すフローチャートである。図７は、試験フェーズにおける選定処理手順を示すフローチャートである。図８は、選定プログラムを実行するコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［選定装置の処理概要］
　図１～図３は、本実施形態の選定装置の処理概要を説明するための図である。まず、図１に示すように、選定装置は、自然言語で書かれた設計書等の文書１を処理対象とする。選定装置は、学習フェーズでは、人手により、文書１中の開発の要求条件等を示すような重要な記載部分にタグが付与されたタグ付文書２を、教師データとして機械学習を行うことにより、文書１中のタグの付与位置を学習し、学習結果３を得る。

　また、選定装置は、試験フェーズでは、試験項目を抽出する試験項目抽出処理の対象とする文書１中に、学習フェーズで得られた学習結果３を用いて適切な位置にタグを付与してタグ付文書４とする。その後、選定装置は、このタグ付文書４のタグで示される部分から、試験項目を自動的に抽出する。

　具体的には、図２（ａ）に示すように、選定装置は、学習フェーズでは、重要な記載部分にタグが付与されている教師データを入力情報として、教師データでのタグ付与の傾向を確率統計上の計算により学習し、学習結果として出力する。例えば、選定装置は、文書を形態素解析で単語単位に分解し、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向を学習する。

　また、図２（ｂ）に示すように、選定装置は、試験フェーズでは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験項目抽出処理の対象の文書である試験データに対してタグを付与する。例えば、選定装置は、試験データの要求条件を示す記載部分に、要求条件が記載されていることを示す所定のタグを付与する。

　上記の学習フェーズにおいて、選定装置が文書を単語単位に分解する際、複数の単語が結合されて意味を成す複合語まで単語単位に分解してしまうと、複合語による機械学習を行えず、学習の精度が低下する場合がある。

　例えば、図３には、「サービス加入者の発呼時、サーバに接続できなかった場合には番号の変換が…」という自然言語の文書が、形態素解析で単語単位に分解された場合が例示されている。

　この文書は、例えば図中に斜体字で示すように、単語単位では「サービス」「加入」「者」と分解されてしまう。そうすると、選定装置は、名詞の複合語である「サービス加入者」による機械学習を行うことができない。同様に、この文書は、単語単位では「発」「呼」「時」と分解されてしまう。そうすると、選定装置は「発呼」または「発呼時」等の名詞の複合語による機械学習を行うことができない。

　一方、例えば、設計書では、「サービス加入者」や「発呼時」のような複合語を手掛かりにすれば、要求条件を示す記載部分を精度高く特定することが可能となる。したがって、選定装置は、このような複合語による機械学習を行うことにより、例えば、設計書の要求条件を示す記載部分へ、要求条件が記載されていることを示すタグを付与する学習の精度を向上させることができる。

　そこで、本実施形態の選定装置は、学習フェーズでは、試験フェーズに適切な学習結果を得るために、教師データから複合語を選定し、機械学習の対象とする。これにより、選定装置は、文書のタグを付与する記載部分を精度高く特定できるので、特定した記載箇所へのタグ付与を精度高く学習することができる。

　また、選定装置は、試験フェーズでは、試験データから複合語を選定し、学習フェーズでの学習結果に従って、複合語を用いて試験データのタグを付与する記載部分を特定し、特定した記載部分に所定のタグを付与する。

　これにより、選定装置は、例えば、試験データである設計書の要求条件を示す記載部分を、複合語を用いて精度高く特定し、特定した記載部分に、要求条件が記載されていることを示す所定のタグを精度高く付与することができる。その結果、選定装置は、適切な部分にタグが付与された試験データのタグで示される部分から、適切に試験項目を抽出することが可能となる。

　このように、選定装置は、適切な複合語を用いて、タグの付与位置を精度高く学習することができる。また、選定装置は、学習結果に従って、試験データの適切な位置にタグを付与する。その結果、選定装置は、試験データから適切に試験項目を抽出することが可能となる。

［選定装置の構成］
　図４は、本実施形態の選定装置の概略構成を例示する模式図である。図４に例示するように、選定装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、後述する選定処理に用いられる文書を管理する管理装置等と制御部１５との通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部１４には、後述する選定処理において、教師データのタグ付与の傾向を示す学習結果が記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図４に例示するように、算出部１５ａ、選定部１５ｂ、学習部１５ｃ、付与部１５ｄおよび抽出部１５ｅとして機能する。

　なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、抽出部１５ｅが、算出部１５ａ、選定部１５ｂ、学習部１５ｃおよび付与部１５ｄとは異なるハードウェアに実装されてもよい。

　さらに、付与部１５ｄが、算出部１５ａ、選定部１５ｂおよび学習部１５ｃとは異なるハードウェアに実装されてもよい。つまり、本実施形態では、学習フェーズと試験フェーズとの両方を選定装置が実行する場合を説明しているが、学習フェーズと試験フェーズとを別々の装置が実行するようにしてもよい。

　算出部１５ａは、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する。

　ここで、複合語とは、密接に関連して連続して文書に存在する複数の単語で構成されるものである。例えば、複合語とは、連続する名詞「サービス」「加入」「者」で構成される「サービス加入者」や、連続する名詞「発」「呼」「時」で構成される「発呼時」等である。

　なお、複合語を構成する単語は、名詞に限定されない。例えば、名詞「ユーザ」、助詞「の」、名詞「情報」で構成される「ユーザの情報」のように、複合語は、連続して文書に存在する異なる品詞の単語で構成されてもよい。

　そこで、算出部１５ａが、文書に連続して存在する複数の単語を複合語候補として選定する。また、算出部１５ａは、複合語候補を構成する単語間の関連度合いを算出する。そして、後述する選定部１５ｂが、複合語候補のうち、連続する単語間の関連度合いが高いものを複合語として選定する。

　具体的には、算出部１５ａは、入力部１１あるいは通信制御部１３を介して入力された文書を、形態素解析で単語に分割する。そして、算出部１５ａは、文書中で連続する単語を複合語候補として選定する。

　また、算出部１５ａは、選定した複合語候補を構成する単語間の関連度合いを算出する。例えば、算出部１５ａは、最後尾の単語が後続するという条件の下でこの最後尾の単語より前の単語が文書中に存在する確率である条件付確率を用いて、関連度合いを算出する。

　ここで、図５は、算出部１５ａの処理を説明するための図である。例えば、図５（ａ）にａ１で示すように、２つの連続する単語で構成される複合語候補が存在する確率は、２つ目の単語が後続するという前提条件ｘの下で１つ目の単語ｙが存在する条件付確率ｐ（ｙ｜ｘ）で表される。

　その場合に、２つの単語の関連度合いは、条件付確率ｐ（ｙ｜ｘ）で表される。または２つの単語の関連度合いは、次式（１）に示す自己相互情報量ＰＭＩ（ｘ，ｙ）で表されるものとしてもよい。

　上記式（１）は、ｐ（ｙ｜ｘ）を用いて、次式（２）のように変形することができる。

　ここで、次式（３）で表される情報量Ｉ_ｉを定義する。

　また、上記式（２）は、次式（４）のように変形することができる。

　すなわち、上記式（４）は、ＰＭＩ（ｘ，ｙ）は、ｙ単体が発生する情報量から、ｘとｙとが共起する場合の情報量を差し引いたものであることを示す。言い換えれば、自己相互情報量ＰＭＩ（ｘ、ｙ）が大きいということは、ｘとｙとが共起する場合の情報量が小さいこと、つまり、ｘとｙとが共起する確率が大きいことを意味する。従って、自己相互情報量ＰＭＩ（ｘ，ｙ）が大きい単語ｙを複合語の素性として選定することが、ｘと関連した学習に有効であることがわかる。

　このように、図５（ａ）にａ１で示した２つの単語で構成される複合語候補について２つの単語の関連度合いＰ_２が、条件付確率ｐ（ｙ｜ｘ）、または条件付確率ｐ（ｙ｜ｘ）を用いた上記式（４）により算出される。

　また、図５（ｂ）にｂ１で示すように、３つの連続する単語で構成される複合語候補が存在する確率は、上記した図５（ａ）にａ１で示した２つの連続する単語で構成される複合語候補ｙが、３つ目の単語が後続するという前提条件ｘの下で存在する条件付確率ｐ（ｙ｜ｘ）で表される。

　この場合に、３つの単語で構成される複合語候補の３つの単語の関連度合いＰ_３が、ｐ（ｙ｜ｘ）、または上記式（４）により算出される。

　同様に、ｎ個の連続する単語で構成される複合語候補のｎ個の単語の関連度合いＰ_ｎが、ｐ（ｙ｜ｘ）、または上記式（４）により算出される。

　選定部１５ｂは、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する。例えば、選定部１５ｂは、２つの連続する単語で構成される複合語候補について算出された関連度合いＰ_２が所定の閾値より高い場合に、この複合語候補を複合語として選定する。

　また、選定部１５ｂは、文書中で３以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された関連度合いのうち、該関連度合いが最も高い複合語候補を複合語として選定する。

　例えば、選定部１５ｂは、文書中で連続する３つの単語で構成される複合語候補について算出された関連度合いＰ_３より、前の２単語の関連度合いＰ_２の方が大きい場合には、Ｐ_２に対応する２つの単語で構成される複合語候補を複合語として選定する。

　また、選定部１５ｂは、文書中で４以上のｎ個の単語が連続しており、例えばＰ_３＞Ｐ_ｎ＞Ｐ_２である場合には、複合語候補のうち、Ｐ_３に対応する３つの連続する単語で構成される複合語候補を複合語として選定する。

　これにより、選定部１５ｂは、複合語候補のうち、密接に関連して連続して文書に存在する単語を複合語として選定することができる。

　学習部１５ｃは、選定された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。

　ここで、文書中には、記載内容に応じて所定のタグが付与される。例えば、設計書には、定義される要件を示す、Ａｇｅｎｔ、Ｉｎｐｕｔ、Ｉｎｐｕｔ　ｃｏｎｄｉｔｉｏｎ、Ｃｏｎｄｉｔｉｏｎ、Ｏｕｔｐｕｔ、Ｏｕｔｐｕｔ　ｃｏｎｄｉｔｉｏｎ、Ｃｈｅｃｋ　ｐｏｉｎｔ等のタグが付与される。

　Ａｇｅｎｔとは、ターゲットのシステムを示す。Ｉｎｐｕｔとは、システムへの入力情報を示す。Ｉｎｐｕｔ　ｃｏｎｄｉｔｉｏｎとは、入力条件を示す。Ｃｏｎｄｉｔｉｏｎとは、システムの条件を示す。Ｏｕｔｐｕｔとは、システムからの出力情報を示す。Ｏｕｔｐｕｔ　ｃｏｎｄｉｔｉｏｎとは、出力条件を示す。Ｃｈｅｃｋ　ｐｏｉｎｔとは、チェック箇所やチェック事項を示す。

　そこで、学習部１５ｃは、教師データについて、文書中の複合語を含む単語と文書中に付与されている所定のタグとの位置関係を学習する。例えば、学習部１５ｃは、「サービス加入者」や「発呼時」等の複合語を含む単語と、要求条件が記載されていることを示すタグとの位置関係を学習する。

　これにより、学習部１５ｃは、複合語を含む単語を用いて特定される、設計書の要求条件が記載された箇所等の文書の重要な記載部分への所定のタグの付与を学習する。学習部１５ｃは、学習結果として、例えば、文書中の複合語を含む単語の存在位置と所定のタグの付与位置との関係を少なくとも示すモデルを作成し、記憶部１４に記憶させる。なお、このモデルは、単語の出現頻度やタグの種別等の特徴を併せて学習させたものでもよい。学習の手法については特に限定されず、既存の技術が適用されればよい。

　このように、学習部１５ｃは、複合語を用いることにより、文書中のタグを付与する記載部分を精度高く特定できるので、特定した記載部分へのタグの付与を精度高く学習することができる。つまり、学習部１５ｃは、複合語による機械学習を行うことにより、文書中への所定のタグの付与位置の学習の精度を向上させることが可能となる。

　付与部１５ｄは、学習された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係に基づいて文書中に所定のタグを付与する。具体的には、付与部１５ｄは、試験フェーズにおいて、学習フェーズで得られた、記憶部１４に記憶されている学習結果を参照し、この学習結果に従って、複合語が含まれ得る試験データに対して所定のタグを付与する。

　例えば、付与部１５ｄは、学習部１５ｃが作成した、文書中の複合語を含む単語の存在位置と所定のタグの付与位置との関係を示すモデルに、試験データの複合語を含む単語とその存在位置とを入力し、所定のタグとその付与位置とを得る。これにより、付与部１５ｄは、試験データに所定のタグを付与することができる。

　このように、付与部１５ｄは、複合語を用いることにより、タグを付与する記載部分を精度高く特定し、特定した記載部分に所定のタグを付与することができる。これにより、付与部１５ｄは、精度高く試験データの適切な部分にタグを付与することができる。

　抽出部１５ｅは、タグが付与された試験データから、試験項目を抽出する。例えば、抽出部１５ｅは、付与部１５ｄによって開発設計書の要求条件のような文書の重要な記載部分に適切に付与されたタグを参照し、タグで示される部分について、同一または類似の部分の試験に関する統計情報を用いて、自動的に試験項目を抽出する。これにより、抽出部１５ｅは、自然言語で記載された試験データから適切な試験項目を自動的に抽出することができる。

［選定処理］
　次に、図６および図７を参照して、本実施形態に係る選定装置１０による選定処理について説明する。図６は、学習フェーズにおける選定処理手順を示すフローチャートである。図６のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

　まず、算出部１５ａが、文書中で連続する単語を複合語候補として選定する（ステップＳ１）。次に、算出部１５ａは、複合語候補を構成する単語間の関連度合いを算出する（ステップＳ２）。

　例えば、算出部１５ａは、最後尾の単語が後続するという条件ｘの下でこの最後尾の単語より前の単語ｙが文書中に存在する確率である条件付確率ｐ（ｙ｜ｘ）を用いて、関連度合いを算出する。ここで、関連度合いは、条件付確率ｐ（ｙ｜ｘ）、または上記式（４）で示される自己相互情報量ＰＭＩ（ｘ，ｙ）である。

　次に、選定部１５ｂが、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する（ステップＳ３）。また、選定部１５ｂは、文書中で３以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された関連度合いのうち、該関連度合いが最も高い複合語候補を複合語として選定する。

　例えば、文書中でｎ個の単語が連続しており、各個数の単語で構成される各複合語候補のそれぞれの関連度合いＰ_２、Ｐ_３、…、Ｐ_ｎのうち、Ｐ_３が最大である場合に、選定部１５ｂは、３つの連続する単語で構成される複合語候補を複合語として選定する。

　次に、学習部１５ｃが、選定された複合語を用いて、文書への所定のタグの付与位置を学習する（ステップＳ４）。すなわち、学習部１５ｃは、学習フェーズにおいて、教師データについて、選定された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。学習部１５ｃは、学習結果として、例えば、文書中の複合語を含む単語の存在位置と所定のタグの付与位置との関係を表すモデルを作成し、記憶部１４に記憶させる。

　また、図７は、試験フェーズにおける選定処理手順を示すフローチャートである。図７の処理において、ステップＳ１～Ｓ３の処理は、図６に示した処理と同様であるので、説明を省略する。なお、試験フェーズにおいては、ステップＳ１～Ｓ３の処理は省略されてもよい。

　ステップＳ５の処理では、付与部１５ｄが、学習フェーズで複合語を用いて学習された学習結果に従って、試験データにタグを付与する。すなわち、付与部１５ｄは、図６に示した学習フェーズで得られた学習結果である、文書中の複合語を含む単語と該文書中に付与された所定のタグとの位置関係に基づいて、試験データに所定のタグを付与する。例えば、付与部１５ｄは、記憶部１４を参照し、学習部１５ｃが作成したモデルに、試験データの複合語を含む単語とその存在位置とを入力し、所定のタグとその付与位置とを得る。

　これにより、一連の選定処理が終了する。その結果、選定装置１０は、精度高く試験データの適切な部分にタグを付与する。その後、抽出部１５ｅが、適切にタグが付与された試験データから、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、試験項目を抽出する。

　以上、説明したように、本実施形態の選定装置１０において、算出部１５ａが、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する。また、選定部１５ｂが、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する。そして、学習部１５ｃが、選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。また、付与部１５ｄが、学習された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係に基づいて文書中に所定のタグを付与する。

　これにより、選定装置１０は、密接に関連して連続して文書に存在する単語を複合語として適切に選定し、選定された複合語を用いて、タグを付与する文書の記載部分を精度高く特定できる。したがって、選定装置１０は、教師データについてタグの付与位置の傾向を高精度に学習することができる。

　また、選定装置１０は、この学習結果である教師データ中の複合語を含む単語と教師データ中に付与された所定のタグとの位置関係に基づいて、複合語が含まれ得る試験データに対して、タグを付与する文書の記載部分を精度高く特定し、所定のタグを付与することができる。このように、選定装置１０は、適切に選定した複合語を用いてタグの付与位置を学習し、自然言語で記載された試験データの適切な部分にタグを付与することが可能となる。

　また、その結果、抽出部１５ｅは、試験データの適切な部分に付与されたタグを参照し、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、高精度に適切な試験項目を抽出すること可能となる。このように、選定装置１０によれば、抽出部１５ｅが、自然言語で記載された試験データから適切な試験項目を自動的に抽出することが可能となる。

　また、算出部１５ａは、最後尾の単語が後続するという条件ｘの下でこの最後尾の単語より前の単語ｙが文書中に存在する確率である条件付確率ｐ（ｙ｜ｘ）を用いて、関連度合いを算出する。このように、選定装置１０は、文書中に関連して連続して出現する単語を適切に複合語として選定することができる。

　また、選定部１５ｂは、文書中で３以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された関連度合いのうち、関連度合いが最も高い複合語候補を複合語として選定する。これにより、選定装置１０は、より適切な複合語を選定することができるので、より高精度にタグ付与の機械学習を行うことが可能となる。

［プログラム］
　上記実施形態に係る選定装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、選定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の選定処理を実行する選定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の選定プログラムを情報処理装置に実行させることにより、情報処理装置を選定装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）などの移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）などのスレート端末などがその範疇に含まれる。また、選定装置１０の機能を、クラウドサーバに実装してもよい。

　図８は、選定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、選定プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した選定装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、選定プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、選定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、選定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１　文書
　３　学習結果
　１０　選定装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１４　記憶部
　１５　制御部
　１５ａ　算出部
　１５ｂ　選定部
　１５ｃ　学習部
　１５ｄ　付与部
　１５ｅ　抽出部

Claims

　文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する算出部と、
　算出された前記関連度合いが所定の閾値より高い前記複合語候補を複合語として選定する選定部と、
　選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する学習部と、
　学習された前記位置関係に基づいて文書中に前記タグを付与する付与部と、
　を備えることを特徴とする選定装置。
　前記算出部は、最後尾の単語が後続するという条件の下で該最後尾の単語より前の単語が文書中に存在する確率である条件付確率を用いて、前記関連度合いを算出することを特徴とする請求項１に記載の選定装置。
　前記選定部は、文書中で３以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された前記関連度合いのうち、該関連度合いが最も高い複合語候補を複合語として選定することを特徴とする請求項１に記載の選定装置。
　選定装置で実行される選定方法であって、
　文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する算出工程と、
　算出された前記関連度合いが所定の閾値より高い前記複合語候補を複合語として選定する選定工程と、
　選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する学習工程と、
　学習された前記位置関係に基づいて文書中に前記タグを付与する付与工程と、
　を含んだことを特徴とする選定方法。