JPWO2009020092A1 - Related information search system and related information search method - Google Patents
Related information search system and related information search method Download PDFInfo
- Publication number
- JPWO2009020092A1 JPWO2009020092A1 JP2009526445A JP2009526445A JPWO2009020092A1 JP WO2009020092 A1 JPWO2009020092 A1 JP WO2009020092A1 JP 2009526445 A JP2009526445 A JP 2009526445A JP 2009526445 A JP2009526445 A JP 2009526445A JP WO2009020092 A1 JPWO2009020092 A1 JP WO2009020092A1
- Authority
- JP
- Japan
- Prior art keywords
- unknown word
- related information
- searched
- category
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000014509 gene expression Effects 0.000 claims description 84
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 16
- 239000000463 material Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000013068 supply chain management Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003339 best practice Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
データ処理装置(1)は、ユーザにとって意味が分からない不明語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力する入力部(11)と、入力されたテキストデータに基づいて不明語を分類する不明語分類部(12)と、不明語の分類結果に基づいて不明語に関連する関連情報を検索する関連情報検索部(13)と、検索された関連情報を提示する関連情報提示部(14)とを備える。これにより、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。The data processing apparatus (1) includes an input unit (11) for inputting text data in which at least one of an unknown word whose meaning is unknown to the user and a known word known to the user are all specified, and the input text data An unknown word classification unit (12) that classifies unknown words based on the information, a related information search unit (13) that searches related information related to unknown words based on the classification result of the unknown words, and the retrieved related information And a related information presentation unit (14). This makes it possible to switch the search target and change the method for presenting the related information of the search result according to the type of unknown word without incurring costs.
Description
本発明は、関連情報検索システム及び関連情報検索方法に関し、特に、テキストデータに含まれるユーザにとって未知である未知語に対して、未知語に関連する関連情報を検索する関連情報検索システム及び関連情報検索方法に関する。 The present invention relates to a related information search system and a related information search method, and more particularly, to a related information search system and related information for searching related information related to an unknown word for an unknown word that is unknown to a user included in text data. It relates to the search method.
会議の際に、発言中や資料中に意味が分からない単語や表現が含まれるため、何について発言しているのかや、資料に何が書かれているのかが正確に理解できないことがある。その場合、意味が分からない単語や表現を、辞書、過去の会議の資料、又はインターネット上の情報から検索して関連情報を提示することができれば、会議内容の理解に大きな助けとなる。 During a meeting, words or expressions that do not make sense are included in statements or materials, so it may not be possible to understand exactly what is being said or what is written in the material. In that case, if words and expressions whose meanings are not known can be searched from a dictionary, past conference materials, or information on the Internet and related information can be presented, it will greatly help understanding of the content of the conference.
しかしながら、関連情報を提示するためには、意味が分からない語である不明語(未知語)を抽出し、辞書や過去の会議資料、インターネット上の情報等の複数の検索対象に対して検索を行い、検索結果から必要な関連情報を選び出す必要がある。この不明語に対する関連情報検索のための一連の作業は作業コストが高いので、意味が分からない不明語の関連情報を検索せずに分からないままにしておくことが多い。また、コストをかけて会議中に関連情報の検索を行おうとすると、会議に集中できず、会議の話題についていけない等の問題も生じる。 However, in order to present related information, an unknown word (unknown word) that is a word whose meaning is unknown is extracted, and a search is performed on a plurality of search objects such as a dictionary, past conference materials, and information on the Internet. It is necessary to select necessary related information from search results. Since a series of operations for searching related information for the unknown word is expensive, it is often left unrecognized without searching for related information of an unknown word whose meaning is unknown. In addition, when searching for related information during a conference at a high cost, problems such as being unable to concentrate on the conference and keeping up with the topic of the conference also arise.
この不明語に対する関連情報検索のための作業コストを低減するための関連する情報検索手段の一例が、特開2004−157897号(文献1)に記載されている。この文献1に記載された情報検索手段は、インターネット上に最近出現した新語を不明語とみなすことで、不明語の抽出を自動化している。また、自動抽出した不明語に対して関連情報を検索することで、作業コストを低減している。つまり、文献1に記載された方法では、インターネット上の検索語を既知語と未知語との2値で区別し、新語のみを未知語として自動抽出する。そして、その自動抽出した未知語を検索することで作業コストを低減している。
An example of related information search means for reducing the work cost for searching related information for this unknown word is described in Japanese Patent Application Laid-Open No. 2004-157897 (Document 1). The information search means described in this
また、特開平9−204418号(文献2)では、用語に対する利用者の理解度を履歴として蓄積し知識管理手段を用いて管理することで、利用者に対して用語の理解度に応じた関連情報を提供している。また、この文献2に記載された知識管理手段では、用語毎に理解度を履歴として記録しつづけ、関連情報を提供する毎に理解度を変化させることで、利用者の知識状態を管理している。 Also, in Japanese Patent Laid-Open No. 9-204418 (Document 2), the user's understanding level for terms is stored as a history and managed using knowledge management means, so that the user can be related according to the level of understanding terms. Information is provided. In addition, the knowledge management means described in this document 2 keeps recording the degree of understanding for each term as a history, and changes the degree of understanding each time related information is provided, thereby managing the knowledge state of the user. Yes.
文献1に記載された関連技術の問題点は、不明語を入力するコストを低減することができるものの、不明語入力後の関連情報検索や情報提示の精度を向上させることができないことである。その理由は、文献1に記載された関連技術では、新語ならば不明語であり、新語でなければ不明語でないという2値によって判定しているにすぎない。そのため、不明語の種類によって、検索対象や検索結果を絞り込んだり、検索結果のランク付けを行ったりすることができず、提示情報を変更することができないためである。
The problem with the related technology described in
例えば、特に、会議等で出てくる不明語の場合、単にユーザにとって新語であるため不明語である場合に限らず、過去に参照したことがあるにもかかわらずユーザが忘れてしまったために不明語となったような単語も多く含まれる。その場合、インターネット上の汎用的な情報を提示するのではなく、ユーザの記憶に近い、過去にアクセスした文書を提示できるようにすることが有効である。しかし、文献1に記載された関連技術では、ユーザが過去にアクセスした文書を提示することについては考慮されていない。
For example, in particular, in the case of an unknown word that appears in a meeting or the like, it is unknown because it is a new word for the user and is not limited to the unknown word, but has been forgotten by the user even though it has been referred to in the past. Many words that have become words are also included. In that case, it is effective not to present general-purpose information on the Internet but to present documents accessed in the past that are close to the user's memory. However, in the related technique described in
一方、不明語入力後の関連情報検索や情報提示の精度を向上できるようにする関連技術が、例えば、文献2に記載されている。文献2に記載された関連技術では、履歴として蓄積する利用者の理解度を利用して検索対象や検索結果を絞り込んだり、検索結果のランク付けを行ったりする。そのため、文献2に記載された関連技術を用いれば、不明語入力後の関連情報検索や情報提示の精度をある程度向上させることができる。しかし、文献2に記載された関連技術を用いる場合、利用者の理解度を求めるため、過去の利用者の理解度を蓄積して管理しなければならない。例えば、利用者に適切な関連情報を提供するために、システムは、過去の利用者の理解度を記憶する記憶装置を備えなければならず、利用者の理解度を履歴として管理するためのコストがかかる。また、理解度の蓄積が行われていないユーザに対しては、適切な関連情報を提供することはできない。 On the other hand, a related technique for improving the accuracy of related information search and information presentation after an unknown word is input is described in Document 2, for example. In the related technique described in Document 2, the search target and the search result are narrowed down or the search result is ranked using the user's understanding level accumulated as a history. Therefore, if the related technique described in Document 2 is used, the accuracy of related information search and information presentation after an unknown word is input can be improved to some extent. However, when the related technology described in Document 2 is used, in order to obtain the user's understanding level, the past user's understanding level must be accumulated and managed. For example, in order to provide relevant information appropriate for the user, the system must include a storage device that stores the degree of understanding of past users, and the cost for managing the degree of understanding of users as a history. It takes. In addition, appropriate related information cannot be provided to a user who has not accumulated the degree of understanding.
そこで、本発明は、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる関連情報検索システム及び関連情報検索方法を提供することを目的とする。 Therefore, the present invention provides a related information search system and a related information search method capable of switching a search target according to the type of unknown word and changing a method for presenting related information of a search result without incurring costs. With the goal.
本発明による関連情報検索システムは、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段と、テキスト入力手段により入力されたテキストデータに基づいて、未知語を分類する分類手段と、分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段と、検索手段により検索された関連情報を提示する提示手段とを備える。 A related information search system according to the present invention includes text input means for inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified, and text input by the text input means Classifying means for classifying unknown words based on data, search means for searching related information related to unknown words based on the result of classification of unknown words by the classifying means, and related information searched by the searching means are presented Presenting means.
本発明による関連情報検索方法は、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、入力されたテキストデータに基づいて、未知語を分類するステップと、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、検索された関連情報を提示するステップとを備える。 The related information search method according to the present invention includes a step of inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified, and the unknown data based on the input text data. The method includes a step of classifying words, a step of searching related information related to the unknown word based on the classification result of the unknown word, and a step of presenting the searched related information.
本発明によれば、未知語及び既知語の少なくとも一方が全て指定されたテキストデータに基づいて未知語を分類し、未知語の分類結果に基づいて未知語に関連する関連情報を検索するように構成されているので、未知語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。 According to the present invention, the unknown word is classified based on the text data in which at least one of the unknown word and the known word is all specified, and related information related to the unknown word is searched based on the classification result of the unknown word. Since it is comprised, the search object can be switched and the presentation method of the relevant information of a search result can be changed according to the kind of unknown word.
実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による関連情報検索システムの構成の一例を示すブロック図である。本実施形態では、関連情報検索システムは、会議や講演の発言や資料等に含まれる、聞き手若しくは読み手にとって不明な単語や表現に関連する情報を検索する。
Next, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of a related information search system according to the present invention. In the present embodiment, the related information search system searches for information related to words or expressions unknown to the listener or reader, which are included in the speech or material of a conference or lecture.
なお、本実施形態において、関連情報検索システムは、不明語からその意味や関連情報を検索する情報検索装置や、情報検索装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。また、関連情報検索システムは、関連情報を検索する機能をテレビ会議やWeb会議等を行う場合に応用した会議支援装置や、会議支援装置をコンピュータを用いて実現するためのプログラムといった用途にも適用できる。また、関連情報検索システムは、関連情報を検索する機能を各種学習情報を検索する場合に応用した学習支援装置の用途や、学習支援装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。また、関連情報検索システムは、関連情報を検索する機能を各種文章読解や外国語の翻訳を行なう場合に応用した読解支援装置の用途や、読解支援装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。 In the present embodiment, the related information search system can be applied to uses such as an information search device that searches the meaning and related information from unknown words, and a program for realizing the information search device using a computer. The related information search system is also applied to applications such as a conference support apparatus that applies a function for searching for related information when a video conference or a Web conference is performed, and a program for realizing the conference support apparatus using a computer. it can. In addition, the related information search system can be applied to a use of a learning support apparatus in which the function of searching for related information is applied when searching various learning information, or a program for realizing the learning support apparatus using a computer. . In addition, the related information search system includes a use of a reading support device that applies a function of searching related information when reading various texts and translating foreign languages, and a program for realizing the reading support device using a computer. Applicable to usage.
図1に示すように、関連情報検索システムは、プログラム制御により動作するパーソナルコンピュータ等のデータ処理装置1によって実現される。また、データ処理装置1は、入力部11と、不明語分類部12と、関連情報検索部13と、関連情報提示部14とを含む。これらの機能部は、それぞれ概略以下に示すように動作する。
As shown in FIG. 1, the related information retrieval system is realized by a
入力部11は、具体的には、プログラムに従って動作するデータ処理装置1のCPU、及びキーボードやマウス等の入力装置によって実現される。入力部11は、ユーザの操作に従って、ユーザにとって未知である未知語(以下、不明語ともいう)、又はユーザにとって既知である既知語が全て指定されたテキストデータを入力する機能を備える。入力部11は、不明語と既知語の両方が全て指定されたテキストデータを入力する機能を備えていてもよい。また、入力部11は、ユーザの操作に従って、不明語の検索指示を入力する機能を備える。
Specifically, the
本実施形態では、例えば、不明語の種類として、ユーザが全く理解できない分野の単語、ユーザの既知の分野であるがユーザにとって未知である未知語、正式名では理解できるが略語では理解できない語等がある。また、検索対象の不明語に対する関連情報として検索される情報には、略語の正式名称への言い換え辞書の辞書情報、単語の意味を記した辞書の辞書情報、過去に使われた関連資料、インターネット上の情報等がある。 In this embodiment, for example, as a type of unknown word, a word in a field that the user cannot understand at all, an unknown word that is a user's known field but unknown to the user, a word that can be understood by a formal name but cannot be understood by an abbreviation, etc. There is. In addition, information to be searched as related information for unknown words to be searched includes dictionary information of the paraphrase dictionary to the formal name of the abbreviation, dictionary information of the dictionary describing the meaning of the word, related materials used in the past, Internet There is information above.
また、テキストデータとは、例えば、会議資料の文書全体や、文書に含まれるページ、章、節、段落、文、一定の文字数の文字列である。また、テキストデータとは、例えば、ディスプレイ装置等に表示された表示画面内の文章、ユーザが指定した文書中や表示画面中の領域等の一定の範囲のテキストである。なお、テキストデータは、例えば、会議の発言の音声を音声認識したテキストであってよい。この場合、会議における発言全体の音声を音声認識したテキストであってもよく、特定の話者の発言の音声を音声認識したテキストであってもよい。また、一定時間内の発言の音声を音声認識したテキストであってもよい。 The text data is, for example, the entire document of the conference material, pages, chapters, sections, paragraphs, sentences, and a character string with a certain number of characters included in the document. The text data is, for example, text in a certain range such as a sentence in a display screen displayed on a display device or the like, a document specified by a user, or an area in the display screen. Note that the text data may be, for example, text obtained by voice recognition of speech of a conference. In this case, it may be a text obtained by voice recognition of the voice of the entire utterance in the conference, or a text obtained by voice recognition of the voice of a specific speaker. Moreover, the text which recognized the voice of the speech within the fixed time by voice recognition may be sufficient.
本実施形態では、入力対象のテキストデータは、ユーザの操作に従って、そのテキストデータに含まれる全ての語について、未知語又は既知語が予め指定されているものとする。なお、テキストデータは、会議資料等の文書全体又は一部について未知語又は既知語が指定されていてもよいし、複数の文書にまたがって含まれる文字や文字列を1つのテキストデータとみなして未知語又は既知語が指定されていてもよい。 In the present embodiment, it is assumed that, for the text data to be input, unknown words or known words are designated in advance for all words included in the text data in accordance with a user operation. The text data may be specified as unknown words or known words for all or part of the document such as the meeting material, or the character or character string included in a plurality of documents is regarded as one text data. An unknown word or a known word may be designated.
なお、テキストデータは、少なくとも、テキストデータに含まれている全ての語についてユーザによって予めチェックされていれば、未知語及び既知語の両方が予め指定されていてもよく、未知語又は既知語のいずれかが予め指定されていてよい。例えば、テキストデータにおいて未知語のみが指定されている場合、関連情報検索システムは、未知語と指定されている語以外の語を既知語とみなして処理を実行すればよい。また、例えば、テキストデータにおいて既知語のみが指定されている場合、関連情報検索システムは、既知語と指定されている語以外の語を未知語とみなして処理を実行すればよい。 In addition, as long as the text data is checked in advance by the user for at least all the words included in the text data, both unknown words and known words may be designated in advance. Either of them may be designated in advance. For example, when only an unknown word is specified in the text data, the related information search system may perform processing by regarding a word other than the word specified as an unknown word as a known word. Further, for example, when only a known word is specified in text data, the related information search system may perform processing by regarding a word other than a word specified as a known word as an unknown word.
また、入力部11は、文書中又は文書群中のユーザによって指定された範囲を1つのテキストデータとして入力してもよいし、文書又は文書群を所定区間毎に(例えば、1ページ毎に、1文書毎に)自動的に抽出して1つのテキストデータとしてもよい。
Further, the
不明語分類部12は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。不明語分類部12は、入力部11から不明語の検索指示及びテキストデータを入力すると、入力したテキストデータに基づいてユーザの知識を推定する機能を備える。また、不明語分類部12は、そのユーザの知識の推定結果に基づいて不明語を複数の種類に分類する機能を備える。
Specifically, the unknown
なお、不明語分類部12は、例えば、テキストデータ中に含まれる不明語の密度を示す不明語密度に基づいて、ユーザの知識を推定し不明語を分類する。また、不明語分類部12は、例えば、テキストデータ中に含まれるある不明語に対して、言い換え語が存在するか否かを判定し、その言い換え語も不明語であるか否かを判定することによって、ユーザの知識を推定し不明語を分類する。
The unknown
関連情報検索部13は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。関連情報検索部13は、不明語分類部12による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する機能を備える。この場合、関連情報検索部13は、不明語分類部12が求めた不明語の分類結果を用いて、不明語に対する検索対象の関連情報を選択する。そして、関連情報検索部13は、選択した関連情報の検索を行う。この場合、例えば、関連情報検索部13は、不明語の分類結果に基づいて、検索対象の関連情報を変更し、関連情報の検索を行う。なお、関連情報検索部13は、不明語に対して1つの関連情報を検索してもよいし、複数の関連情報を検索してもよい。
Specifically, the related
関連情報検索部13は、検索対象の関連情報として、例えば、予め蓄積する文書ファイルや辞書ファイル、インターネット上のWebサイトの情報等を検索する。また、関連情報検索部13は、検索対象の関連情報として、不明語の説明の詳細度を用いて、説明が詳細である文書ファイル、又は説明が簡単である文書ファイルを区別して検索してもよい。説明の詳細度として、関連情報検索部13は、例えば、不明語が文書の題名や章、節のタイトルに含まれる場合には、文章全体を詳細な説明として検索することができる。また、不明語に対して括弧書きで説明が含まれる場合や、不明語が1行で定義されている場合等には、その文書を簡単な説明として検索することができる。 また、関連情報検索部13は、例えば、辞書等の定義文の長さにより区別して、関連情報を検索してもよい。
The related
また、関連情報検索部13は、不明語の分類結果の組み合わせに対して検索対象を設定する所定のルールによって、検索対象の関連情報を設定してもよい。この場合、関連情報検索部13は、検索対象の関連情報を、ルールで指定した適切な検索対象の関連情報に決定することができる。
Further, the related
関連情報提示部14は、具体的には、プログラムに従って動作するデータ処理装置1のCPU、及びディスプレイ装置等の出力装置によって実現される。関連情報提示部14は、検索結果の関連情報を提示する機能を備える。この場合、例えば、関連情報提示部14は、関連情報検索部13が検索した関連情報を、ディスプレイ装置等の表示装置に表示する。なお、関連情報提示部14は、関連情報検索部13が検索した関連情報が複数ある場合には、所定のルールに従って、関連情報をランキングして表示してもよい。
Specifically, the related
なお、関連情報提示部14は、例えば、関連情報検索部13が検索した関連情報を、プリンタ等の印刷装置に出力するようにしてもよい。また、関連情報提示部14は、例えば、関連情報検索部13が検索した関連情報を電子データとして出力するようにしてもよい。
The related
また、本実施形態において、データ処理装置1の記憶装置(図示せず)は、テキストデータに含まれる不明語(未知語)に関連する関連情報を検索するための各種プログラムを記憶している。例えば、データ処理装置1の記憶装置は、コンピュータに、未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、入力したテキストデータに基づいて、未知語に対するユーザの知識及び未知語の関連分野に対するユーザの知識を推定することによって、未知語を分類するステップと、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、検索した関連情報を提示するステップとを実行させるための関連情報検索用プログラムを記憶している。この関連情報検索用プログラムは、磁気ディスクや光ディスクなどの、機械読み取り可能な記録媒体に記録された状態で提供することができる。インターネットなどの電気通信回線を通じて提供することもできる。
In the present embodiment, the storage device (not shown) of the
次に、動作について説明する。図2は、関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理の一例を示す流れ図である。図2に示すように、関連情報検索システムの入力部11は、まず、ユーザの操作に従って、未知語(不明語)又は既知語が全て指定されたテキストデータを入力する(ステップS10)。
Next, the operation will be described. FIG. 2 is a flowchart showing an example of processing in which the related information search system inputs text data and searches for related information related to an unknown word. As shown in FIG. 2, the
次に、不明語分類部12は、入力したテキストデータに基づいて、ユーザの知識を推定する。そして、不明語分類部12は、そのユーザの知識の推定結果に基づいて不明語を分類する(ステップS11)。
Next, the unknown word classification |
次に、関連情報検索部13は、不明語の分類結果に従って、検索対象の関連情報を決定し関連情報を検索する(ステップS12)。そして、関連情報提示部14は、検索した関連情報をディスプレイ装置等の表示装置に表示する(ステップS13)。
Next, the related
以上のように、本実施形態によれば、関連情報検索システムは、入力したテキストデータに基づいて不明語を分類する。そして、分類した不明語の種別に従って、検索対象の関連情報を変更したり、ランキングして表示したりする。そのため、不明語の分類に従って自動的に検索対象の不明語に対する関連情報を選択し、検索する関連情報をランキングすることができる。従って、ユーザに不明語に対する関連情報を提示するためのユーザの作業コストを削減することができる。 As described above, according to the present embodiment, the related information search system classifies unknown words based on the input text data. Then, the related information to be searched is changed or ranked and displayed according to the classified unknown word type. Therefore, it is possible to automatically select related information for the unknown word to be searched according to the classification of the unknown word, and rank related information to be searched. Therefore, it is possible to reduce the user's work cost for presenting relevant information for unknown words to the user.
また、本実施形態によれば、予めユーザの知識の履歴情報を蓄積しなくても、入力したテキストデータに基づいてユーザの知識を推定して関連情報を検索できるので、コストをかけることなく、関連情報を提供することができる。従って、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。 Moreover, according to the present embodiment, it is possible to estimate the user's knowledge based on the input text data and search related information without accumulating the user's knowledge history information in advance. Related information can be provided. Therefore, the search target can be switched and the method for presenting the related information of the search result can be changed depending on the type of the unknown word without incurring costs.
例えば、特開平9−204418号公報に記載された関連技術では、関連情報検索や情報提示の精度を向上させるために、過去のユーザの理解度(知識)を示す履歴情報をデータベース等に蓄積しなければならず、履歴情報を管理するためのコストや管理負担が大きい。これに対し、本実施形態によれば、過去のユーザの知識の履歴情報を蓄積する必要をなくすることができるので、コストをかけることなく、関連情報を提供することができる。 For example, in the related technique described in Japanese Patent Laid-Open No. 9-204418, historical information indicating the degree of understanding (knowledge) of past users is accumulated in a database or the like in order to improve the accuracy of related information search and information presentation. The cost and management burden for managing history information must be large. On the other hand, according to the present embodiment, it is possible to eliminate the need to accumulate past user knowledge history information, and thus it is possible to provide related information without incurring costs.
また、本実施形態によれば、過去の履歴情報によることなく、未知語又は既知語が指定されたテキストデータに基づいて関連情報を検索するので、未知語に限らず、ユーザが現在の段階で知りたい語に対しても関連情報を検索して提示することができる。例えば、現在の段階で知りたい語を未知語としてテキストデータ上で指定すれば、未知語に対する関連情報だけでなく、意味を再確認したい語等の現在の段階で知りたい語に対しても関連情報を検索して提示することができる。 In addition, according to the present embodiment, the related information is searched based on text data in which an unknown word or a known word is designated without using past history information. You can search and present related information for the words you want to know. For example, if the word you want to know at the current stage is specified on the text data as an unknown word, not only the related information for the unknown word but also the word you want to know at the current stage, such as the word whose meaning you want to reconfirm Information can be retrieved and presented.
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。なお、本実施形態では、第1の実施形態で示した関連情報検索システムのうち、不明語の分類の方法として、不明語密度に基づいて、ユーザの知識を推定し不明語を分類する場合を説明する。Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. In the present embodiment, in the related information retrieval system shown in the first embodiment, as a method of classifying unknown words, a case where the user's knowledge is estimated and unknown words are classified based on the unknown word density. explain.
図3は、第2の実施形態における関連情報検索システムの構成例を示すブロック図である。図3に示すように、本実施形態では、関連情報検索システムにおいて、不明語分類部12Aが不明語密度解析部121及びカテゴリ分類部122を含む点で、第1の実施形態と異なる。
FIG. 3 is a block diagram illustrating a configuration example of a related information search system according to the second embodiment. As shown in FIG. 3, the present embodiment is different from the first embodiment in that the unknown
不明語密度解析部121及びカテゴリ分類部122は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。不明語密度解析部121は、入力部11が入力したテキストデータに基づいて、テキストデータ中の不明語の数から、テキストデータ中に含まれる不明語の密度を示す不明語密度を計算する機能を備える。
Specifically, the unknown word
カテゴリ分類部122は、不明語密度解析部121が求めたテキストデータ中の不明語密度に基づいて、不明語を複数のカテゴリに分類する機能を備える。本実施形態では、不明語を不明語密度に基づいて、不明語密度が高いカテゴリ(第1のカテゴリ)と不明語密度が低いカテゴリ(第2のカテゴリ)とに分類する。不明語密度の高低は、例えば、不明語密度が所定の閾値より大きいか否かで区分できる。
The
本実施形態では、不明語密度による分類結果に基づいて検索対象の関連情報を選択することで、読み手(ユーザ)に不明語についての適切な説明を提供することができる。例えば、不明語分類部12Aは、不明語密度解析部121が求めた不明語密度が高ければ、テキストデータに含まれる文書の内容が、読み手(ユーザ)が詳しくない分野の内容であると判断できる。この場合、不明語分類部12Aは、不明語に対して詳細な説明を含む文章や、詳細な説明が書かれた専門用語辞書を、優先度を上げて検索対象の関連情報として選択する。そのようにすることで、読み手に詳しい説明を提供することができる。
In the present embodiment, by selecting relevant information to be searched based on the classification result based on the unknown word density, it is possible to provide the reader (user) with an appropriate explanation about the unknown word. For example, if the unknown word density obtained by the unknown word
また、不明語分類部12Aは、不明語密度解析部121が求めた不明語密度が低ければ、テキストデータに含まれる文書の内容が、読み手にとってある程度理解できる分野の内容であると判断できる。そのため、不明語分類部12Aは、不明語に対して簡単な説明を含む文章や、文書中の簡単な説明部分だけを、検索対象の関連情報として選択する。また、不明語分類部12Aは、略語辞書等の簡単な説明を、検索対象の関連情報として選択する。ここでいう「簡単な説明」は、上記の「詳細な説明」を所定量の説明とすると、その所定量よりも簡潔な説明と捉えることができる。
Further, if the unknown word density obtained by the unknown word
なお、不明語密度解析部121は、不明語密度として、不明語の数を文章中の全単語数で除算した値を求めてもよい。また、不明語密度解析部121は、テキストデータ中の不明語の数をそのまま不明語密度として利用してもよい。
The unknown word
次に、動作について図面を参照して説明する。図4は、第2の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。図4において、ステップS10の処理は、第1の実施形態で示した処理と同様である。 Next, the operation will be described with reference to the drawings. FIG. 4 is a flowchart showing a processing example in which the related information search system in the second embodiment inputs text data and searches for related information related to an unknown word. In FIG. 4, the process of step S10 is the same as the process shown in the first embodiment.
次に、不明語分類部12Aの不明語密度解析部121は、入力したテキストデータに基づいて、テキストデータの文字列中の不明語密度を計算する(ステップS111A)。次に、不明語分類部12Aのカテゴリ分類部122は、不明語密度解析部121が求めた不明語密度に基づいて、不明語を分類する(ステップS112A)。この場合、例えば、カテゴリ分類部122は、不明語密度解析部121が求めた不明語密度が所定の閾値より大きいか否かを判定する。
Next, the unknown word
不明語密度が高いと判断した場合には、関連情報検索部13は、不明語に対して詳細な説明を含む関連情報を検索する(ステップS121A)。また、不明語密度が低いと判断した場合には、関連情報検索部13は、不明語に対して簡潔な説明を含む関連情報を検索する(ステップS122A)。
When it is determined that the unknown word density is high, the related
なお、図4において、ステップS13の処理は、第1の実施形態で示した処理と同様である。 In FIG. 4, the process of step S13 is the same as the process shown in the first embodiment.
以上のように、本実施形態によれば、テキストデータ中の不明語密度に基づいて不明語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。 As described above, according to the present embodiment, unknown words are classified based on the unknown word density in the text data. Therefore, it is determined whether or not the contents of the text data are contents that can be understood by the user. Can do. Therefore, appropriate related information can be selected and presented depending on whether the content of the text data is in a field that can be understood by the user.
実施形態3.
次に、本発明の第3の実施形態について図面を参照して説明する。なお、本実施形態では、第1の実施形態で示した関連情報検索システムのうち、不明語の分類の方法として、ある不明語に対する言い換え語もユーザにとって不明語であるか否かに基づいて、ユーザの知識を推定し不明語を分類する場合を説明する。
Next, a third embodiment of the present invention will be described with reference to the drawings. In this embodiment, as a method of classification of unknown words in the related information search system shown in the first embodiment, based on whether a paraphrase for a certain unknown word is also an unknown word for the user, A case where the user's knowledge is estimated and unknown words are classified will be described.
図5は、第3の実施形態における関連情報検索システムの構成例を示すブロック図である。図5に示すように、本実施形態では、関連情報検索システムにおいて、不明語分類部12Bが言い換え表現既知判定部123及びカテゴリ分類部124を含む点で、第1の実施形態と異なる。また、関連情報検索システムが、略語辞書等の言い換え用辞書3を含む点で、第1の実施形態と異なる。
FIG. 5 is a block diagram illustrating a configuration example of a related information search system according to the third embodiment. As shown in FIG. 5, the present embodiment is different from the first embodiment in that the unknown
言い換え辞書3は、例えば、略語辞書やカタカナ語辞書等である。言い換え辞書3は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置に記憶される。また、例えば、言い換え辞書3は、データ処理装置1が内蔵するハードディスク装置に記憶されていてもよい。
The paraphrase
言い換え表現既知判定部123及びカテゴリ分類部124は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。言い換え表現既知判定部123は、記憶装置に記憶する言い換え辞書3に基づいて、不明語の言い換え語を抽出する機能を備える。
Specifically, the paraphrase expression known
言い換え表現既知判定部123は、例えば、テキストデータ中に含まれる語の中に、言い換え辞書3に含まれる語に合致するものがあるか否かを判断し、テキストデータ中に含まれる言い換え語を特定する。この場合、言い換え表現既知判定部123は、テキストデータ中に不明語として指定されている語のうち、言い換え語が存在するものを特定する。また、言い換え表現既知判定部123は、その不明語に対する言い換え語がテキストデータ中に含まれているか否かを判断する。その不明語に対する言い換え語が含まれていれば、言い換え表現既知判定部123は、その言い換え語についても不明語として指定されているか否かを判定する。そのようにすることによって、言い換え表現既知判定部123は、言い換え語がユーザにとって理解できる単語か、言い換え語も不明語であるかを判定することができる。
For example, the paraphrased expression known
カテゴリ分類部124は、言い換え表現既知判定部123による言い換え語が不明語であるか否かの判定結果に基づいて、不明語が言い換え語に置き換えることにより理解できる単語であるか、言い換えても不明な単語であるかを分類する機能を備える。すなわち、カテゴリ分類部124は、言い換え語が不明語であるか否かの判定結果に基づいて、不明語を、言い換え表現に置き換えることにより理解できる語のカテゴリ(第3のカテゴリ)と、言い換え表現に置き換えても理解できない語のカテゴリ(第4のカテゴリ)とに分類する。
The
関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語が言い換え語に置き換えることにより理解できる単語である場合には、不明語に代えて言い換え語の提示を行うことを優先する制御を行なう。そのように、言い換え語に置き換えて提示することによって、読み手が不明語について理解することができる。この場合、ユーザは用語の内容について理解しているにもかかわらず、不明語の表記に仕方によって既知の内容に直ちに結びつけられないだけだからである。
When the unknown word is a word that can be understood by replacing the unknown word with the paraphrase word based on the classification result of the unknown
また、関連情報検索部13Bは、不明語を言い換え語に言い換えても不明な単語である場合には、言い換え語に変換して表示するだけではなく、詳細な説明を含む関連情報を優先して表示する。そのようにすることによって、読み手が不明語について理解することができる。この場合、ユーザは単に語の表記がわからないのではなく用語の内容についてまったくわからない場合であるため、詳細な説明を含む関連情報を読んで始めて理解できる場合だからである。
In addition, the related
次に、動作について図面を参照して説明する。図6は、第3の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。図6において、ステップS10の処理は、第1の実施形態で示した処理と同様である。 Next, the operation will be described with reference to the drawings. FIG. 6 is a flowchart showing a processing example in which the related information search system in the third embodiment inputs text data and searches for related information related to an unknown word. In FIG. 6, the process of step S10 is the same as the process shown in the first embodiment.
次に、言い換え表現既知判定部123は、記憶装置に記憶する不明語の言い換え語を辞書から取得(抽出)する(ステップS111B)。また、言い換え表現既知判定部123は、取得した言い換え語に基づいて、テキストデータ中に含まれるある不明語に対する言い換え語が、そのテキストデータ中の文書や単語に含まれているか否か確認(判定)する(S112B)。テキストデータ中に言い換え語が含まれていると判断した場合には、言い換え表現既知判定部123は、さらに、その言い換え語も不明語であるか否かを判断する(ステップS113B)。
Next, the paraphrased expression known
不明語の言い換え語も不明語であると判定すると、カテゴリ分類部124は、その判定結果に基づいて、テキストデータ中に含まれる不明語を言い換え語に置き換えても、ユーザに理解できない単語であると分類する。そして、関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語に対する詳細な説明を含む関連情報を検索する(ステップS121B)。
If it is determined that the paraphrase word of the unknown word is also an unknown word, the
置き換え語が不明語ではないと判定すると、カテゴリ分類部124は、その判定結果に基づいて、テキストデータ中に含まれる不明語を言い換え語に置き換えることにより、ユーザに理解できる単語であると分類する。そして、関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語対する簡潔な説明を含む関連情報を検索する(ステップS122B)。
If it is determined that the replacement word is not an unknown word, the
なお、ステップS112Bでテキストデータ中に言い換え語が含まれていないと判断した場合には、ステップS123Bに移行し、関連情報検索部13Bは、第1の実施形態で示したステップS12と同様の処理に従って、関連情報を検索する(ステップS123B)。
If it is determined in step S112B that the paraphrase is not included in the text data, the process proceeds to step S123B, and the related
なお、図6において、ステップS13の処理は、第1の実施形態で示した処理と同様である。ただし、関連情報提示部14は、ステップS113Bで言い換え語が不明語でないと判断した場合には、簡潔な説明を含む関連情報とともに、関連情報として言い換え情報そのものを表示してもよい。
In FIG. 6, the process in step S13 is the same as the process shown in the first embodiment. However, if the related
以上のように、本実施形態によれば、不明語に対する言い換え語があるか否かを判断し、その言い換え語も不明語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。 As described above, according to the present embodiment, it is determined whether there is a paraphrase for the unknown word, and the unknown word is classified based on whether the paraphrase is also an unknown word. Appropriate related information can be selected and presented depending on whether there is a possible paraphrase.
次に、本発明の第1の実施例を図面を参照して説明する。なお、本実施例で示す関連情報検索システムは、第2の実施形態で示した関連情報検索システムに相当する。また、本実施例では、関連情報検索システムは、データ処理装置1としてパーソナル・コンピュータを用いて実現される。また、データ処理装置1は、出力装置としてディスプレイ装置を備えている。
Next, a first embodiment of the present invention will be described with reference to the drawings. The related information search system shown in this example corresponds to the related information search system shown in the second embodiment. In the present embodiment, the related information retrieval system is realized using a personal computer as the
関連情報検索システムは、ユーザの操作に従って、未知語(不明語)又は既知語が予め指定されたテキストデータを入力する。例えば、ユーザが、ディプレイ装置に表示される文書上でマウスクリック等の操作を行って不明語を指定することによって、関連情報検索システムは、その不明語を検索する。 The related information search system inputs text data in which an unknown word (unknown word) or a known word is designated in advance according to a user operation. For example, when the user designates an unknown word by performing an operation such as a mouse click on a document displayed on the display device, the related information search system searches for the unknown word.
テキストデータは、会議資料文書中の文字列や、会議の発言の音声認識結果の文字列である。ここで、テキストデータが会議資料文書中の文字列である場合には、文書全体や、文書に含まれるページ、章、節、段落、文、一定の文字数の文字列である。また、テキストデータは、ディスプレイ装置等に表示された表示画面内の文章、ユーザが指定した文書中や表示画面中の領域等の一定の範囲の文字列でもよい。 The text data is a character string in the conference material document or a character string of the speech recognition result of the conference speech. Here, when the text data is a character string in the conference material document, it is a character string of the entire document, a page, a chapter, a section, a paragraph, a sentence, or a certain number of characters included in the document. The text data may be a text string in a certain range such as a sentence in a display screen displayed on a display device or the like, a document specified by a user, or an area in the display screen.
また、対象文書が音声認識結果の文字列である場合には、会議全体の音声を音声認識した文字列であってもよく、特定の話者の発言の区間の音声を音声認識した文字列であってもよい。また、一定時間内の音声を音声認識した文字列であってもよく、会議の特定のスライドが表示されている期間等一定の範囲の音声認識結果の文字列でもよい。 In addition, when the target document is a character string of a speech recognition result, it may be a character string obtained by speech recognition of the speech of the entire conference, or a character string obtained by speech recognition of speech of a specific speaker's speech section. There may be. Further, it may be a character string obtained by voice recognition of a voice within a certain time, or may be a character string of a voice recognition result within a certain range such as a period during which a specific slide of a conference is displayed.
本実施例では、関連情報検索システムは、以下に示す例文1をテキストデータとして入力する。
In this embodiment, the related information retrieval system inputs the following
例文1「本システムは、業務ごとに異なるアプリケーションのマスタデータを統合する機能に加え、在庫回転率や納期遵守率、リードタイム誤差等のKPI(Key Performance Indicator )と呼ばれる経営指標を監視することで、ビジネスプロセスの遂行状況を的確に把握する機能を有しています。これにより、ビジネスプロセスにおける問題点の早期発見と迅速な対策、計画系システムへの素早いフィードバック、KPIを通した他社とのベンチマーキングとベスト・プラクティスに基づいた最適なビジネスプロセスのスムーズな導入・定着を実現いたします。」 Example 1 “This system monitors the management index called Key Performance Indicator (KPI) such as inventory turnover rate, delivery time compliance rate, lead time error, etc. in addition to the function to integrate master data of different applications for each business. Has a function to accurately grasp the execution status of business processes, thereby enabling early detection of problems in business processes and quick countermeasures, quick feedback to planning systems, and benches with other companies through KPI. We will ensure the smooth introduction and establishment of optimal business processes based on marking and best practices. "
例文1を読んだユーザは、例えば、テキストデータ中に登場する順に、「KPI」、「Key Performance Indicator 」、「ビジネスプロセス」、「KPI」、「ビジネスプロセス」、「ベンチマーキング」、「ベストプラクティス」、及び「ビジネスプロセス」の語を理解できなかったものとする。
The user who reads the
ユーザは、理解できなかった語を不明語として、システムに対して指定操作を行う。すると、関連情報検索システムは、ユーザの操作に従って、「KPI」、「ビジネスプロセス」、「KPI」、「ビジネスプロセス」、「ベンチマーキング」、「ベストプラクティス」、及び「ビジネスプロセス」が不明語であることが指定された例文1の文章をテキストデータとして入力する。
The user performs a designation operation on the system with the word that could not be understood as an unknown word. Then, in the related information search system, “KPI”, “Business Process”, “KPI”, “Business Process”, “Benchmarking”, “Best Practice”, and “Business Process” are unknown words according to the user's operation. The sentence of the
ここで、ユーザは、不明語「KPI」に対する関連情報を参照したい場合、「KPI」に対する関連情報を、システムに対して要求操作を行う。関連情報検索システムの入力部11は、ユーザの操作に従って、不明語「KPI」に対する関連情報の要求を受け付ける。すると、不明語分類部12Aは、入力したテキストデータに基づいて、不明語の分類を行う。
Here, when the user wants to refer to related information for the unknown word “KPI”, the user performs a request operation for related information for “KPI” to the system. The
まず、不明語密度解析部121は、入力したテキストデータに基づいて、不明語密度を計算する。例えば、不明語密度解析部121は、入力したテキストデータに対して形態素解析を行う。そして、不明語密度解析部121は、例えば、形態素解析によって抽出した文章中の単語(名詞句)が32語あり、そのうち不明語が8語であるとすると、不明語の数を全ての単語の数で除算して、不明語密度を8/32=0.25と計算する。
First, the unknown word
なお、不明語密度解析部121は、不明語密度の計算を行う場合、単語の数をカウントする処理で、テキストデータ中に同じ単語が複数指定されているときには、同じ単語を1つと数えてカウントしてもよい。例えば、不明語密度解析部121は、語「KPI」及び「ビジネスプロセス」については複数回指定されているのでまとめて、不明語の数を4語としてカウントし、文章中の全単語数を28語としてカウントする。そして、不明語密度解析部121は、不明語密度を5/23=0.178と計算してもよい。
The unknown word
また、不明語密度解析部121は、単語ではなく、テキストデータ中の理解ができない文の数と、テキストデータ中の全ての文の数とを利用して、不明語密度を計算してもよい。また、不明語密度解析部121は、テキストデータ中の内容が理解できない範囲の長さと文章の長さとに基づいて不明語密度を計算してもよい。なお、この場合、複合語や定型句の単語への分け方によって計算した不明語密度が変わることはない。
Further, the unknown word
また、不明語密度解析部121は、不明語密度の計算区間を、テキストデータ全体ではなく、ページや章、節、段落、文、一定の文字数、表示画面内の文章、ユーザが指定した領域等の一定の範囲に制限して、不明語密度を求めてもよい。また、不明語密度解析部121は、処理対象が話者の発言の音声を音声認識した結果であった場合には、不明語密度の計算区間を、特定の話者の発言の音声の区間や、一定時間内、会議の特定のスライドが表示されている期間等の一定の範囲に制限して、不明語密度を求めてもよい。
In addition, the unknown word
また、不明語密度解析部121は、テキストデータに含まれる全ての語をカウントして不明語密度を求めるのではなく、所定の品詞の語のみをカウントして不明語密度を求めるようにしてもよい。例えば、不明語密度解析部121は、テキストデータ中の名詞や動詞のみを抽出してカウントし不明語密度を求める等、品詞を考慮した不明語密度算出を行ってもよい。
Further, the unknown word
次に、カテゴリ分類部122は、不明語密度解析部121が計算した不明語密度に基づいて、不明語を分類する。例えば、カテゴリ分類部122は、不明語密度が所定の閾値より大きいか否かを判定する。この場合、カテゴリ分類部122は、不明語密度が事前に設定された閾値を超えたか否かを判定することで、不明語密度が高い不明語、不明語密度が低い不明語に分けることができる。例えば、カテゴリ分類部122は、不明語密度が所定の閾値より大きければ、不明語密度が高い不明語であると分類する。また、カテゴリ分類部122は、不明語密度が所定の閾値より大きくなければ、不明語密度が低い不明度であると分類する。
Next, the
また、カテゴリ分類部122は、不明語密度が高い及び低いの2つのカテゴリに不明語を分類するのではなく、3つ以上のカテゴリに分類してもよい。例えば、3つのカテゴリに分類する場合には、カテゴリ分類部122は、予め定められた2つの閾値を用いて、不明語を3つのカテゴリに分類する。例えば、カテゴリ分類部122は、不明語密度が第1の閾値より大きければ、不明語密度が高い不明語であると分類する。また、カテゴリ分類部122は、不明語密度が第1の閾値より大きくないが第2の閾値より大きければ、不明語密度が中レベルの不明語であると分類する。さらに、カテゴリ分類部122は、不明語密度が第2の閾値より大きくなければ、不明語密度が低い不明語であると分類する。
The
次に、関連文書検索部13は、不明語分類部12Aによる不明語分類の結果に基づいて、検索対象の不明語の関連情報に優先度をつけて情報検索を行う。例えば、関連情報検索部13は、予め各種文書ファイルや辞書ファイルを蓄積するデータベースを備える場合には、検索対象の不明語を含む関連情報をデータベースから抽出する。また、例えば、関連情報検索部13は、インターネット等の通信ネットワークを介して、各種Webサイト上で公開されている関連情報を要求し、各Webサイトを運営するサーバから受信する。
Next, the related
ここで、関連情報検索部13は、例えば、検索対象の不明語に対する関連資料文書(関連情報)として、次のような文書を検索し取得(抽出、受信)したものとする。
Here, for example, it is assumed that the related
(1)関連情報検索部13は、記述「KPI(重要業績評価指標)を比較すると...」を含む文書Aを取得したものとする。(2)関連情報検索部13は、記述「KPIとは」を含む章の見出しと、記述「本システムでは業績評価手法の1つであるKPIを指標として設定できます。KPIとは〜」を含む章の本文を有する文書Bを取得したものとする。
(1) It is assumed that the related
ここで、(1)の文書Aを取得した場合、不明語「KPI」に対して、直後に括弧で囲まれた名詞句が文書中に含まれる。この場合、この括弧内に含まれる語(本例では名詞句)で直前の不明語を説明していると考えられるため、関連情報検索部13は、この括弧内に含まれる名詞句を簡潔な説明とすることができる。
Here, when the document A of (1) is acquired, a noun phrase enclosed in parentheses immediately after the unknown word “KPI” is included in the document. In this case, it is considered that the immediately preceding unknown word is explained by the word contained in the parenthesis (in this example, a noun phrase), so the related
また、(2)の文書Bを取得した場合、文書の見出しに不明語「KPI」が含まれるため、見出し語に続く節で不明語についての説明が含まれていると考えられる。そのため、関連情報検索部13は、文書Bに含まれる章全体を詳細な説明とすることができる。
Further, when the document B of (2) is acquired, the unknown word “KPI” is included in the headline of the document. Therefore, it is considered that an explanation of the unknown word is included in a section following the headword. Therefore, the related
例文1に示すテキストデータを入力した場合であって、不明語分類部12が不明語密度が低いと判定した場合には、ユーザが不明語については知らなかったが、同じテキストデータ中に含まれるその他の単語についてはよく知っていると考えることができる。よって、ユーザは、そのテキストデータに記載されている内容の分野について知識があると考えられる。そのため、関連情報検索部13は、検索して抽出した関連情報のうち、不明語について簡潔な説明が含まれるものを提示することが適切であると判断し、(1)の文書Aを優先して検索結果とする。
When the text data shown in the
一方、不明語分類部12が不明語密度が高いと判定した場合には、ユーザがテキストデータ中の文章の各単語を全体的にあまり知らないため、ユーザがテキストデータに記載されている内容の分野について知識が少ないと考えられる。そのため、関連情報検索部13は、検索して抽出した関連情報のうち、不明語について詳細な説明が含まれるものを提示することが必要だと判断し、(2)の文書Bを優先して検索結果とする。
On the other hand, if the unknown
また、関連情報検索部13は、検索対象に対する関連情報として、例えば、(3)略語辞書から抽出した辞書情報や、(4)専門用語辞書から抽出した辞書情報等の各種辞書情報を取得してもよい。この場合、不明語分類部12が不明語密度が低いと判定した場合には、関連情報検索部13は、不明語に対する簡潔な説明を含む関連情報として、(3)の略語辞書から抽出した辞書情報を利用してもよい。また、不明語分類部12が不明語密度が高いと判定した場合には、関連情報検索部13は、不明語に対する詳細な説明として、(4)専門用語辞書から抽出した辞書情報を利用してもよい。
Further, the related
(3)略語辞書とは、略語の元になった語句を説明した辞書である。略語辞書を用いる場合、関連情報検索部13は、例えば、略語「KPI」を説明した情報として、「key performance indicator 」という辞書情報を抽出する。また、(4)専門用語辞書とは、単語の意味について詳細に説明した辞書である。専門用語辞書を用いる場合、関連情報検索部13は、例えば語「KPI」を説明した情報として、「企業目標やビジネス戦略を実現するために設定した具体的な業務プロセスをモニタリングするために設定される指標(業績評価指標:performance indicators)といい、その中で特に重要なものを指す。...」という辞書情報を抽出する。
(3) The abbreviation dictionary is a dictionary that explains the phrase that is the source of the abbreviation. When the abbreviation dictionary is used, the related
また、前述したように、関連文書として(1)文書A及び(2)文書Bを抽出した場合、関連情報検索部13は、不明語分類部12Aによって不明語密度が低いと判断されたとすると、不明語に対する簡潔な説明である(1)の文書Aを優先して検索結果とする。この場合、文章Aを優先して検索結果とするために、関連情報検索部13は、予め文書Aに対する優先度を設定するようにすればよい。関連情報検索部13は、検索エンジンを用いた関連情報検索において、検索した各関連情報をランキングしスコア値を求める。そして、関連情報検索部13は、求めたランキングのスコア値に優先度を加算して、さらに検索対象の不明語に対する関連情報をランキングすればよい。
Further, as described above, when (1) document A and (2) document B are extracted as related documents, the related
なお、ここで、インターネット上のWeb情報の検索等を行って関連情報を検索する場合、その検索技術については、既存の検索技術を用いることとする。 Here, when searching related information by searching Web information on the Internet or the like, an existing search technique is used.
例えば、文書Aと文書Bとについて検索エンジンを用いて検索した際のスコア値がともに+10であった場合を説明する。この場合、例えば、優先度を付加する前の各検索関連情報のランキングのスコア値として、関連情報検索部13は、図7Aに示すランキングのスコア値を得る。
For example, a case will be described in which the score values when searching for the documents A and B using the search engine are both +10. In this case, for example, the related
関連情報検索部13は、不明語に対する簡潔な説明である文書Aに対して優先度+5が与えられているとすると、合計のスコア値を+15と求め、図7Bに示すように、文書Aを文書Bより上位にランキングする。そして、関連情報提示部14は、関連情報検索部13の検索結果に基づいて、ディスプレイ装置等の表示装置に、文書Aをランキングの上位に表示する。
If the priority level +5 is given to the document A which is a concise explanation of the unknown word, the related
なお、単純に優先度をスコア値に加算する場合を示したが、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングを、優先度と検索エンジンのスコア値とをパラメータとして計算で求めてもよい。また、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングとして、優先度の順に、単に検索対象の不明語に対する関連情報の検索結果を並べてもよい。さらに、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングを、優先度を検索エンジンのスコア計算のパラメータとして計算して求めてもよい。
Although the case where the priority is simply added to the score value is shown, the related
そして、関連文書提示部14は、関連情報検索部13が求めたランキング順に、不明語に対する関連情報の検索結果を、ディスプレイ装置等の表示装置上に表示する。
And the related
また、ユーザが特定のグループに所属している場合、関連情報検索システムは、そのグループの他のメンバがその分野に詳しいか否かを推定し、その推定結果をユーザに対して適用して関連情報を検索してもよい。これは、同じグループのメンバとユーザとは、同じ分野の知識を持っていると考えられるためである。 In addition, when the user belongs to a specific group, the related information retrieval system estimates whether other members of the group are familiar with the field, and applies the estimation result to the user to determine the relationship. Information may be searched. This is because members of the same group and users are considered to have knowledge in the same field.
ここで、グループとは、ユーザが所属する部署や、参加プロジェクト、出席した会議等を指す。例えば、先のユーザが会議に参加している場合に、同じ会議の出席者で例文1を読んでいる参加者がいるものとする。このとき、他の出席者もこの関連情報検索システムを利用しており、ユーザは、他の参加者が入力操作したテキストデータも参照できるものとする。
Here, the group indicates a department to which the user belongs, a participating project, a meeting attended, or the like. For example, it is assumed that when the previous user is participating in a conference, there is a participant who is reading the
関連情報検索システムの不明語分類部12Aは、ユーザ以外の他の出席者の入力操作に従って入力したテキストデータに基づいて、不明語が他の出席者にとって不明語密度が高い語であるか、低い語であるかに分類することができる。他の出席者が例文1について不明語密度が高かった場合には、他の出席者と知識が同等であると考えられるユーザにとって、不明語に対する詳細な説明を含む関連情報の提示が必要な語である可能性がある。そのため、関連情報検索部13は、(2)の文書Bの詳細な説明を含む文書の優先度を+3としてスコア値に加算し、図7Cに示すように、合計のスコア値を+13と求める。
The unknown
図7Cに示すように、文書Aと文書Bとの得点の差が小さくなるため、ランキングの順位が変化して、関連情報検索部13は、文書Bも比較的上位にランキングすることになる。この場合、ユーザが実際には文書について詳しくなかったのであるが、ユーザ自身に対する不明語密度が小さかったために、不明語分類部12Aによってユーザがテキストデータの内容に詳しいと判定されることもありうる。そのような場合であっても、不明語分類部12Aによって他のメンバにとって不明語が多いと判断されるため、関連情報検索部13は、文書Bを上位にランキングする。そのため、ユーザは、不明語に対する詳しい説明を参照することができる。
As shown in FIG. 7C, since the difference in the scores between the document A and the document B becomes small, the ranking order changes, and the related
表1に、関連情報検索部13が検索する検索対象の不明語に対する関連情報の一例を示す。表1に示す例では、関連情報検索部13は、略語辞書、専門用語辞書、過去に参照した文書、及びインターネット情報Web情報を、検索対象の不明語に対する関連情報として検索する。表1において、略語辞書は略語を展開した正式な表現のみを表すものであり、専門用語辞書はその領域(分野)の知識のない人にその専門用語の意味を教えるものである。また、過去に参照した文書は、過去にユーザ自身が作成した文書や会議等で参照した文書の集合である。
Table 1 shows an example of related information for an unknown word to be searched for which the related
以上のように、本実施例によれば、テキストデータ中の不明語密度に基づいて不明語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。 As described above, according to the present embodiment, unknown words are classified based on the unknown word density in the text data, so it is determined whether or not the contents of the text data are contents in a field that can be understood by the user. Can do. Therefore, appropriate related information can be selected and presented depending on whether the content of the text data is in a field that can be understood by the user.
次に、本発明の第2の実施例を図面を参照して説明する。なお、本実施例で示す関連情報検索システムは、第3の実施形態で示した関連情報検索システムに相当する。本実施例では、不明語分類部12Bが、言い換え表現既知判定部123を含む点で、第1の実施例と異なる。また、関連情報検索システムは、不明語の言い換えを行うために略語辞書や、カタカナ語辞書等からなる言い換え辞書3を、予め磁気ディスク装置や光ディスク装置等の記憶装置に記憶する。
Next, a second embodiment of the present invention will be described with reference to the drawings. The related information search system shown in the present example corresponds to the related information search system shown in the third embodiment. This embodiment differs from the first embodiment in that the unknown
言い換え表現既知判定部123は、略語辞書やカタカナ語辞書等の言い換え辞書3から、入力されたテキストデータに含まれる不明語句に対する言い換え表現を取得(抽出)する。また、言い換え表現既知判定部123は、抽出した言い換え表現がテキストデータの対象文章中に登場するか否かを判断する。また、対象文章中に登場する場合には、言い換え表現既知判定部123は、その言い換え表現も不明語であるか否かを判定する。
The paraphrase expression known
例えば、例文1に示すテキストデータを入力した場合に、言い換え表現既知判定部123は、不明語「KPI」に対して、略語辞書から言い換え表現「Key Performance Indicator 」を得たものとする。
For example, when the text data shown in
言い換え表現既知判定部123は、言い換え表現が不明語か否かを調べると、テキストデータの対象文章中に「Key Performance Indicator 」が含まれており、かつユーザが「Key Performance Indicator 」も不明語と指定していると判定する。そして、カテゴリ分類部124は、言い換え表現既知判定部123の判定結果に基づいて、不明語に対して言い換え表現に置き換えてもユーザが理解できない語であると分類する。この場合、ユーザにとって不明語の表す内容自体が未知である可能性が高いと判断できる。そのため、関連情報検索部13Bは、不明語に対する詳細な説明を含む関連情報の優先度を上げて検索結果とする。そして、関連情報提示部14が詳細な説明を含む関連情報を提示することで、ユーザは不明語に対する内容まで理解することができる。
When the paraphrase expression known
一方、関連情報検索システムが以下に示す例文2をテキストデータとして入力する場合を考える。 On the other hand, consider a case where the related information search system inputs the following example sentence 2 as text data.
例文2「弊社は、このたび次世代サプライチェーン・マネジメント構築事業を日本国内で推進してまいります。日本の製造業におけるSCMパッケージの導入率は1割以下と推測されます。」 Example 2 “We are promoting the next-generation supply chain management construction business in Japan. The introduction rate of SCM packages in the Japanese manufacturing industry is estimated to be less than 10%.”
上記に示す例文2を入力した場合、例えば、言い換え表現既知判定部123は、不明語「SCM」に対して、略語辞書から言い換え表現「サプライチェーン・マネジメント」を得たものとする。
When the example sentence 2 described above is input, for example, it is assumed that the paraphrase expression known
言い換え表現既知判定部123は、言い換え表現が不明語か否かを調べると、入力テキストデータ中に「サプライチェーン・マネジメント」があり、ユーザが不明語として指定していないと判断する。この場合、カテゴリ分類部124は、言い換え表現既知判定部123の判定結果に基づいて、不明語「SCM」について言い換え表現に置き換えればユーザが理解できる語であるとして分類する。この場合、ユーザは不明語の表す意味自体は分かっているため、関連情報検索部13Bは、略語辞書から抽出した言い換え表現を優先して検索結果とする。そして、関連情報提示部14が言い換え語「サプライチェーン・マネジメント」を提示することで、ユーザは不明語に対する意味を理解することができる。
When the paraphrase expression known
以上のように、本実施例によれば、不明語に対する言い換え語があるか否かを判断し、その言い換え語も不明語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。 As described above, according to the present embodiment, it is determined whether or not there is a paraphrase for the unknown word, and the unknown word is classified based on whether or not the paraphrase is also an unknown word. Appropriate related information can be selected and presented depending on whether there is a possible paraphrase.
なお、上記に示した各実施形態では、以下の(1)〜(5)に示すような関連情報検索システムの特徴的構成が示されている。 In each of the embodiments described above, the characteristic configuration of the related information search system as shown in the following (1) to (5) is shown.
(1)関連情報検索システムは、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段(例えば、入力部11によって実現される)と、テキスト入力手段により入力されたテキストデータに基づいて、未知語に対するユーザの知識及び未知語の関連分野に対するユーザの知識を推定することによって、未知語を分類する分類手段(例えば、不明語分類部12によって実現される)と、分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段(例えば、関連情報検索部13によって実現される)と、検索手段により検索された関連情報を提示する提示手段(例えば、関連情報提示部14によって実現される)とを備える。そのような構成によれば、入力されたテキストデータに基づいて未知語を分類する。そして、分類した未知語の種別に従って、検索対象の関連情報を提示する。そのため、未知語の分類に従って自動的に検索対象の未知語に対する関連情報を選択し提示することができる。従って、ユーザに未知語に対する関連情報を提示するためのユーザの作業コストを削減することができる。 (1) The related information search system is realized by a text input unit (for example, the input unit 11) that inputs text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified. And classifying means for classifying unknown words (for example, unknown words) by estimating user knowledge of unknown words and user knowledge of related fields of unknown words based on text data input by the text input means A search unit for searching related information related to the unknown word (for example, realized by the related information search unit 13) based on the classification result of the unknown word by the classification unit, and a search Presenting means for presenting related information retrieved by the means (for example, realized by the related information presenting unit 14) Equipped with a. According to such a configuration, the unknown words are classified based on the input text data. Then, the related information to be searched is presented according to the classified unknown word type. Therefore, it is possible to automatically select and present related information for the unknown word to be searched according to the unknown word classification. Therefore, it is possible to reduce the user's work cost for presenting relevant information for unknown words to the user.
(2)分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度(例えば、不明語密度)を算出する密度算出手段(例えば、不明語密度解析部121によって実現される)と、密度算出手段により算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリ(例えば、未知語密度が高いカテゴリ)と未知語密度が閾値以下のカテゴリである第2のカテゴリ(例えば、未知語密度が低いカテゴリ)とに分類する第1のカテゴリ分類手段(例えば、カテゴリ分類部122によって実現される)とを備える。検索手段は、分類手段によって検索対象の未知語が第1のカテゴリに分類されると、検索対象の未知語に対する所定量の説明(例えば、詳細な説明)を含む関連情報を検索し、分類手段によって検索対象の未知語が第2のカテゴリに分類されると、検索対象の未知語に対する所定量より簡潔な説明を含む関連情報を検索する。そのような構成によれば、テキストデータ中の未知語密度に基づいて未知語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。 (2) The classification unit calculates density based on the text data input by the text input unit to calculate an unknown word density (for example, unknown word density) that is a density at which the unknown word to be searched is included in the text data. Based on the means (for example, realized by the unknown word density analysis unit 121) and the unknown word density calculated by the density calculation means, the unknown word to be searched is a category whose unknown word density is larger than a predetermined threshold. A first category classification means (for example, a category having a high unknown word density) and a second category (for example, a category having a low unknown word density) whose unknown word density is a threshold or less. For example, it is realized by the category classification unit 122). When the unknown word to be searched is classified into the first category by the classifying means, the searching means searches related information including a predetermined amount of explanation (for example, detailed description) for the unknown word to be searched, and the classifying means When the unknown word to be searched is classified into the second category by the above, related information including a simpler explanation than a predetermined amount for the unknown word to be searched is searched. According to such a configuration, since unknown words are classified based on the unknown word density in the text data, it can be determined whether or not the contents of the text data are contents in a field that can be understood by the user. Therefore, appropriate related information can be selected and presented depending on whether the content of the text data is in a field that can be understood by the user.
(3)分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段(例えば、言い換え表現既知判定部123によって実現される)と、言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段(例えば、カテゴリ分類部124によって実現される)とを備える。検索手段は、分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する。そのような構成によれば、未知語に対する言い換え語があるか否かを判断し、その言い換え語も未知語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。 (3) The classification unit is realized by a paraphrase expression determination unit (for example, a paraphrase expression known determination unit 123) that determines a paraphrased paraphrased expression of an unknown word to be searched based on text data input by the text input unit. Based on the determination result of the paraphrased expression determining means, the user can replace the unknown word to be searched with the third category, which is a word category that can be understood by the user by replacing it with the paraphrased expression. And a second category classification means (for example, realized by the category classification unit 124) for classifying into a fourth category that is a category of words that cannot be understood. When the unknown word to be searched is classified into the third category by the classifying means, the search means searches the paraphrase expression as related information for the unknown word to be searched. According to such a configuration, it is determined whether or not there is a paraphrase for the unknown word, and the unknown word is classified based on whether or not the paraphrase is also an unknown word. Appropriate related information can be selected and presented depending on whether it exists.
(4)第1のカテゴリ分類手段は、密度算出手段により算出された未知語密度が所定の閾値より大きいか否かを判定し、未知語密度が所定の閾値より大きいと判定すると、検索対象の未知語を第1のカテゴリに分類し、未知語密度が所定の閾値以下であると判定すると、検索対象の未知語を第2のカテゴリに分類する。そのような構成によれば、未知語密度の閾値判定を行うことによって、容易にテキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。 (4) The first category classification unit determines whether or not the unknown word density calculated by the density calculation unit is greater than a predetermined threshold, and determines that the unknown word density is greater than the predetermined threshold. If the unknown word is classified into the first category and it is determined that the unknown word density is equal to or lower than a predetermined threshold, the unknown word to be searched is classified into the second category. According to such a configuration, it is possible to easily determine whether or not the content of the text data is in a field that can be understood by the user by performing a threshold value determination of the unknown word density.
(5)関連情報検索システムは、予め言い換え表現を含む言い換え辞書(例えば、言い換え辞書3)を記憶する言い換え辞書記憶手段(例えば、言い換え辞書3を記憶する磁気ディスク装置や光ディスク装置等の記憶装置によって実現される)をさらに備える。言い換え表現判定手段は、検索対象の未知語に対する言い換え表現を言い換え辞書記憶手段から抽出し、抽出した言い換え表現が未知語であるか否かを判定する。第2のカテゴリ分類手段は、言い換え表現判定手段により言い換え表現が未知語でないと判定されると、検索対象の未知語を第3のカテゴリに分類し、言い換え表現判定手段により言い換え表現が未知語であると判定されると、検索対象の未知語を第4のカテゴリに分類する。そのような構成によれば、予め記憶する言い換え辞書から容易に言い換え表現を抽出して取得することができる。
(5) The related information retrieval system uses a paraphrase dictionary storage unit (for example, a magnetic disk device storing the paraphrase
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 The present invention has been described above with reference to the embodiments, but the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
この出願は、2007年8月3日に出願された日本出願特願2007−203196号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。 This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2007-203196 for which it applied on August 3, 2007, and takes in those the indications of all here.
Claims (12)
前記テキスト入力手段により入力されたテキストデータに基づいて、未知語を分類する分類手段と、
前記分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段と、
前記検索手段により検索された関連情報を提示する提示手段と
を備える関連情報検索システム。Text input means for inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified;
Classification means for classifying unknown words based on the text data input by the text input means;
Search means for searching related information related to the unknown word based on the classification result of the unknown word by the classification means;
A related information search system comprising: presenting means for presenting related information searched by the search means.
テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度を算出する密度算出手段と、
前記密度算出手段により算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリと未知語密度が前記閾値以下のカテゴリである第2のカテゴリとに分類する第1のカテゴリ分類手段と
を備え、
前記検索手段は、
前記分類手段によって検索対象の未知語が第1のカテゴリに分類されると、検索対象の未知語に対する所定量の説明を含む関連情報を検索し、
前記分類手段によって検索対象の未知語が第2のカテゴリに分類されると、検索対象の未知語に対する前記所定量より簡潔な説明を含む関連情報を検索する
請求項1記載の関連情報検索システム。The classification means includes
Based on the text data input by the text input means, density calculation means for calculating an unknown word density, which is a density in which the unknown word to be searched is included in the text data,
Based on the unknown word density calculated by the density calculating means, the unknown word to be searched is classified into a first category whose unknown word density is larger than a predetermined threshold and a category whose unknown word density is equal to or lower than the threshold. A first category classification means for classifying into a second category,
The search means includes
When the unknown word to be searched is classified into the first category by the classifying unit, related information including a predetermined amount of explanation for the unknown word to be searched is searched,
The related information search system according to claim 1, wherein when the unknown word to be searched is classified into the second category by the classification unit, related information including a simpler explanation than the predetermined amount for the unknown word to be searched is searched.
テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段と、
前記言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段と
を備え、
前記検索手段は、前記分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する
請求項1記載の関連情報検索システム。The classification means includes
Based on the text data input by the text input means, a paraphrase expression determination means for determining a paraphrased paraphrased expression of the unknown word to be searched;
Based on the determination result of the paraphrase expression determination means, the third word, which is a category of words that can be understood by the user by replacing the unknown word to be searched with the paraphrase expression, and also understood by the user even when the paraphrase expression is replaced. A second category classification means for classifying into a fourth category which is a category of words that cannot be performed,
The related information search system according to claim 1, wherein when the unknown word to be searched is classified into the third category by the classifying means, the search means searches for the paraphrase expression as related information for the unknown word to be searched.
前記言い換え表現判定手段は、
検索対象の未知語に対する言い換え表現を前記言い換え辞書記憶手段から抽出し、
抽出した言い換え表現が未知語であるか否かを判定し、
前記第2のカテゴリ分類手段は、
前記言い換え表現判定手段により言い換え表現が未知語でないと判定されると、検索対象の未知語を第3のカテゴリに分類し、
前記言い換え表現判定手段により言い換え表現が未知語であると判定されると、検索対象の未知語を第4のカテゴリに分類する
請求項3記載の関連情報検索システム。It further comprises a paraphrase dictionary storage means for storing a paraphrase dictionary including a paraphrase expression in advance,
The paraphrase expression judging means includes
Extracting the paraphrase expression for the unknown word to be searched from the paraphrase dictionary storage means,
Determine whether the extracted paraphrase is an unknown word,
The second category classification means includes:
If the paraphrase expression determining unit determines that the paraphrase expression is not an unknown word, the unknown word to be searched is classified into a third category;
The related information search system according to claim 3, wherein when the paraphrase expression determining unit determines that the paraphrase expression is an unknown word, the unknown word to be searched is classified into a fourth category.
入力されたテキストデータに基づいて、未知語を分類するステップと、
未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、
検索された関連情報を提示するステップと
を備える関連情報検索方法。Inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified;
Classifying unknown words based on input text data;
Searching related information related to the unknown word based on the classification result of the unknown word;
A related information search method comprising: a step of presenting searched related information.
入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度を算出するステップと、
算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリと未知語密度が前記閾値以下のカテゴリである第2のカテゴリとに分類するステップと
を備え、
検索するステップは、
検索対象の未知語が第1のカテゴリに分類された場合に、検索対象の未知語に対する所定量の説明を含む関連情報を検索するステップと、
検索対象の未知語が第2のカテゴリに分類された場合に、検索対象の未知語に対する前記所定量より簡潔な説明を含む関連情報を検索するステップと
を備える請求項5記載の関連情報検索方法。The classification step is
Calculating an unknown word density, which is a density in which the unknown word to be searched is included in the text data, based on the input text data;
Based on the calculated unknown word density, an unknown word to be searched is classified into a first category whose unknown word density is a category larger than a predetermined threshold, and a second category whose unknown word density is a category equal to or lower than the threshold. And a step of classifying
The search step is
Searching for related information including a predetermined amount of explanation for the unknown word to be searched when the unknown word to be searched is classified into the first category;
The related information search method according to claim 5, further comprising: searching related information including a concise description of the unknown word to be searched for when the unknown word to be searched is classified into the second category. .
入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、
判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップと
を備え、
検索するステップは、検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える
請求項5記載の関連情報検索方法。The classification step is
Determining a paraphrased paraphrased expression of the unknown word to be searched based on the input text data;
Based on the determination result, a third category that is a category of words that can be understood by the user by replacing the unknown word to be searched with the paraphrase expression, and a category of words that cannot be understood by the user even if the word is replaced with the paraphrase expression. Categorizing into a fourth category,
The related information search method according to claim 5, wherein the searching step includes a step of searching the paraphrase expression as related information for the unknown word to be searched when the unknown word to be searched is classified into the third category.
判定するステップは、
検索対象の未知語に対する言い換え表現を前記言い換え辞書から抽出するステップと、
抽出された言い換え表現が未知語であるか否かを判定するステップと
を備え、
第3のカテゴリと第4のカテゴリとに分類するステップは、
言い換え表現が未知語でないと判定された場合に、検索対象の未知語を第3のカテゴリに分類するステップと、
言い換え表現が未知語であると判定された場合に、検索対象の未知語を第4のカテゴリに分類するステップと
を備える請求項7記載の関連情報検索方法。Further comprising the step of storing a paraphrase dictionary including a paraphrase expression in advance,
The determining step is
Extracting a paraphrase expression for the unknown word to be searched from the paraphrase dictionary;
Determining whether the extracted paraphrase expression is an unknown word,
The step of classifying into a third category and a fourth category is:
When it is determined that the paraphrase expression is not an unknown word, the unknown word to be searched is classified into a third category;
The related information search method according to claim 7, further comprising: classifying the unknown word to be searched into a fourth category when it is determined that the paraphrase expression is an unknown word.
入力されたテキストデータに基づいて、未知語を分類するステップと、
未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、
検索された関連情報を提示するステップと
をコンピュータに実行させるためのプログラム。Inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified;
Classifying unknown words based on input text data;
Searching related information related to the unknown word based on the classification result of the unknown word;
A program for causing a computer to execute the step of presenting the retrieved related information.
入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度を算出するステップと、
算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリと未知語密度が前記閾値以下のカテゴリである第2のカテゴリとに分類するステップと
を備え、
検索するステップは、
検索対象の未知語が第1のカテゴリに分類された場合に、検索対象の未知語に対する所定量の説明を含む関連情報を検索するステップと、
検索対象の未知語が第2のカテゴリに分類された場合に、検索対象の未知語に対する前記所定量より簡潔な説明を含む関連情報を検索するステップと
を備える請求項9記載のプログラム。The classification step is
Calculating an unknown word density, which is a density in which the unknown word to be searched is included in the text data, based on the input text data;
Based on the calculated unknown word density, an unknown word to be searched is classified into a first category whose unknown word density is a category larger than a predetermined threshold, and a second category whose unknown word density is a category equal to or lower than the threshold. And a step of classifying
The search step is
Searching for related information including a predetermined amount of explanation for the unknown word to be searched when the unknown word to be searched is classified into the first category;
The method according to claim 9, further comprising: searching related information including a concise description of the unknown word to be searched for when the unknown word to be searched is classified into the second category.
入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、
判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップと
を備え、
検索するステップは、検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える
請求項9記載のプログラム。The classification step is
Determining a paraphrased paraphrased expression of the unknown word to be searched based on the input text data;
Based on the determination result, a third category that is a category of words that can be understood by the user by replacing the unknown word to be searched with the paraphrase expression, and a category of words that cannot be understood by the user even if the word is replaced with the paraphrase expression. Categorizing into a fourth category,
The program according to claim 9, wherein the searching step includes a step of searching for the paraphrase expression as related information for the unknown word to be searched when the unknown word to be searched is classified into the third category.
判定するステップは、
検索対象の未知語に対する言い換え表現を前記言い換え辞書から抽出するステップと、
抽出された言い換え表現が未知語であるか否かを判定するステップと
を備え、
第3のカテゴリと第4のカテゴリとに分類するステップは、
言い換え表現が未知語でないと判定された場合に、検索対象の未知語を第3のカテゴリに分類するステップと、
言い換え表現が未知語であると判定された場合に、検索対象の未知語を第4のカテゴリに分類するステップと
を備える請求項11記載のプログラム。Causing the computer to further execute a step of storing a paraphrase dictionary including a paraphrase expression in advance;
The determining step is
Extracting a paraphrase expression for the unknown word to be searched from the paraphrase dictionary;
Determining whether the extracted paraphrase expression is an unknown word,
The step of classifying into a third category and a fourth category is:
When it is determined that the paraphrase expression is not an unknown word, the unknown word to be searched is classified into a third category;
The program according to claim 11, further comprising: classifying unknown words to be searched into a fourth category when it is determined that the paraphrase expression is an unknown word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009526445A JP5218409B2 (en) | 2007-08-03 | 2008-08-04 | Related information search system and related information search method |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007203196 | 2007-08-03 | ||
JP2007203196 | 2007-08-03 | ||
JP2009526445A JP5218409B2 (en) | 2007-08-03 | 2008-08-04 | Related information search system and related information search method |
PCT/JP2008/063955 WO2009020092A1 (en) | 2007-08-03 | 2008-08-04 | Associated information search system and associated information search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009020092A1 true JPWO2009020092A1 (en) | 2010-11-04 |
JP5218409B2 JP5218409B2 (en) | 2013-06-26 |
Family
ID=40341325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009526445A Expired - Fee Related JP5218409B2 (en) | 2007-08-03 | 2008-08-04 | Related information search system and related information search method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5218409B2 (en) |
WO (1) | WO2009020092A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373638B2 (en) | 2019-01-22 | 2022-06-28 | Interactive Solutions Corp. | Presentation assistance device for calling attention to words that are forbidden to speak |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011013229A1 (en) * | 2009-07-30 | 2011-02-03 | 株式会社東芝 | Behavior recommendation device |
US9305081B2 (en) | 2009-11-20 | 2016-04-05 | Nec Corporation | Information processing device |
JP5032600B2 (en) * | 2010-01-07 | 2012-09-26 | 株式会社東芝 | Document readability evaluation program and document readability evaluation apparatus |
JP7476962B2 (en) * | 2020-07-03 | 2024-05-01 | 日本電信電話株式会社 | Speech understanding support system, method, device and program |
JP2024041246A (en) * | 2022-09-14 | 2024-03-27 | Necプラットフォームズ株式会社 | Processing system, processing method, and program |
CN118261141B (en) * | 2024-04-17 | 2024-09-06 | 后浪出版咨询(北京)有限责任公司 | Self-learning book correction and editing system based on data relevance |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3752717B2 (en) * | 1996-01-29 | 2006-03-08 | 富士ゼロックス株式会社 | Document processing device |
JP3629905B2 (en) * | 1997-07-04 | 2005-03-16 | 富士ゼロックス株式会社 | Document processing apparatus and document processing method |
JP2004302926A (en) * | 2003-03-31 | 2004-10-28 | Fujitsu Ltd | Term retrieval method, and program making computer carry out the method |
-
2008
- 2008-08-04 WO PCT/JP2008/063955 patent/WO2009020092A1/en active Application Filing
- 2008-08-04 JP JP2009526445A patent/JP5218409B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373638B2 (en) | 2019-01-22 | 2022-06-28 | Interactive Solutions Corp. | Presentation assistance device for calling attention to words that are forbidden to speak |
Also Published As
Publication number | Publication date |
---|---|
JP5218409B2 (en) | 2013-06-26 |
WO2009020092A1 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huq et al. | Sentiment analysis on Twitter data using KNN and SVM | |
CN110888990B (en) | Text recommendation method, device, equipment and medium | |
Weimer et al. | Automatically assessing the post quality in online discussions on software | |
Luyckx et al. | The effect of author set size and data size in authorship attribution | |
US9460195B1 (en) | System and methods for determining term importance, search relevance, and content summarization | |
Chen et al. | User intention modeling in web applications using data mining | |
JP5218409B2 (en) | Related information search system and related information search method | |
CN109299865B (en) | Psychological evaluation system and method based on semantic analysis and information data processing terminal | |
US9189470B2 (en) | Generation of explanatory summaries | |
US20120203584A1 (en) | System and method for identifying potential customers | |
WO2009154153A1 (en) | Document search system | |
US20040098385A1 (en) | Method for indentifying term importance to sample text using reference text | |
US20110112824A1 (en) | Determining at least one category path for identifying input text | |
JP5391632B2 (en) | Determining word and document depth | |
JP2009093649A (en) | Recommendation for term specifying ontology space | |
BE1027696B1 (en) | ANALYSIS AND COMPARISON OF CHARACTER-CODED DIGITAL DATA, PARTICULARLY FOR JOB MATCHING | |
US11275777B2 (en) | Methods and systems for generating timelines for entities | |
CN109947902A (en) | A kind of data query method, apparatus and readable medium | |
Bhatia et al. | Identifying the role of individual user messages in an online discussion and its use in thread retrieval | |
CN112307336A (en) | Hotspot information mining and previewing method and device, computer equipment and storage medium | |
US11681732B2 (en) | Tuning query generation patterns | |
McGillivray et al. | Digital humanities and natural language processing:“je t’aime... moi non plus” | |
US20220366346A1 (en) | Method and apparatus for document evaluation | |
Kerremans et al. | Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler | |
CN114491034A (en) | Text classification method and intelligent device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130218 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160315 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |